[리뷰]Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

rueki

[리뷰]Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers 본문

paper review

[리뷰]Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

륵기 2022. 8. 2. 16:16

728x90

Abstract

비디오 data에서 시간축에 대한 부분은 딥러닝에서 사실상 2d 공간정보를 다룰 때처럼 다루기도 했었는데, 이런 접근방법은 같은 장소일지언정, 임의의 프레임에서 객체 위치가 다르기 때문에 공간의 정보만으로는 각 프레임 간 연관성을 지으며 학습하기가 어렵다. 그래서 temporal한 정보를 학습하기 위해서 trajectory attention을 제안한다.

Introduction

Transformer에서 Attention 메커니즘은 데이터 간에서도, 도메인 간에서도 서로 잘 작동하게 되어있다. 그러나 inductive bias가 낮기 때문에 (새로 본 데이터에 대해서 추론할 수 있는 능력이 많이 부족함) 이를 보완할 수 있는 가장 단순한 방법은 데이터 양이 엄청 많거나, 도메인 확장이 이루어져야한다.

Video 데이터는 연속된 프레임 간에 spatial information을 갖고있으며 또한 temporal information을 갖고있다.

그러나 spatial 정보가 중복된 특징을 많이 반영할 수도 있게 된다.

Vision transformer에서 self-attention은 이미지 패치 간의 비교를 통해서 spatial location을 추출한다.

비디오는 시간에 따라서 point가 움직이기 때문에 2d trajectory로 투영하는 것 제외하고는 이미지와 접근방법이 유사한데, 기존의 video transformer는 trajectory 정보를 사실상 무시하며 학습되는 모델이다. 결국에 시간 차원에 걸쳐 축으로 풀링함으로써 정보를 얻어내게 된다. 그리고 ViT가 이미지 패치에 대해서 동작을 하고 3D point에 대해서는 다룰 수가 없기에, 1D-trajectory에 대해서 추정을 하게 된다.

Trajectory Attention for Video Data

Trajectory Attention의 목적은 결국 비디오 내에서 정보를 더 잘 얻기 위함인데, 데이터 구조는 T x 3 x H x W (T: frame 수)

로 구성된다. 그리고 Spatial Attention, Temporal Attention을 순차적으로 함에 따라 공간과 sequential 정보를 얻게 하는데, 이에 앞서서 input data를 시공간 분할 임베딩(cuboid embedding)을 해서 D 차원으로 사영시키는데 이는 3d deconvolution과 효과가 비슷하다고 한다.

- Video Self Attention

Self-Attention은 input에 대해서 Q,K,V를 분리해서 연산을 진행하게 되는데, 여기서의 Q,K,V는 비디오에서 space-time location에 대한 벡터 값을 갖게 되며 다른 연산들과 똑같이 linear projection을 하게 된다.

spatial, temporal attention을 한번에 진행하는 것은 연산이 많이 복잡해지기 때문에, 각각 진행해서 합치게 되면 연산 복잡성은 낮아지게 한다. 그러나 이는 결국에 독립적으로만 분석하는 영향을 일으키기 때문에 우리는 프레임 사이의 토큰의 확률적 경로인 궤적을 따라 어텐션을 하는 방법을 제안한다. trajectory 확률에 기반한 trajectory token을 만들어서 사용한다고 한다.

궤적이 계산되면 프레임 내 정보/연결에 대해 추론하기 위해 시간에 걸쳐 궤적을 추가로 풀링하여서, Q,K,V 업데이트시 사용하게 된다.

결국에 이 연산도 space-time joint attentino을 해서 복잡도는 올라가지만, 성능 자체로는 더 좋다고 한다. 그리고 연산 최적화를 위해서 새로운 방법을 제안한다.

Experiments, Results

최근에 나왔던 ViT 기반 video transformer 모델들과 구조적으로 비교를 했을 때 ViViT와 다른 PoS를 사용하고 Attention도 다른 방법을 사용한 것을 볼 수가 있다.

728x90

'paper review' 카테고리의 다른 글

Distilling the Knowledge in a Neural Network 리뷰 (0)	2022.09.28
WGAN 과 WGAN-GP (0)	2021.07.24
SinGAN: Learning a Generative Model from a Single Natural Image 리뷰 (0)	2021.07.24
Vision Transformer (AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE) 리뷰하기 (0)	2021.07.20
Self Attention Generative Adversarial Networks (0)	2021.03.22

'paper review' Related Articles

Comments

rueki

[리뷰]Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers 본문

[리뷰]Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers

Experiments, Results

'paper review' 카테고리의 다른 글

티스토리툴바