[논문 리뷰] Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input (ECCV 2022)

Paper Review/Computer Vision 2022. 12. 21. 11:17

Two paradigms of Transformer-based architecture for intra - and inter-modal interactions

1) Single-Encoder

- Single-stream encoder를 이용하여 각 modality를 jointly하게 encoding 하는 방식.

=> dual-encoder방식보다 성능은 높을 수 있지만, time-complexity가 너무 커서 real-world applications에 적용되기에는 무리가 있음.

2) Dual-Encoder

- 각 modality별로 encoder를 따로 분리하여 각자 representation을 extraction한 후, cross-attention 같은 layer를 통해 각 modality의 feature를 fusion하는 방식.

- image-text retrieval 같은 테스크에서 단순하게는, image & text representation끼리의 dot product 같은것을 적용할수도 있음.

=> 미리 검색 후보군들에 대한 representation들을 caching 해놓을 수 있어 실제 서비스에 적합.

Misalignment Between Modal Semantics

- Single-stream models의 경우, visual features는 high-level semantics를 갖고있지만 text의 경우 low-level semantics를 갖고 있음. 즉 두 modality의 feature가 same semantic level이 아니기에 두 modal의 representation을 하나의 encoder에서 처리하는것은 contradictory함.

- Dual-stream models의 경우, modality별로 각자 다른 encoder를 사용함으로써 misalignment를 어느정도 완화할 수 있지만 각 modal간의 interation이 특정 layer에서만 이뤄진다는 한계점이 있음 (can be inflexible).

- 일반적으로 layer가 깊어질수록 higher level의 semantics를 뽑을 수 있지만, 위의 figure를 살펴보면 6~10 layer까지밖에 되지 않았음에도 성능 향상이 이뤄지지 않거나 감소하는것을 볼 수 있다.

- 즉, 두 modality를 fusion하는 방식에서 아직까지는 한계가 있다고 볼 수 있다.

- 또 하나의 finding으로는 task에 따라 optimal depth가 각각 다르다는것인데, 이럴경우 모든 task에 optimal한 fixed architecture를 설계하기 어려울 수 있다.

'Paper Review > Computer Vision' 카테고리의 다른 글

[논문 리뷰] Editing Models with Task Arithmetic [arxiv Dec 8, 2022] (0)	2023.01.09
[논문 리뷰] Conditioned and composed image retrieval combining and partially fine-tuning CLIP-based features (CVPR 2022 Workshop) (0)	2022.12.20

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

AI 지식창고 AI 지식창고

Two paradigms of Transformer-based architecture for intra - and inter-modal interactions

Misalignment Between Modal Semantics

'Paper Review > Computer Vision' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

Two paradigms of Transformer-based architecture for intra - and inter-modal interactions

Misalignment Between Modal Semantics

'Paper Review > Computer Vision' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역