Paper Review/Computer Vision
[논문 리뷰] Editing Models with Task Arithmetic [arxiv Dec 8, 2022]Paper Review/Computer Vision 2023. 1. 9. 11:46
본 연구에서는 task vector를 제안하여, PLM을 down-stream task에 적용할때 task에 맞게 모델을 edit 하거나, biases를 mitigate, unwanted behavior를 컨트롤, 새로운 information으로 update 하는데에 이용한다. [Github] - [Breif Summary created by ChatGPT] Task vectors can modify the behavior of pre-trained neural networks by specifying a direction in the weight space of the model. Task vectors are creat..
[논문 리뷰] Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input (ECCV 2022)Paper Review/Computer Vision 2022. 12. 21. 11:17
Two paradigms of Transformer-based architecture for intra - and inter-modal interactions 1) Single-Encoder - Single-stream encoder를 이용하여 각 modality를 jointly하게 encoding 하는 방식. => dual-encoder방식보다 성능은 높을 수 있지만, time-complexity가 너무 커서 real-world applications에 적용되기에는 무리가 있음. 2) Dual-Encoder - 각 modality별로 encoder를 따로 분리하여 각자 representation을 extraction한 후, cross-attention 같은 layer를 통해 각 modality의 fea..
[논문 리뷰] Conditioned and composed image retrieval combining and partially fine-tuning CLIP-based features (CVPR 2022 Workshop)Paper Review/Computer Vision 2022. 12. 20. 20:59
Content-Based Image Retrieval with User Feedback Information Content-Based Image Retrieval (CBIR)은 query로 이미지를 받아 간의 distance를 구하는 문제이다. 이전에는 query로 단순히 image만을 입력받았다면 최근에는 user feedback 정보를 같이 활용하여 CBIR을 하는 연구들이 제안되고 있다. 가령 아래와 같이 첫번째 검색된 결과를 기반으로 유저가 해당 이미지와 유사하지만 Korn이라는 logo를 갖고있는 이미지를 검색해달라고 user feedback 정보를 제공하면 해당 조건들을 부합하는 이미지를 검색해주는것이다. 해당 연구에서는 user feedback을 text information으로만 제한한다...