전체 글(17)
-
[논문리뷰] Qwen2.5-VL Technical Report. arXiv'2502
Qwen-VL Series은 Alibaba Group의 Qwen 팀에서 꾸준하게 버전업을 하고있는 VLM family입니다. 23년 9월 출시된 Qwen-VL을 시작으로, Qwen-VL-Plus (23년 11월), Qwen-VL-Max (24년 1월), Qwen2-VL (24년 8월)에 이어 Qwen2.5-VL (25년 1월)이 출시되었습니다. 3B, 7B, 72B 모델이 2월에 공개되었고, 32B는 저번주에 공개되었네요.Introduction요즘의 Multimodal Large Language Model (MLLM)은 다양한 문제를 푸는 능력을 가지지만, 어느 하나 특출난 성능을 보여주진 않습니다. 즉, 평균적인 성능은 좋은데 어떤 문제를 1등으로 풀어내는 모델은 아닙니다.Qwen2.5-VL은 MLLM..
2025.03.31 -
[논문리뷰] VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding. arXiv'2501
VideoLLaMA는 버전 1 (23년 5월), 버전 2 (24년 6월)에 이어 Alibaba에서 꾸준히 업데이트하고 있는 VLM 입니다. 25년 1월에 버전 3가 공개되었는데요, 이번 글에서는 VideoLLaMA3를 다뤄봅니다.IntroductionVideoLLaMA3의 구조입니다. 일반적인 VLM처럼 pre-trainined LLM을 골자로 하여, query가 encoding된 text token 뒤에 video가 encoding된 vision token이 추가로 붙게됩니다. Pre-trained LLM은 Qwen-2.5 [1]를 이용했으며, pre-trained visual encoder는 SigLIP [2]을 사용합니다 (참고로 2B는 SigLIP을, 7B는 pretrained 2B의 visual..
2025.03.17 -
[논문리뷰] Exploring Enhanced Contextual Information for Video-Level Object Tracking. AAAI'25
LaSOT benchmark 상위권 논문들을 읽어보는 중입니다. 앞서 리뷰한 SAMURAI과 DAM4SAM은 memory management 개선만으로 추가적인 학습 없이 SAM 2의 성능을 올릴 수 있음을 보여주는 연구였는데요, 이번에 리뷰할 MCITrack은 Mamba를 활용한 새로운 구조의 모델을 제안합니다.Problem기존 visual trackers [1, 2, 3, 4, 5]는 target의 initial appearance만 고려했기 때문에 video sequence 동안 물체의 외형 변화에 취약했습니다. (a) 성능 향상을 위해 dynamic template을 사용하여 target의 appearance의 변화를 고려할 수 있었지만, context를 고려하는 것은 아니였습니다 [6, 7, 8..
2025.01.13 -
[논문리뷰] A Distractor-Aware Memory for Visual Object Tracking with SAM2. arXiv'2411
ProblemTracking이 실패하는 주요 원인 중 하나는 distractors 입니다. Distractors를 두 종류로 구분할 수 있습니다.External distractors: Target object 주변에 비슷한 물체가 있는 경우Internal distractors: Tracked part와 비슷한 target object의 다른 part가 보이게 된 경우Distractors에 의한 visual ambiguity를 해소하기 위한 기존의 노력들은 크게 세가지로 나누어집니다.그냥 feature가 discriminative 하도록 잘 학습하기 [1, 2, 3, 4, 5],foreground와 background를 명시적으로 구분하는 모듈 추가하기 [6, 7, 8, 9],memory 기반으로 past..
2025.01.05 -
[논문리뷰] SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory. arXiv'2411
ProblemSegment Anything Model (SAM) 2 [1]는 object segmentation에는 좋은 성능을 보여주었지만, visual object tracking, 특히 빠르게 움직이거나 가려진 물체로 가득찬 scene에서는 아쉬운 성능을 보여주곤 했습니다.source: https://github.com/yangchris11/samurai이는 appearance similarity에는 집중했지만 spatial 및 temporal consistency에는 소홀해 motion cue를 적절히 활용하지 못했기 때문입니다 (Case 1). 또 다른 문제점으로는 SAM 2는 streaming memory architecture를 도입했는데요, memories간 quality의 차이를 고려하..
2024.12.31 -
Visual Object Tracking Benchmarks
VastTrackVastTrack: Vast Category Visual Object Tracking. NeurIPS'24The number of sequences: 50610The average sequence length: 83 framesThe number of object categories: 2115특징: 짧지만 많은 수의 video sequences와 다양한 object categoriesVOTS2024The Second Visual Object Tracking Segmentation VOTS2024 Challenge Results. ECCVW'24The number of sequences: 144The average sequence length: 2000 frames (min: 63, max..
2024.12.30