[논문리뷰] VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding. arXiv'2501
VideoLLaMA는 버전 1 (23년 5월), 버전 2 (24년 6월)에 이어 Alibaba에서 꾸준히 업데이트하고 있는 VLM 입니다. 25년 1월에 버전 3가 공개되었는데요, 이번 글에서는 VideoLLaMA3를 다뤄봅니다.IntroductionVideoLLaMA3의 구조입니다. 일반적인 VLM처럼 pre-trainined LLM을 골자로 하여, query가 encoding된 text token 뒤에 video가 encoding된 vision token이 추가로 붙게됩니다. Pre-trained LLM은 Qwen-2.5 [1]를 이용했으며, pre-trained visual encoder는 SigLIP [2]을 사용합니다 (참고로 2B는 SigLIP을, 7B는 pretrained 2B의 visual..
2025.03.17