hb.log

hb.log

  • 분류 전체보기 (17)
    • Video Segmentation (3)
    • Computer Vision (3)
    • Object Tracking (5)
    • 3D Vision (4)
    • VLM (2)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

hb.log

컨텐츠 검색

태그

mcitrack Computer Vision 3d reconstruction qwen aaai mast3r sam 2 dam4sam vot Video Object Segmentation Pose Estimation Video Instance Segmentation videollama visual object tracking vlm qwen2.5-vl 3D VISION DUSt3R videollama3 Calibration

최근글

댓글

공지사항

아카이브

videollama(1)

  • [논문리뷰] VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding. arXiv'2501

    VideoLLaMA는 버전 1 (23년 5월), 버전 2 (24년 6월)에 이어 Alibaba에서 꾸준히 업데이트하고 있는 VLM 입니다. 25년 1월에 버전 3가 공개되었는데요, 이번 글에서는 VideoLLaMA3를 다뤄봅니다.IntroductionVideoLLaMA3의 구조입니다. 일반적인 VLM처럼 pre-trainined LLM을 골자로 하여, query가 encoding된 text token 뒤에 video가 encoding된 vision token이 추가로 붙게됩니다. Pre-trained LLM은 Qwen-2.5 [1]를 이용했으며, pre-trained visual encoder는 SigLIP [2]을 사용합니다 (참고로 2B는 SigLIP을, 7B는 pretrained 2B의 visual..

    2025.03.17
이전
1
다음
티스토리
© 2018 TISTORY. All rights reserved.

티스토리툴바