옴니에이전트: 능동적 인식을 통한 영상 이해의 새로운 접근

Native Active Perception as Reasoning for Omni-Modal Understanding

💡 기존 영상 이해 모델의 비효율성을 극복하기 위해, 옴니에이전트는 사람이 정보를 탐색하듯 필요한 부분만 보고 생각하며 행동하는 방식으로 긴 영상을 효율적으로 이해하고 분석합니다.

핵심 요약

무엇을 · 이 연구는 긴 영상의 내용을 이해하는 기존 모델들이 모든 프레임을 똑같이 처리하여 비효율적이라는 문제점을 해결하고자 합니다. 특히, 질문의 난이도와 상관없이 전체 영상을 봐야 하는 '모두 보기' 방식의 한계를 극복하려 합니다.
어떻게 · 옴니에이전트(OmniAgent)는 부분 관측 마르코프 결정 과정(POMDP)에 기반하여 '관찰-사고-행동'의 반복적인 주기로 영상 이해를 수행하는 최초의 옴니모달(다중 양식) 에이전트입니다. 이 에이전트는 필요에 따라 시청각 정보를 선택적으로 추출하여 텍스트 형태의 기억으로 저장함으로써, 영상 길이에 관계없이 추론 복잡성을 관리합니다. 이를 위해 '에이전트 감독 미세 조정'과 'TAURA를 활용한 에이전트 강화 학습'이라는 두 가지 방법을 도입했습니다.
결과 · 옴니에이전트는 추론 횟수가 늘어날수록 성능이 향상되는 '긍정적인 테스트 시간 확장성'을 보여주며 능동적 인식의 효과를 입증했습니다. 10가지 벤치마크에서 최첨단 성능을 달성했으며, 특히 LVBench에서는 7B 모델이 10배 더 큰 모델보다 우수한 성능을 보였습니다.

왜 중요한가

기존의 수동적인 영상 이해 모델은 긴 영상을 처리할 때 엄청난 계산 비용이 발생합니다. 이 연구는 사람이 필요한 정보만 선별적으로 탐색하듯이, 에이전트가 능동적으로 정보를 취사선택하여 처리함으로써 이러한 비효율성을 크게 줄일 수 있는 새로운 패러다임을 제시합니다.

실생활·산업 영향

이 기술은 방대한 분량의 CCTV 영상 분석, 긴 교육 영상 요약, 복잡한 스포츠 경기 분석 등 긴 영상에서 특정 정보를 찾아내야 하는 다양한 분야에서 효율성과 정확성을 크게 향상시킬 수 있습니다. 이는 자원 절약과 더불어 더 빠르고 정확한 의사결정을 가능하게 합니다.

한계·주의

초록에는 명시적인 한계점이 언급되어 있지 않습니다. 다만, '에이전트 감독 미세 조정'과 '강화 학습' 과정의 복잡성이나 학습 데이터의 품질이 에이전트의 성능에 영향을 미칠 수 있습니다.

#능동적 인식#영상 이해#옴니모달

arXiv 원문 보기 → Zhenghao Xing, Ruiyang Xu, Yuxuan Wang 외 · 2026-06-17 · arXiv:2606.19341

이 요약이 유용했나요?

※ 이 요약은 AI 보조로 생성하고 사람이 검수했습니다. 난이도·실생활 영향·톤은 본 사이트의 편집 의견이며, 정확한 내용은 반드시 원문(arXiv)을 확인하세요. 번역은 AI 기반으로 오역 가능성이 있습니다. 출처: arXiv (2606.19341).

← 테크랩 전체 보기