로봇 정책 학습을 위한 기하학적 행동 모델

Geometric Action Model for Robot Policy Learning

💡 이 논문은 로봇이 3D 공간에서 물체를 조작하는 방법을 배우는 데 도움을 주는 새로운 '기하학적 행동 모델(GAM)'을 제안합니다. 이 모델은 기존의 2D 기반 접근 방식과 달리 3D 기하학 정보를 직접 활용하여 로봇이 더 정확하고 효율적으로 움직이도록 합니다.

핵심 요약

무엇을 · 로봇이 사용자의 지시를 따르면서 3D 물리 세계에서 물체, 카메라, 로봇 행동이 어떻게 상호작용하는지 추론하는 방법을 학습하는 새로운 정책 모델인 '기하학적 행동 모델(GAM)'을 제안합니다.
어떻게 · 기존에 훈련된 '기하학적 파운데이션 모델(GFM)'을 재활용하여 지각, 시간 예측, 행동 디코딩의 공유 기반으로 사용합니다. GFM의 중간 계층을 분할하여 얕은 계층은 관찰 인코더로, 분할된 계층에 삽입된 미래 예측기는 언어, 고유 수용 감각, 행동 이력을 기반으로 미래 잠재 토큰을 예측합니다. 이 예측된 토큰은 나머지 GFM 블록을 통해 전달되어 미래 기하학과 행동을 동시에 생성합니다. 이를 통해 최소한의 구조 변경으로 GFM에 언어 조건부 시간 세계 모델링 능력을 부여합니다.
결과 · 시뮬레이션 및 실제 로봇 조작 벤치마크에서 GAM은 현재 파운데이션 모델 규모의 기준선보다 더 정확하고, 더 견고하며, 더 빠르고, 더 가볍습니다.

왜 중요한가

기존의 로봇 학습 모델은 주로 2D 이미지나 2D 기반의 잠재 공간에서 작동하여, 복잡한 접촉이 필요한 조작에 필수적인 3D 기하학 정보를 명시적으로 다루지 못했습니다. GAM은 3D 기하학 정보를 직접 활용함으로써 이러한 한계를 극복하고 로봇 조작의 정확성과 효율성을 크게 향상시킬 수 있습니다.

실생활·산업 영향

이 기술은 로봇이 물건을 집거나 조립하는 등 실제 환경에서 복잡한 작업을 더 능숙하게 수행할 수 있도록 돕습니다. 예를 들어, 제조 공장의 로봇이나 서비스 로봇이 다양한 물체를 다루는 데 더 유연하고 정확해질 수 있습니다.

한계·주의

초록에는 명시적인 한계가 언급되어 있지 않습니다. 다만, '최소한의 구조 변경'이라는 표현은 기존 GFM의 한계를 완전히 극복하지 못할 가능성을 시사할 수 있습니다.

#로봇 학습#3D 기하학#파운데이션 모델

arXiv 원문 보기 → Jisang Han, Seonghu Jeon, Jaewoo Jung 외 · 2026-06-15 · arXiv:2606.17046

이 요약이 유용했나요?

※ 이 요약은 AI 보조로 생성하고 사람이 검수했습니다. 난이도·실생활 영향·톤은 본 사이트의 편집 의견이며, 정확한 내용은 반드시 원문(arXiv)을 확인하세요. 번역은 AI 기반으로 오역 가능성이 있습니다. 출처: arXiv (2606.17046).

← 테크랩 전체 보기