PAR3D: 3D 장면 이해를 위한 부분 인식 표현을 갖춘 통합 3D-MLLM

PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding

💡 PAR3D는 3D 환경에서 객체뿐만 아니라 그 구성 부분까지 이해하고 상호작용할 수 있도록 돕는 새로운 인공지능 모델입니다. 이를 위해 부분별 주석이 달린 데이터셋과 계층적 학습 방식을 도입하여, 기존 모델보다 더 세밀한 3D 장면 이해 능력을 보여줍니다.

핵심 요약

무엇을 · 이 연구는 3D 환경을 더 깊이 이해하기 위한 '부분 인식(part-aware)' 능력을 갖춘 통합 3D 다중 모드 대규모 언어 모델(3D-MLLM)인 PAR3D를 제안합니다.
어떻게 · PAR3D는 'ScenePart'라는 부분별 주석과 언어 지침이 포함된 합성 3D 장면 데이터셋을 도입하여 학습됩니다. 또한, 3D 시각 표현을 세밀한 부분 수준의 의미로 풍부하게 만드는 '부분 인식 3D 표현 학습'과 계층적 객체-부분 쿼리를 통해 부분 대상을 찾아내는 '계층적 분할 쿼리 생성' 방식을 개발했습니다.
결과 · 광범위한 실험 결과, PAR3D는 부분 수준의 질문 답변 및 참조 분할에서 성능을 크게 향상시켰으며, 객체 수준의 시각-언어 작업에서도 강력한 성능을 달성했습니다.

기존 3D-MLLM은 주로 객체 단위로만 작동하여 3D 환경과의 세밀한 상호작용에 필수적인 '부분' 구조를 모델링하는 데 한계가 있었습니다. PAR3D는 이러한 한계를 극복하고 객체와 그 부분을 모두 이해함으로써 3D 장면 이해의 깊이를 더합니다.

이 기술은 로봇이 복잡한 환경에서 특정 부품을 조작하거나, 가상 현실에서 사용자가 특정 사물의 미세한 부분을 다루는 등, 3D 환경과의 정교한 상호작용이 필요한 분야에 활용될 수 있습니다.

초록에 명시된 구체적인 한계점은 없지만, 합성 데이터셋(ScenePart)에 의존한다는 점은 실제 환경 데이터와의 격차 문제를 야기할 수 있습니다.

#3D-MLLM#부분 인식#장면 이해

arXiv 원문 보기 → Shaohui Dai, Yansong Qu, You Shen 외 · 2026-06-04 · arXiv:2606.06485

이 요약이 유용했나요?

※ 이 요약은 AI 보조로 생성하고 사람이 검수했습니다. 난이도·실생활 영향·톤은 본 사이트의 편집 의견이며, 정확한 내용은 반드시 원문(arXiv)을 확인하세요. 번역은 AI 기반으로 오역 가능성이 있습니다. 출처: arXiv (2606.06485).