CapNav: Benchmarking Vision Language Models on Capability-conditioned Indoor Navigation
Vision-Language Models (VLMs)는 시각-언어 내비게이션(VLN)에서 상당한 발전을 보였지만, 실제 내비게이션은 에이전트의 이동성 제약에 따라 달라집니다. 이 논문은 에이전트의 특정 물리적 및 운영 능력을 고려하여 VLM이 복잡한 실내 공간을 얼마나 잘 탐색할 수 있는지 평가하는 벤치마크인 CapNav를 소개합니다. 13개 VLM에 대한 평가 결과, 이동성 제약이 강화될수록 내비게이션 성능이 급격히 저하되며, 최첨단 모델조차 공간 추론이 필요한 장애물 유형에 어려움을 겪는 것으로 나타났습니다.
English Vision-Language Models (VLMs) show promise in navigation, but real-world scenarios are constrained by agent mobility. This paper introduces CapNav, a benchmark designed to evaluate VLMs' ability to navigate complex indoor spaces considering an agent's specific physical and operational capabilities. Evaluations of 13 modern VLMs reveal a sharp decline in performance as mobility constraints tighten, indicating current models struggle with capability-aware spatial reasoning.
원문 보기