【大公报讯】记者郭如佳报道:香港中文大学工程学院团队近日公布一项人工智能研究进展,提出具空间智能的视觉语言大模型(Vision-Language Models,VLM)新技术,尝试解决机械人在三维环境中理解与操作能力不足的问题。
现时VLM已能处理语言指令与影像资讯,但往往难以准确判断物件位置、方向及可操作性,限制了机械人执行复杂工作的能力。
结合语言理解与三维结构推理
中大研究团队提出名为“检索增强操作”(Retrieval-Augmented Manipulation,简称RAM)的技术框架,尝试将语言理解及三维结构的推理能力两者结合,核心在于让机械人同时处理“做什么”与“如何在空间中实现”两个层面。团队建立了一个结构化三维物件知识库,当模型生成操作计划时,系统会即时检索相关物件资料,评估可行性及提供结构化参考。
负责研究的中大计算机科学与工程学系副教授窦琪认为,相关方法有助提升机械人在真实环境中的适应性。系统目前涵盖31类物件,并在14项涉及空间感知的任务中验证,结果显示机械人能较准确理解指令及调整行动策略。
另一项技术重点在于视觉与触觉的融合,系统设计预留扩展接口,可接入触觉反馈,让机械人在操作过程中调整力度与动作,提升精细操作的稳定性。
中大卓敏机械与自动化工程学教授兼香港物流机械人研究中心(HKCLR)总监刘云辉表示,触觉资讯有助机械人应对不确定环境,例如物件滑动或受力变化等情况。
该研究由HKCLR支持进行,并获特区政府InnoHK创新香港研发平台资助。相关成果已于国际期刊《Science Robotics》发表。