中大研发空间智能大模型　赋能机械人操作复杂任务

2026-05-01 08:20:20大公报

字号: 放大; 标准

【大公报讯】记者郭如佳报道：香港中文大学工程学院团队近日公布一项人工智能研究进展，提出具空间智能的视觉语言大模型（Vision-Language Models，VLM）新技术，尝试解决机械人在三维环境中理解与操作能力不足的问题。

现时VLM已能处理语言指令与影像资讯，但往往难以准确判断物件位置、方向及可操作性，限制了机械人执行复杂工作的能力。

结合语言理解与三维结构推理

中大研究团队提出名为“检索增强操作”（Retrieval-Augmented Manipulation，简称RAM）的技术框架，尝试将语言理解及三维结构的推理能力两者结合，核心在于让机械人同时处理“做什么”与“如何在空间中实现”两个层面。团队建立了一个结构化三维物件知识库，当模型生成操作计划时，系统会即时检索相关物件资料，评估可行性及提供结构化参考。

负责研究的中大计算机科学与工程学系副教授窦琪认为，相关方法有助提升机械人在真实环境中的适应性。系统目前涵盖31类物件，并在14项涉及空间感知的任务中验证，结果显示机械人能较准确理解指令及调整行动策略。

另一项技术重点在于视觉与触觉的融合，系统设计预留扩展接口，可接入触觉反馈，让机械人在操作过程中调整力度与动作，提升精细操作的稳定性。

中大卓敏机械与自动化工程学教授兼香港物流机械人研究中心（HKCLR）总监刘云辉表示，触觉资讯有助机械人应对不确定环境，例如物件滑动或受力变化等情况。

该研究由HKCLR支持进行，并获特区政府InnoHK创新香港研发平台资助。相关成果已于国际期刊《Science Robotics》发表。

中大研发空间智能大模型　赋能机械人操作复杂任务

点击排行

分享到微信朋友圈×

中大研发空间智能大模型 赋能机械人操作复杂任务

点击排行

分享到微信朋友圈×

中大研发空间智能大模型　赋能机械人操作复杂任务