AI 大模型从语音、视觉、决策、控制等多方面完成同人形机器人的结合,构成感知、决策、控制闭环, 使机器人具有常识。
1)语音:言语大模型为机器人的自主语音交互难题提供了处理方案,在上下文理 解、多语种辨认、多轮对话、心情辨认、模糊语义辨认等通用言语义务上,ChatGPT 分明优于深度学习,表现出了不亚于人类的了解力和言语生成才能。
2)视觉:人形机器人的场景相对工业机器人更通用、更复杂,通用视觉大模型的All in One 的多义务训练方案能使得机器人更好地顺应人类生活场景:大模型的强拟合才能使人形机器人在停止目的辨认、避障、三维重建、语义分割等义务时,具有更高的准确度;通用视觉大模型经过大量数据学到更多的通用知识,并迁移到下游义务中,基于海量数据获得 的预训练模型具有较好的知识完备性,提升场景泛化效果。
3)决策:基于多模态的预训练大模型将增 强机器人可完成义务的多样性与通用性,让其不局限于文本和图像等单个部分,而是多运用相容,拓展单一智能为交融智能,使机器人能结合其感知到的多模态数据完成自动化决策。