首页 > 车圈原创 > 车圈原创 > 人形机器人实现多语言逼真唇形动作

人形机器人实现多语言逼真唇形动作

发布时间:2026-01-21 17:33:47来源: 13041198719

美国哥伦比亚大学科学家设计出一种新型框架,使人形机器人面部能够根据音频生成逼真的唇部动作,实现与人类语音的同步。该技术还展示了较强的泛化能力,可推广至包括法语、汉语和阿拉伯语在内的多种语言,即使这些语言并未出现在训练数据中。研究团队在发表于最新一期《科学·机器人学》上的论文中指出,这一进展是朝着构建不仅能执行功能,还能进行人性化交流的机器人迈出的重要一步。

在对话中,如果机器人的唇部动作与声音不匹配,会显得呆板且不自然。然而,现有机器人普遍缺乏执行精细口部动作的灵活性,能实时将语音转化为自然唇部运动指令的技术也寥寥无几。

研究团队在2024年曾发表研究,描述了一种人形机器人面部可以预测人类的微笑并同时再现该表情。在此基础上,为更加精细化唇部与声音的匹配,团队设计了一套学习流程:首先采集机器人唇部运动的视觉数据,用于训练模型并生成运动参考点;随后通过一个名为“面部动作转换器”的模块产生运动指令,使机器人的唇部能够流畅配合不同词语。他们还专门研制了一种人形机器人面部结构,采用柔软硅胶皮肤,配合磁性连接器,具备10个自由度,可驱动复杂的唇部运动。其唇部结构能形成覆盖24个辅音和16个元音的各种口型。

在验证过程中,团队借助ChatGPT生成测试语句,并合成了具有理想唇部动作的视频作为对比基准。结果表明,该方法在5种比较方案中表现最优,其生成的唇部动作与理想视频差异最小。此外,该框架还能为11种不同语音结构的非英语语言生成自然的唇部同步效果。

研究团队推测,这类人形机器人在教育、老年护理等领域具有应用潜力。但他们也强调,未来的设计工作需格外谨慎,以防止技术被滥用。(科技日报记者 张梦然)

总编辑圈点

现在,AI让虚拟人物动嘴说话已经“不在话下”,然而让机器人做到这点还相当困难。大多数机器人“说话”时并不动嘴,即使动嘴,也只是象征性一张一合。这次,科研人员试图让机器人拥有人类一般细腻、精准的唇部动作,教它们通过合成视频以“照镜子”的方式学习;还开发了硅胶皮肤,设计了面部机械系统。结果表明,机器人可以“学会”多种语言的唇部动作。不过,研究也不禁让人思考,当机器人真的开口说话,“恐怖谷效应”是会加重还是减轻?

 

车圈原创更多>>

新款理想L6完成工信部申报!全能家用增程SUV值得入手吗? 雅马哈劲战125特别版引入赛道元素强化热血感 奥迪Q9内饰发布:比Q7更大 这台“9系旗舰”到底值不值得等? 全新沃尔沃XC60谍照曝光,将于2027年正式亮相 五菱星光L实车正式曝光!中大型家用SUV登场,大六座来了吗? 国轩高科7款新品:固态、钠电、储能齐发 预售39.98万元,浅析小鹏GX定价合不合理 昊铂S600预售20.99万起,4.3秒破百,双腔空悬+四驱 余承东官宣:200万级尊界S800 Grand Design典藏大观,定档6月 曝某传统合资头部豪华汽车品牌开始裁员 占比约8% 路特斯Emira将弃用现有梅赛德斯-AMG与丰田V6引擎! 4月香港MPV市场:中国品牌霸榜,埃尔法跌出前五,释放了什么信号 ­­智界V9上市发布,售价38.98万-51.98万元,重塑MPV高端市场格局 又一国产猎装车来袭,方程豹方程S GT路透图曝光,或第三季度上市! 星途ET5 EXEED OS 3.7.0 OTA重磅推送,全维安全进阶 变大的Smart:精致小车扛不住中国市场的铁拳 智界V9上市发布,售价38.98万-51.98万元,重塑MPV高端市场格局 从DTM经典到“夜光”艺术车,HWA Evo.R成为纽博格林24小时焦点 “锁电”辟谣之外:新能源车最该补的是信任课 大型SUV市场“神仙打架”4月销量榜 1款销量过万 极氪9X第二 绿紫新色炸场!一汽悦意08以轿跑之姿乱入,可谓颜值天花板 2026款海鸥正式上市 比亚迪把激光雷达下放到A00级 「 爱车空间 」大众品牌全球首款支持城市NOA的轿车来了! 1.5T+双电机 凯迪拉克XT5插混版申报图曝光 对标奔驰EQS 雷克萨斯TZ正式发布 破局存量竞争 比亚迪4月销量背后的技术加速度 2026款海鸥6.99万起!比亚迪把激光雷达塞进A00级小车 奥迪 E7X 开启预售 28.98 万起,德系豪华纯电添新将 传统与新贵的分水岭之间,奥迪E7X为豪华纯电定了新基调? 德系底子+城市NOA,上汽大众ID. ERA 5S工信部信息公布