下载贤集网APP入驻自媒体
能够统一地理解语音和文本,是人类能够形成通用语言能力的重要原因。那么,人工智能是否也能如此?最近,来自字节跳动和UIUC的研究人员借鉴这一思路,设计了一个跨模态的翻译模型——Chimera(奇美拉)。它不仅在一项标杆性语音翻译任务中获得高分,其可视化结果也证实了这一机制能更好地理解人类语言。 通过模仿人类大脑来统一理解语音和文本,模型在语音翻译上效果拔群。Chimera能提取语音和文本中共有的语义信息,因此能够同时学习语音翻译和文本翻译数据集,提高这种技术在训练和应用中的通用性。 该研究成果发表在Arxiv上。