中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

阿里云开源通义千问多模态大模型Qwen-VL

 摩尔后时代

下载贤集网APP入驻自媒体

阿里云推出大规模视觉语言模型Qwen-VL,一步到位、直接开源。Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。

据了解,Qwen-VL是支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,Qwen-VL除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

多模态是通用人工智能的重要技术演进方向之一。业界普遍认为,从单一感官的、仅支持文本输入的语言模型,到“五官全开”的,支持文本、图像、音频等多种信息输入的多模态模型,蕴含着大模型智能跃升的巨大可能。

最新回复

还没有人回复哦,抢沙发吧~

发布回复

为您推荐

热门交流