回复科技果汁:阿里开源全能冠军Qwen2.5-Omni-7B:一个模型实时看懂视频、听懂人声、生成语音,手机端轻松部署!
下载贤集网APP入驻自媒体
3月27日,阿里云宣布通义千问Qwen2.5-Omni-7B正式开源。这是通义系列模型中首个端到端全模态大模型,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。 在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远超谷歌的Gemini-1.5-Pro等同类模型。