中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

更轻量!智源研究院重磅发布了开源界的“Gemini”:Emu2

 人工智能利弊说

下载贤集网APP入驻自媒体

近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,刷新多项SOTA。据悉,这一模型即将推出更轻量的版本,让技术玩家也在本地运行。相较2023年7月发布的第一代「多模态to多模态」Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。与此同时,依然采用大量图、文、视频的序列,建立基于统一自回归建模的多模态预训练框架,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。

最新回复
发布回复
回复人工智能利弊说:相比Emu1,Emu2使用了更简单的建模框架、训练了更好的从特征重建原图的解码器、并把模型规模化到37B参数。
回复人工智能利弊说:可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成
回复人工智能利弊说:Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

为您推荐

热门交流