回复人工智能利弊说:这是第一个开源的多模态模型吧??
下载贤集网APP入驻自媒体
近日,智源研究院重磅发布了开源界的「Gemini」——Emu2,刷新多项SOTA。据悉,这一模型即将推出更轻量的版本,让技术玩家也在本地运行。相较2023年7月发布的第一代「多模态to多模态」Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。与此同时,依然采用大量图、文、视频的序列,建立基于统一自回归建模的多模态预训练框架,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。