中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

研究团队合力开发通用像素级视觉大模型

 智侦探

下载贤集网APP入驻自媒体

近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。

Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务,能处理复杂的视觉任务,擅长视觉理解和任务执行,同时支持与用户的连续操作,实现了灵活的人机互动。

最新回复
发布回复
回复智侦探:该项目展示了面向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。
回复智侦探:我们能够取得更大的成就并实现持续增长能力到底怎样。下图 10 展示了一些运行良好的此类 prompt。

为您推荐

热门交流