回复智侦探:未来的探索方向可以发展一个全面的端到端系统。
下载贤集网APP入驻自媒体
近日,由颜水成教授带队,昆仑万维2050全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。 Vitron解决了困扰大语言模型产业已久的图像/视频模型割裂问题,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务,能处理复杂的视觉任务,擅长视觉理解和任务执行,同时支持与用户的连续操作,实现了灵活的人机互动。