回复聊聊科技事:要害怕的不是这些,是当它在思考:为什么要服务人类。
下载贤集网APP入驻自媒体
“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。 来自蚂蚁技术研究院自然语言组联合中科院自动化所和香港中文大学开源ViLaSR-7B。它在包括迷宫导航、静态图像理解和视频空间推理等5个基准上平均提升18.4%。 在李飞飞等知名学者提出的VSI-Bench上更是达到了与Gemini-1.5-Pro相当的45.4%水平,全面超越现有方法。更重要的是,大量案例研究表明,模型确实掌握了类似人类的空间推理策略和反思能力,朝着真正的视觉智能迈出了重要一步。