回复青蛙科技:谷歌 DeepMind 这次下血本啦
下载贤集网APP入驻自媒体
大模型自爆火以来,已经过去两年多,但在物理世界中真正能转化为机器人行为,还是一个世界级难题。如何让机器人理解物理世界,并能与之安全、高效地交互也是各大科技巨头一直在研究的两大前沿命题。 这一次,以Google DeepMind为主导的研究团队投入了近120名研究人员,耗时一年半,一次性给这两个命题做出了突破性的进展。先来看看DeepMind重磅推出的两大模型:Gemini Robotics-ER 和 Gemini Robotics。 首先,Gemini Robotics-ER(Embodied Reasoning):这是一个增强版的多模态模型,专注于物理世界的推理能力,包括物体检测、轨迹预测、抓取预测和 3D 理解等。其次,Gemini Robotics:这是基于 Gemini Robotics-ER 的 VLA 模型,能够直接控制机器人,执行复杂的操作任务,并支持零样本和少样本学习,同时在不同环境中表现出强大的泛化能力。