下载贤集网APP入驻自媒体
近日,作为多媒体领域唯一CCF A类顶级国际人工智能学术会议ACM MM 2023公布了论文接收名单,云从科技及联合研究团队的论文《All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment》成功入选。All-in-One在4个富有挑战性的数据集(TNL2K, LaSOT, LaSOTExt, WebUAV-3M)上刷新了四项世界纪录。 视觉-语言跟踪(Vision-Language Tracking)是计算机视觉和自然语言处理交叉领域一项基础而又具有挑战性的任务。该任务需要根据自然语言提示和初始边界框从视频中准确地预测目标的运动轨迹,在人机交互、视频监控、虚拟现实、自动驾驶等领域具有重要的商业应用价值。相比传统的纯视觉目标跟踪,多模态视觉-语言跟踪引入了自然语言提示,能够给用户带来更多样性的交互体验。