当前位置：

微头条首页

科学家揭示：AI大模型的基准测试也是可以“作弊”的

圈圈圆圆圈圈

下载贤集网APP入驻自媒体

随着大语言模型在众多领域的广泛应用，基准测试成为了评估模型质量的关键工具。但是，如果测试结果受到不当影响，例如操纵模型输出的长度或风格来操纵胜率，模型性能的排名可能因此失去可信度，进而直接影响整个行业的信任和技术进步。为促进更加公平和可靠的评价体系，新加坡 Sea AI Lab 和新加坡管理大学团队合作，颠覆了传统意义上针对有意义输出的对抗性攻击。他们提出，将完全无意义的“零模型”（Null Model）作为极端测试也可以利用评估过程中的结构性弱点，欺骗自动基准测试并获得高胜率。研究人员揭示了现有自动化大模型基准测试（例如 AlpacaEval 2.0）的脆弱性，并验证了这些漏洞不仅存在于开源模型，也会影响到广泛使用的商业大模型。

返回微头条首页

2024-12-05 11:15:19

贤集网技术微头条APP获取

最新回复

发布回复

剑已封鞘

回复圈圈圆圆圈圈：为技术进步，大模型测试要完善。

孤则酒灌

回复圈圈圆圆圈圈：大模型测试，不能有漏洞瞎忽悠。

醒着做梦

回复圈圈圆圆圈圈：新加坡的研究，给大模型测试提个醒。

快快长

回复圈圈圆圆圈圈：大语言模型基准测试这么重要，要是能被随便操纵，那可太不靠谱了

半城烟砂

回复圈圈圆圆圈圈：用 “零模型” 来做极端测试，这想法还挺新奇的，不知道效果咋样

逢山鬼泣

回复圈圈圆圆圈圈：原来模型输出能被操纵来改变胜率，这不是坑人嘛，行业不乱套了

迎曼

回复圈圈圆圆圈圈：基准测试不可靠，那大模型发展不就像在歪路上走，能走稳吗

意凡

回复圈圈圆圆圈圈：这些漏洞连商业大模型都有，那咱平时用的那些产品会不会受影响

情话烫心

回复圈圈圆圆圈圈：感觉以后评估大模型得更小心了，不然都不知道信啥数据

遥远的梦

回复圈圈圆圆圈圈：他们能发现现有基准测试的脆弱性，也是帮行业查漏补缺了

怪性酷Girl

回复圈圈圆圆圈圈：发现漏洞啦，大模型测试要改进哟。

乱了心

回复圈圈圆圆圈圈：大语言模型火，基准测试得靠谱点呀。

为您推荐

辟谣：国产22纳米光刻机治不了咱们的“芯”病，它跟ASML垄断的光刻机并不是一回事

11月29日，中科院研制的“超分辨光刻装备”通过验收。消息传着传着，就成了谣言——《国产光刻机伟大突破，国产芯片白菜化在即》《突破荷兰技术封

红昭愿

电瓶饿死后如何激活？还能完全修复吗？

电瓶饿死后如何激活？还能完全修复吗？

红昭愿

电脑内屏坏了修多少钱？是重新买一个好还是修一下呢

电脑内屏坏了修多少钱？是重新买一个好还是修一下呢？万能论坛求解答！

gsh34

手机卡住不动了怎么办？屏幕不动~

手机卡住不动了怎么办？屏幕不动了。谢谢~

黄海峰

中国购入两台光刻机高达12亿元！终有一天我们会摆脱芯片靠进口的命运

前阵子的中兴事件让很多人明白了半导体技术的重要性，华为等拥有自主设计移动芯片能力的厂商也受到了广泛赞誉。但很多人不知道的是，设计能力和制造能

红昭愿

都说电工工资低，但增加收入并不难！教你4个接私活的方法，感兴趣的朋友可以参考~

大多数电工的工资都是很低的，唯一的好处可能就是上班时间没有那么长，所以我们可以利用下班时候去接一点私活增加我们的收

136****9165

苹果6指纹坏了能修吗？维修大概需要多少钱？

苹果6指纹坏了能修吗？才用没到一年，好郁闷，谁知道维修大概需要多少钱吗？

红昭愿

中国芯片正崛起！国产光刻机突破荷兰技术封锁，弯道超车！

这两天传来了一个好消息！就在11月29日咱们中国的国产光刻机在成都通过验收了！大家都知道光刻机、飞机发动机这些都是以往我们做不出来的尖端科技

上海炫风实业集团有限公司

手机屏幕点不了怎么办？

手机屏幕点不了怎么办？我的手机没坏啊，为什么屏幕点不了呢。

桑建伟

中国的光刻机现在达到多少纳米了？

2016年底，华中科技大学国家光电实验室目前利用双光束在光刻胶上首次完成了 9nm 线宽，双线间距低至约 50nm 的超分辨光刻。未来将这一

張小姐

中国十大机床品牌排名-2016

1，沈阳第一机床厂2，大连机床集团有限公司3，秦川机床集团有限公司4，济南机床二厂5，齐重数控装备股份有限公司6，北京第一机床厂7，齐齐哈尔

陈健

手机钢化膜白边怎么消除？钢化膜白边去除液对手机有损害吗？

手机贴钢化膜时的白边怎么消除？很多小伙伴使用的钢化膜白边去除液是什么？会有损手机吗？

红昭愿

华硕和联想笔记本哪个好一点？各自的有点和缺点是什么？

如题：华硕和联想笔记本哪个好一点？各自的有点和缺点是什么？我主要是用于工作，不玩游戏，懂的人介绍一下，谢谢。

kzz32519

手机老出现“应用程序停止运行”怎么解决？

我的手机有几款程序老出现"应用程序停止运行"提示，很烦人，不知道怎么解决，谁有什么办法吗？

流浪的军刀

重磅：华为重仓布局郑州！将对郑州产业布局影响深远

近日，郑州市人民政府和华为公司在郑州签署战略合作协议，双方就城市产业云、工业互联网、软件开发云、智慧城市等领域达成全方位、深层次战略合作。这

红昭愿

饮水机怎么清洗？清洗饮水机的正确方法

饮水机怎么清洗？清洗饮水机的正确方法

红昭愿

Excel表格技巧的动图合集！看了这些GIF，让你工作效率翻一倍！建议收藏！

你办公软件看似简单，其实花样很多，尤其Excel表格，涉及到一些比较少见的数据处理。但其实只要用心多练，效率轻松提升个十倍百倍还真不是问题！

已存在

平衡车的技术原理是什么？为什么能保持平衡使人不掉下来？

平衡车的技术原理是什么？为什么能保持平衡使人不掉下来？

红昭愿

+加载更多内容

热门头条

热门交流

热门资讯