中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

LMSYS推出新基准测试,大模型测试结果更准确

 彩虹科技

下载贤集网APP入驻自媒体

大模型竞技场背后的LMSYS推出了新基准测试Arena-Hard,区分度从22.6%提升至87.4%,与人类偏好一致率高达89.1%。

测试数据实时更新,包含AI未见过的提示词,避免数据泄露。新模型发布后,只需25美元即可快速运行测试,得到结果。网友认为使用真实用户提示词进行测试很重要。

最新回复
发布回复

为您推荐

热门交流