中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

大模型训练,并非越多越好

 智侦探

下载贤集网APP入驻自媒体

近日,来自美国卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员发现一种名为“灾难性过度训练”现象。

他们发现在多个标准大语言模型基准测试中,OLMo-1B 模型在 3T tokens 上进行预训练后的性能水平,不如在 2.3T tokens 上进行预训练后的性能水平,甚至下降到了仅用 1.5T tokens 预训练后的性能水平。

结合实验结果和理论分析研究团队证明:之所以出现灾难性过度训练的现象,是因为预训练参数对于各种修改的广义敏感度出现了系统性增加。并证明长时间的预训练会使模型更加难以进行微调,进而会导致模型最终性能的下降。

最新回复
发布回复
回复智侦探:这 “灾难性过度训练” 现象要是普遍存在,那很多公司之前大量投入资源扩大预训练规模,岂不是打水漂了,得重新规划策略了。
回复智侦探:看来大模型训练不能盲目追求规模,得找到一个平衡点,不然训练得越多,后续微调越困难,性能还变差,得不偿失
回复智侦探:科研团队能发现这个现象,对整个大语言模型领域来说是个重要提醒
回复智侦探:以后在选择模型时,不能光看预训练的规模,还得关注训练时长对性能的影响,避免选到过度训练性能下降的模型。
回复智侦探:那些靠大规模预训练模型做应用的企业,现在肯定很头疼,得重新评估模型性能,看要不要换训练策略了。

为您推荐

热门交流