回复IT干货铺:这研究解决了大模型的一个大问题,实用价值很高
下载贤集网APP入驻自媒体
6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府的国际团队,成功攻克AI推理熵崩溃难题。 大型语言模型使强化学习应用更广,但强化学习存在策略熵下降问题,熵值过低会让模型丧失探索能力。为解决该问题,团队提出经验公式R = −a exp H + b,揭示了策略性能与熵值的权衡关系,指出熵耗尽是性能瓶颈。 研究发现熵动态受动作概率与logits变化协方差驱动,进而提出Clip - Cov和KL - Cov两种技术,分别通过裁剪高协方差token和施加KL惩罚维持熵水平。 基于Qwen2.5模型和DAPOMATH数据集的实验显示,新方法在7B和32B模型上性能分别提升2.0%和6.4%,在AIME24和AIME25等高难度测试中,32B模型性能提升达15.0%。在11个开源模型、8个公开基准测试中,Clip - Cov和KL - Cov技术效果显著,KL - Cov方法能让熵值在基线趋于平稳时保持10倍以上。