中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

重大进展!清华大学等强强联手突破强化学习算法,攻克 AI 推理熵崩溃难题

 IT干货铺

下载贤集网APP入驻自媒体

6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等学府的国际团队,成功攻克AI推理熵崩溃难题。

大型语言模型使强化学习应用更广,但强化学习存在策略熵下降问题,熵值过低会让模型丧失探索能力。为解决该问题,团队提出经验公式R = −a exp H + b,揭示了策略性能与熵值的权衡关系,指出熵耗尽是性能瓶颈。

研究发现熵动态受动作概率与logits变化协方差驱动,进而提出Clip - Cov和KL - Cov两种技术,分别通过裁剪高协方差token和施加KL惩罚维持熵水平。

基于Qwen2.5模型和DAPOMATH数据集的实验显示,新方法在7B和32B模型上性能分别提升2.0%和6.4%,在AIME24和AIME25等高难度测试中,32B模型性能提升达15.0%。在11个开源模型、8个公开基准测试中,Clip - Cov和KL - Cov技术效果显著,KL - Cov方法能让熵值在基线趋于平稳时保持10倍以上。

最新回复
发布回复

为您推荐

热门交流