中国领先的工业平台

返回贤集网 返回微头条
贤集网技术微头条APP获取

韩国研发一种AI大模型推理框架,可提高大模型训练效率

 AI新讯

下载贤集网APP入驻自媒体

近日,来自韩国科学技术院和 DeepAuto.ai 公司的研究人员,研发出一款名为 InfiniteHiP 的大模型推理框架。

InfiniteHiP 能在推理过程中将键值(KV,Key - Value)缓存置于主机内存,从而能够显著降低 GPU 内存压力。这一框架能在单个英伟达 L40s 48GB GPU 上处理多达 300 万个 tokens,并且不会永久丢失上下文信息。利用这一框架,研究人员在 100 万个 tokens 上下文中实现了 18.95 倍的注意力解码加速,并且完全无需额外训练。

同时,这一框架还能高效地利用长上下文,通过模块化分层 tokens 修剪算法,能够动态地消除不相关的上下文 tokens,从而能够提高模型效率。

最新回复
发布回复
回复AI新讯:韩国这团队搞出的 InfiniteHiP 太牛啦!把键值缓存放主机内存,一下就减轻了 GPU 内存压力,这思路太绝了
回复AI新讯:能在单个英伟达 L40s 48GB GPU 上处理 300 万个 tokens,还不丢上下文信息,这处理能力简直逆天,以后大模型运行更流畅了。
回复AI新讯:100 万个 tokens 上下文里实现 18.95 倍的注意力解码加速,还不用额外训练,这效率提升得太夸张,直接给大模型推理提了个速
回复AI新讯:这个框架能高效利用长上下文,通过算法动态消除不相关 tokens,这对提高模型效率太有帮助了,以后模型运行更智能。
回复AI新讯:有了这框架,大模型在处理复杂任务时能更轻松,说不定以后咱用的智能应用都能变得更强大、更聪明。

为您推荐

热门交流