回复AI新讯:韩国这团队搞出的 InfiniteHiP 太牛啦!把键值缓存放主机内存,一下就减轻了 GPU 内存压力,这思路太绝了
下载贤集网APP入驻自媒体
近日,来自韩国科学技术院和 DeepAuto.ai 公司的研究人员,研发出一款名为 InfiniteHiP 的大模型推理框架。 InfiniteHiP 能在推理过程中将键值(KV,Key - Value)缓存置于主机内存,从而能够显著降低 GPU 内存压力。这一框架能在单个英伟达 L40s 48GB GPU 上处理多达 300 万个 tokens,并且不会永久丢失上下文信息。利用这一框架,研究人员在 100 万个 tokens 上下文中实现了 18.95 倍的注意力解码加速,并且完全无需额外训练。 同时,这一框架还能高效地利用长上下文,通过模块化分层 tokens 修剪算法,能够动态地消除不相关的上下文 tokens,从而能够提高模型效率。