一文读懂「AI大模型高效推理」：分类、局限性和3大提升方法

图片地址：https://n.sinaimg.cn/spider20250405/232/w660h372/20250405/89cf-d9f3e889c3352ff3234cfab4be92a884.jpg

在一些需要慢思考的场景中，如数学问题求解或科学研究，大型推理模型（LRM）需要在给出最终回答之前，进行分析性和深思熟虑的推理。然而，LRM 深思熟虑的推理过程导致其资源消耗极高，带来了 token 消耗大、内存开销高和推理时增加等一系列挑战，这不仅增加了服务公司的推理成本，也降低了用户的体验。以往针对 LLM 推理效率的研究，如模型压缩、高效模型设计和系统级优化等，虽然能够缓解高内存开销和推理时增加的问题，但并非专门为 LRM 设计，无法有效地解决 LRM 中 token 低效的问题。为此，来自新加坡国立大学的团队及其合作者进行了专门针对 LRM 的高效推理方法的综述，重点关注在保持推理质量的同时缓解 token 效率低下的问题。主要贡献如下：图｜综述框架图｜大型推理模型的推理方法分类相关研究论文以为题，已发表在预印本网站 arXiv 上。LRM 的两大分类根据当前的研究形式，研究团队将 LRM 分为了两大类：