新关注 > 信息聚合 > 英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜

英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜

2024-12-05 00:00:00来源: 新浪人工智能

新智元报道  编辑:peter东 乔杨【新智元导读】大模型如今已具有越来越长的上下文,而与之相伴的是推理成本的上升。英伟达最新提出的Star Attention,能够在不损失精度的同时,显著减少推理计算量,从而助力边缘计算。当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。为此,已有多种优化方案提出,例如Flash Attention,而11月26日英伟达提出的Star Attention机制,可用于提升Transformer模型在处理长序列时的效率和准确性。值得一提的是,这篇文章受到了广泛的关注,登顶Hugging Face每日论文榜首。 论文地址:https://arxiv.org/abs/2411.17116 Star Attention如何降低推理成本在了解Star Attention如何改进大模型推理前,让我们先看