新关注 > 信息聚合 > OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现「灾难性问题」

OpenAI揭秘GPT-4.5训练:10万块GPU,几乎全员上阵,出现「灾难性问题」

2025-04-13 00:00:00来源: 微资讯

近日,在OpenAI史上最贵模型GPT-4.5发布1个多月后,OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)与GPT-4.5的3位核心技术人员进行了一场45分钟的高信息量对谈,首次披露了这款模型研发耗时严重超期、计算集群频繁故障、提升路径难以预测等诸多不为人知的细节。 GPT-4.5项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作,阿尔特曼称OpenAI为了这一项目几乎是“全员上阵”。研发过程中,OpenAI团队遇到了不少“灾难性问题”。10万卡集群暴露了基础设施的隐藏的小概率、深层次故障,为了权衡时效与性能,OpenAI的系统团队不得不“边修边训”。其中,有一个隐藏的小bug让集群频繁报错,直到训练进度条走过约40%才被揪出。不过,这也帮助OpenAI打造了更为强大的技术栈:如今可以仅用5-10人便复刻出GPT-4级别的大模型。GPT-4至GPT-4.5的性能提升约为10倍,获