本文来源:时代周报 作者:朱成呈 闫晓寒
“目前国内只有讯飞一家真正在全国产算力上完成全栈模型的训练。”4月29日,科大讯飞(002230.SZ)研究院院长刘聪在2025年度及2026年一季度业绩说明会上表示。
此前,DeepSeek-V4在技术报告中表示,在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度 EP(专家并行)方案。根据DeepSeek官网,下半年昇腾950超节点批量上市有望继续推动DeepSeek-V4 Pro降价。
IDC咨询认为,全球大模型市场逐渐分化为两大阵营:以OpenAI、Google、Anthropic为代表的 “闭源高端+海外算力”阵营,聚焦极致性能与生态壁垒;以DeepSeek为代表的 “开源普惠 + 中国算力” 阵营,主打高性价比与安全可控。这种分化将为全球企业提供更多选择,同时推动AI产业全球化竞争进入新阶段。
值得注意的是,科大讯飞在算力国产化进程上,似乎走得比DeepSeek更快。刘聪表示,DSA稀疏注意力与MTP(多token预测)结合的长文本高效训练,目前只有科大讯飞能够在国产算力上完成。
业绩层面,科大讯飞2025年实现营收271.05亿元,同比增长16.12%;归母净利润8.39亿元,同比增长49.85%。进入2026年,一季度营收52.74亿元,同比增长13.23%;归母净利润仍亏损1.7亿元,但较上年同期的1.93亿元亏损有所收窄。
全国产算力训练难度大
相比推理环节,模型训练对底层算力体系的要求更为严苛:不仅涉及更高的计算复杂度,还对算子覆盖与精度、工程调度效率,以及万卡级集群的互联稳定性提出系统性挑战。
“训练是‘学习’过程,需高精度、大算力及频繁参数更新;推理是‘应用’过程,侧重低延迟、高吞吐和能效比。”GKURC产经智库首席分析师丁少将向时代周报记者表示,共同挑战是从英伟达生态迁移成本高,需重构代码并解决长期稳定性问题。
目前,行业中更常见的路径仍是“英伟达训练 + 国产芯片推理”的折中方案。在训练阶段依赖成熟生态保证效率,在推理侧以国产芯片压低Token成本。
从市场结构看,这种分工尚未被打破。IDC数据显示,2025年中国AI加速卡出货量约400万块,其中英伟达占据约55%的份额,仍居主导地位;国内厂商合计约165万块,占比约41%。具体来看,华为昇腾出货约81.2万块,位列第二,阿里平头哥约26.5万块,位列第四。
硬件差距直接体现在训练难度上。以昇腾910B与英伟达H200为例,前者显存容量约64GB,明显低于后者的141GB;带宽方面,910B约1.6TB/s,也低于H200的4.8TB/s。
刘聪指出,这些差异导致在新模型训练过程中遇到很大困难,有的是由于算子差异和模型分布式策略,造成训练推理精度一致性对齐的难题;有的是一致性对齐但训练效率很低导致难以训练,例如在智能体强化学习训练阶段的采样推理操作效率,因为910B的通信机制设计导致显著低于H200。
在这一背景下,全栈国产化训练更接近一项系统工程,而非简单替换芯片。
事实上,科大讯飞与华为昇腾的合作可追溯至2023年。当年,华为徐直军在1024全球开发者节宣布,科大讯飞联合华为正式发布基于昇腾生态的“飞星一号”平台,尝试打通从底层算力到大模型再到应用开发的完整链路。科大讯飞董事长刘庆峰也表示,在华为派出专门工作组在讯飞成立专班工作优化的背景下,华为GPU可对标英伟达A100。
但这一路径并非没有代价。由于底层生态尚未成熟,讯飞早期模型效果一度受到影响。刘庆峰在2023年曾表示,“假如我们现在不是用国产平台,而是用已经成型的英伟达平台,那么发布的星火3.0的效果可能还会更好,但这一步非走不可。”
时间成本是更现实的约束。刘庆峰在最新业绩说明会上表示,当国际主流算法出来之后,如在英伟达卡上直接就可以做,但在国产卡上需要额外解决算子库效率优化等一系列问题,需要额外3-6个月的适配周期。
但反过来看,适配的过程也在积累壁垒。长期的适配与调优,科大讯飞发现并解决了许多底层bug,刘庆峰认为,这种能力已开始转化为商业竞争力。在央国企招投标中,其星火大模型获得了较高市场份额。
昇腾950带动国产大模型爆发?
随着训练侧逐步向国产算力迁移,头部互联网公司也开始转向。
除了科大讯飞,近期开放测试的美团新一代基础大模型LongCat-2.0-Preview,其训练推理或全程依托国产算力集群完成。据知情人士向时代周报记者透露,美团本次训练阶段动用的算力卡数量在5万至6万之间,这也是迄今为止,在国产算力上完成的规模最大的大模型训练任务。该人士表示,这是对国产算力生态成熟度的一次有效验证。
模型侧的变化,与硬件迭代形成同步。
2026年3月,华为发布昇腾950PR芯片。据介绍,其单卡算力较英伟达对华特供版H20提升约2.87倍,但与更高端的H200仍存在差距。此外,华为计划于2026年第四季度推出Atlas 950 SuperPoD超节点,单集群规模达到8192卡,试图在集群级能力上缩小差距。
在推理端,昇腾950的优化更为直接。根据华为计算官方微信公众号消息,昇腾950通过融合kernel 和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek-V4模型推理部署。
对模型厂商而言,硬件代际变化意味着策略空间的扩大。科大讯飞方面表示,当前已经与华为团队针对950芯片进行深度对接,在昇腾950平台上联合攻坚更高效模型结构、混合Attention机制、智能体强化学习等关键技术。
因为950系列相对于910系列的显存、带宽算力等方面都有较大提升,科大讯飞预计,当前的算法迁移过去之后可以很大加速训练流程。公司有望在今年1024开发者节上,基于昇腾950平台发布对标国际主流先进水平的旗舰模型。