比DeepSeek更快？科大讯飞研究院院长：我们在国产算力上完成模型训练,科大讯飞高层

本文来源：时代周报作者：朱成呈闫晓寒

“目前国内只有讯飞一家真正在全国产算力上完成全栈模型的训练。”4月29日，科大讯飞（002230.SZ）研究院院长刘聪在2025年度及2026年一季度业绩说明会上表示。

此前，DeepSeek-V4在技术报告中表示，在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度 EP（专家并行）方案。根据DeepSeek官网，下半年昇腾950超节点批量上市有望继续推动DeepSeek-V4 Pro降价。

IDC咨询认为，全球大模型市场逐渐分化为两大阵营：以OpenAI、Google、Anthropic为代表的 “闭源高端+海外算力”阵营，聚焦极致性能与生态壁垒；以DeepSeek为代表的 “开源普惠 + 中国算力” 阵营，主打高性价比与安全可控。这种分化将为全球企业提供更多选择，同时推动AI产业全球化竞争进入新阶段。

值得注意的是，科大讯飞在算力国产化进程上，似乎走得比DeepSeek更快。刘聪表示，DSA稀疏注意力与MTP（多token预测）结合的长文本高效训练，目前只有科大讯飞能够在国产算力上完成。

业绩层面，科大讯飞2025年实现营收271.05亿元，同比增长16.12%；归母净利润8.39亿元，同比增长49.85%。进入2026年，一季度营收52.74亿元，同比增长13.23%；归母净利润仍亏损1.7亿元，但较上年同期的1.93亿元亏损有所收窄。

全国产算力训练难度大

相比推理环节，模型训练对底层算力体系的要求更为严苛：不仅涉及更高的计算复杂度，还对算子覆盖与精度、工程调度效率，以及万卡级集群的互联稳定性提出系统性挑战。

“训练是‘学习’过程，需高精度、大算力及频繁参数更新；推理是‘应用’过程，侧重低延迟、高吞吐和能效比。”GKURC产经智库首席分析师丁少将向时代周报记者表示，共同挑战是从英伟达生态迁移成本高，需重构代码并解决长期稳定性问题。

目前，行业中更常见的路径仍是“英伟达训练 + 国产芯片推理”的折中方案。在训练阶段依赖成熟生态保证效率，在推理侧以国产芯片压低Token成本。

从市场结构看，这种分工尚未被打破。IDC数据显示，2025年中国AI加速卡出货量约400万块，其中英伟达占据约55%的份额，仍居主导地位；国内厂商合计约165万块，占比约41%。具体来看，华为昇腾出货约81.2万块，位列第二，阿里平头哥约26.5万块，位列第四。

硬件差距直接体现在训练难度上。以昇腾910B与英伟达H200为例，前者显存容量约64GB，明显低于后者的141GB；带宽方面，910B约1.6TB/s，也低于H200的4.8TB/s。

刘聪指出，这些差异导致在新模型训练过程中遇到很大困难，有的是由于算子差异和模型分布式策略，造成训练推理精度一致性对齐的难题；有的是一致性对齐但训练效率很低导致难以训练，例如在智能体强化学习训练阶段的采样推理操作效率，因为910B的通信机制设计导致显著低于H200。

在这一背景下，全栈国产化训练更接近一项系统工程，而非简单替换芯片。

事实上，科大讯飞与华为昇腾的合作可追溯至2023年。当年，华为徐直军在1024全球开发者节宣布，科大讯飞联合华为正式发布基于昇腾生态的“飞星一号”平台，尝试打通从底层算力到大模型再到应用开发的完整链路。科大讯飞董事长刘庆峰也表示，在华为派出专门工作组在讯飞成立专班工作优化的背景下，华为GPU可对标英伟达A100。

但这一路径并非没有代价。由于底层生态尚未成熟，讯飞早期模型效果一度受到影响。刘庆峰在2023年曾表示，“假如我们现在不是用国产平台，而是用已经成型的英伟达平台，那么发布的星火3.0的效果可能还会更好，但这一步非走不可。”

时间成本是更现实的约束。刘庆峰在最新业绩说明会上表示，当国际主流算法出来之后，如在英伟达卡上直接就可以做，但在国产卡上需要额外解决算子库效率优化等一系列问题，需要额外3-6个月的适配周期。

但反过来看，适配的过程也在积累壁垒。长期的适配与调优，科大讯飞发现并解决了许多底层bug，刘庆峰认为，这种能力已开始转化为商业竞争力。在央国企招投标中，其星火大模型获得了较高市场份额。

昇腾950带动国产大模型爆发？

随着训练侧逐步向国产算力迁移，头部互联网公司也开始转向。

除了科大讯飞，近期开放测试的美团新一代基础大模型LongCat-2.0-Preview，其训练推理或全程依托国产算力集群完成。据知情人士向时代周报记者透露，美团本次训练阶段动用的算力卡数量在5万至6万之间，这也是迄今为止，在国产算力上完成的规模最大的大模型训练任务。该人士表示，这是对国产算力生态成熟度的一次有效验证。

模型侧的变化，与硬件迭代形成同步。

2026年3月，华为发布昇腾950PR芯片。据介绍，其单卡算力较英伟达对华特供版H20提升约2.87倍，但与更高端的H200仍存在差距。此外，华为计划于2026年第四季度推出Atlas 950 SuperPoD超节点，单集群规模达到8192卡，试图在集群级能力上缩小差距。

在推理端，昇腾950的优化更为直接。根据华为计算官方微信公众号消息，昇腾950通过融合kernel 和多流并行技术降低Attention计算和访存开销，大幅提升推理性能，结合多种量化算法，实现了高吞吐、低时延的DeepSeek-V4模型推理部署。

对模型厂商而言，硬件代际变化意味着策略空间的扩大。科大讯飞方面表示，当前已经与华为团队针对950芯片进行深度对接，在昇腾950平台上联合攻坚更高效模型结构、混合Attention机制、智能体强化学习等关键技术。

因为950系列相对于910系列的显存、带宽算力等方面都有较大提升，科大讯飞预计，当前的算法迁移过去之后可以很大加速训练流程。公司有望在今年1024开发者节上，基于昇腾950平台发布对标国际主流先进水平的旗舰模型。