DeepSeek V4优先支持国产芯片:一场关于算力主权的无声革命
2026年的春天,全球AI行业的目光再次聚焦于一家中国初创公司。
四个月前,DeepSeek用R1模型撕开了硅谷精心构筑的算力霸权防线。如今,更重磅的消息正在传来--据美国数字新闻媒体The Information报道,DeepSeek即将发布的下一代大语言模型V4,将首次完全基于华为等国产AI芯片完成训练与推理。这不仅是技术路线的切换,更是一场关于算力主权的宣告。
消息人士透露,为确保V4在国产硬件上高效运行,DeepSeek过去数月与华为及寒武纪密切合作,不仅重写了底层程序,更打破行业惯例--未向美国AI芯片供应商开放测试,而是将国产芯片置于优先适配地位。市场反应同样剧烈:阿里巴巴、字节跳动、腾讯等科技巨头已提前下单华为新一代AI芯片,订单规模达数十万颗。
一切早有伏笔。
当Token变贵:被逼到墙角的AI竞赛
时间回到2025年初。那时的AI行业正陷入一场昂贵的竞赛--大模型的Token价格成为衡量技术实力的标尺,也成为悬在每一家科技公司头顶的达摩克利斯之剑。
OpenAI的GPT-4每千Token成本高达数十美元,Claude的定价同样令人咋舌。国内的阿里、字节、百度虽然奋起直追,但在算力成本上始终受制于英伟达的芯片供应。GPU短缺成为常态,黄仁勋的访华行程成为媒体焦点,而H100、H200的价格更是被炒至天价。
这场竞赛的本质是什么?是算力的竞赛,是芯片的竞赛,更是供应链安全的竞赛。
一位国内AI公司技术负责人曾对媒体坦言:"我们不是在和对手竞争,而是在和芯片厂商的产能竞争。"这句话背后,是中国AI行业集体面临的困境--当最先进的AI模型建立在别人家的芯片上,每一次技术突破都意味着向硅谷支付昂贵的"租金"。
DeepSeek的出现改变了这一叙事。
2025年初,DeepSeek V3以仅557.6万美元的训练成本(据SemiAnalysis分析),训练出性能对标GPT-4的模型。这一数字让整个硅谷为之震动--它证明了一个被忽视的真相:算法优化与高效计算的价值,可能远超堆砌算力。
但震动之余,一个更根本的问题浮出水面:如果算法可以突破,那芯片呢?
存储瓶颈:当内存成为阿喀琉斯之踵
大模型的训练从来不只是计算力的竞赛。内存带宽、存储容量、数据吞吐--每一个环节都可能是瓶颈。
2025年下半年,行业开始关注一个被忽视的挑战:大模型的Context Window(上下文窗口)正在快速膨胀。从4K到128K,再到100万token--这意味着模型需要处理的信息量呈指数级增长。而每一次信息的读取、每一次Attention机制的运算,都在考验着存储系统的极限。
英伟达的H100芯片为何强大?不仅仅是其强大的FP16算力,更关键的是其高达3.35TB/s的显存带宽和80GB的HBM3e显存。但在美国出口管制的限制下,这些顶级芯片无法直接供应中国市场。
中国公司面临的不仅是算力不足,更是存储瓶颈。一位半导体行业分析师指出:"当你的模型需要100万token上下文时,如果芯片的显存带宽不够,整个推理速度会下降一个数量级。"
这一瓶颈在2025年底开始显现。路透社援引多位知情人士的消息称,受DeepSeek部署热潮带动,英伟达专供中国市场的H20芯片在华订单大增。腾讯、阿里和字节跳动都"大幅增加了"H20订单,一位服务器制造商的消息人士甚至透露,医疗和教育等行业的小型企业也在购买配备DeepSeek和H20芯片的AI服务器。
但这只是权宜之计。H20是英伟达为符合美国出口管制而设计的"降级版"芯片,其性能远不及H100。更重要的是--在可预见的未来,美国对中国的芯片限制只会越来越严格。
出路在哪里?
价格战与"焊"在芯片上
2025年的价格战,是DeepSeek引发的第二场地震。
当DeepSeek R1以远低于竞争对手的价格开放API调用时,整个行业的定价体系被颠覆。阿里、百度、字节纷纷跟进降价,部分模型的价格甚至降至原来的十分之一。
表面上看,这是商业模式的选择。但本质上,这是对算力成本的控制权的争夺--谁能更高效地利用算力,谁就能在价格战中占据优势。
而算力效率的提升,从来不是单一环节的努力。它需要软件与硬件的深度协同,需要模型与芯片的共同优化。用更专业的话说:这叫"软硬协同"。
行业观察者开始用一个生动的比喻来形容这种趋势--把模型"焊"在芯片上。
这不是夸张。在传统模式下,AI模型像是一个通用的"软件",可以在任何兼容的硬件上运行。但在"焊"在芯片上的模式中,模型的底层代码针对特定芯片架构进行了深度优化--每个Kernel(内核)的实现都与芯片的指令集深度绑定,每个数据流向都与硬件的存储层次完美匹配。
结果是:同样的芯片,更高的效率;同样的模型,更低的成本。
据英国《金融时报》报道,DeepSeek团队的实测数据显示,华为昇腾910C在AI推理中的表现出乎意料地好,已经达到NVIDIA H100芯片的60%左右。并且,通过手写CUNN(昇腾AI异构计算框架)内核和优化,昇腾910C的性能还可以进一步提升。
这意味着什么?意味着在特定场景下,国产芯片+深度优化,已经可以接近国际顶级芯片的性能。而价格--则是另一回事了。
打破惯例:DeepSeek的"去美化"路线
2026年4月,The Information的报道揭示了一个关键信号:DeepSeek V4将打破行业惯例--未向美国AI芯片供应商开放测试,而是优先向包括华为在内的国产芯片厂商开放。
这是一个标志性的转变。
过去十年,中国AI行业形成了一个隐性的"惯例":每当发布重大模型更新时,都会提前向英伟达、AMD等美国芯片厂商提供测试机会,以优化模型在其硬件上的性能表现。这不仅是因为这些芯片性能更强,更因为全球AI生态都围绕CUDA架构构建--不兼容英伟达,几乎意味着无法参与国际竞争。
但DeepSeek选择了另一条路。
据路透社报道,DeepSeek不仅与华为合作,还与另一家中国芯片设计公司寒武纪科技直接合作,帮助重写模型的部分底层代码并进行测试。报道还提到,DeepSeek正在研发另外两个V4变体,每个模型都针对不同的功能进行了优化,并且是为在中国芯片上运行而设计的。
这意味着什么?
首先,这是对国产芯片生态的信任投票。DeepSeek V4预计将采用近1万亿参数的架构,可能搭配数十万颗昇腾950PR芯片。V4 Lite则以2000亿参数实现了接近美国头部闭源模型Sonnet 4.6的性能表现。这些数据表明,国产芯片已经能够支撑顶级大模型的运行。
其次,这是对"去美化"供应链的推动。阿里、字节、腾讯提前数十万颗的订单规模,不仅是对DeepSeek V4发布的预期,更是对国产芯片产能的提前锁定。据华为今年3月21日在中国合作伙伴大会上正式发布的搭载昇腾950PR处理器的Atlas 350加速卡,昇腾950PR芯片基于SIMD架构,算力达到1PFLOPS(FP8)/2PFLOPS(FP4),支持多种数据格式,互联带宽2TB/s,内存容量128GB、带宽1.6TB/s。
第三,这是对全球AI供应链的重塑。当中国最大的AI模型选择使用中国芯片时,一个独立于硅谷的AI生态正在形成。这不仅影响硬件供应,更会影响软件框架、开发工具、乃至整个行业标准。
华为的算力生态:从"备胎"到"主力"
在这场变革中,华为的角色值得单独审视。
2024年,当美国对中国的芯片限制进一步收紧时,华为的昇腾芯片被寄予厚望。但当时,业界对其能否承担顶级AI模型的训练任务仍存疑虑--良率问题、产能问题、生态成熟度问题,每一个都是挑战。
一年后,答案正在变得清晰。
据《金融时报》报道,华为已将其最新人工智能芯片的良率(即生产线上制造的功能正常的芯片比例)提高到接近40%,比一年前约20%的水平翻了一倍。具体来说,华为计划在今年量产10万块昇腾910C芯片,及30万块昇腾910B芯片。这意味着昇腾芯片的生产线将首次实现盈利,而华为的目标是将制造良率进一步提高至60%,达到与业界生产同级芯片的标准。
更关键的是生态的成熟。
截至2025年2月中旬,已有包括华为昇腾、沐曦、天数智芯、摩尔线程、海光信息等17家国产AI芯片企业宣布支持DeepSeek模型的快速部署和训练,涵盖从训练到推理的全链条场景。市场研究显示,2023年中国AI芯片市场规模已达到1206亿元,同比增长41.9%,预计到2025年将增至1530亿元,年复合增长率超过30%。
这不再是一个"备胎"计划,而是一个正在成熟的产业生态。华为昇腾950PR芯片的发布,DeepSeek V4的优先适配,阿里、字节、腾讯的数十万颗订单--这些信号汇聚成一个结论:国产AI算力,已经从"可用"走向"好用",从"备选"走向"首选"。
未来几周:一个新时代的开始
据The Information报道,DeepSeek V4预计将在未来几周内正式发布。
这不仅是DeepSeek的里程碑,更是中国AI行业的一个转折点。
回顾过去两年的发展轨迹:从DeepSeek V3的"低成本震撼",到R1的"推理能力突破",再到V4的"国产芯片优先"--这家公司用实际行动走出了一条独特的路线:不依赖最先进的英伟达芯片,而是通过算法创新与软硬协同,在国产芯片上实现世界级的性能。
这条路并非没有挑战。生态的完善、产能的提升、软件的成熟--每一个环节都需要时间和投入。但趋势已经确立:当最大的中国AI模型选择使用中国芯片,当最大的中国科技公司开始批量订购国产芯片,一个属于中国AI的算力时代正在到来。
而这一切,才刚刚开始。