31B参数开源第三!谷歌Gemma 4打开端侧AI新时代
2026年4月3日凌晨,硅谷还笼罩在夜色中,谷歌DeepMind CEO Demis Hassabis却在X上甩出了四颗钻石emoji。几个小时后,谜底揭晓——Gemma 4系列横空出世。这是谷歌迄今为止最强大的开源模型家族,也是这家科技巨头在开源赛道上最激进的一次出牌。31B版本直接冲上Arena AI全球开源模型第三名,用不到十分之一的参数量就能跟那些400亿参数的巨无霸掰手腕。这不仅是一次技术升级,更是谷歌向端侧AI时代投下的一枚深水炸弹。
从“阉割版”到“满血版”:谷歌的觉醒时刻
谷歌做开源模型的历史不算短,但过去几年的策略一直让人有些摸不着头脑。Gemma系列虽然是开源的,但总给人一种“留一手”的感觉——用的不是谷歌官方最先进的技术,许可证也是Google自己的协议,商业使用限制多多。开发者们抱怨归抱怨,却也无可奈何。毕竟开源模型选择那么多,谷歌若总是端着,开发者自然会用脚投票。
这种局面在2025年开始变得尴尬起来。这一年,Meta的Llama系列一路狂飙,DeepSeek异军突起,国内开源模型更是你方唱罢我登场。开源社区的关注度逐渐从谷歌转移到了其他地方。Gemma 3是2025年3月发布的,整整一年时间,谷歌在开源赛道上的存在感越来越弱。
但这次,谷歌显然是动了真格。2026年4月3日发布的Gemma 4,直接用上了与闭源旗舰Gemini 3相同的研究和技术体系。谷歌在官方博客里说得明白:“Gemma 4基于与Gemini 3相同的世界级研究和技术打造。”这句话的分量可不轻——意味着谷歌把自家最核心的能力,下放到了开源模型上。
更让人意外的是,谷歌这次彻底放下了姿态。Gemma 4不再使用Google自有的许可协议,而是采用了Apache 2.0商业友好型许可证。开发者可以自由修改、分发、商用,对数据、基础设施和模型拥有完整控制权,可以在本地或云端任意环境部署。这种转变,某种程度上反映了谷歌在开源战场上的战略焦虑——当Llama 4已经用“开源第一”的姿态搅动市场,谷歌必须用更开放的姿态来挽回开发者。
四款型号背后:一场精心设计的覆盖战
谷歌这次一口气放出了四款模型,分别是E2B、E4B、26B MoE和31B。表面上这是产品矩阵,实际上是一场覆盖从手机到服务器的全面战争。
先看两款小模型。E2B是20亿参数版本,51亿总参数、23亿有效参数,35层架构,128K上下文窗口。E4B是40亿参数版本,80亿总参数、45亿有效参数,42层架构,同样128K上下文。名字里的"E"是Effective的缩写,代表谷歌在小型模型上采用了Per-Layer Embeddings技术,有效参数远小于总参数。这意味着什么?意味着这两款小模型可以在极小的硬件 footprint下跑出远超预期的性能。
官方数据更是给出了实锤:E2B在部分设备上内存占用可以压到1.5GB以下。这意味着什么?一台树莓派就能跑,一个普通手机就能部署。谷歌和Pixel团队、高通、联发科已经完成了端侧优化,E2B和E4B可以在手机、NVIDIA Jetson Orin Nano上完全离线运行,近零延迟响应。对开发者来说,这种“口袋里的AI”能力在以前是难以想象的。
再看两款大模型。26B MoE采用了混合专家架构,252亿总参数、38亿激活参数,128个专家每次激活8个加1个共享,30层架构,256K上下文窗口。MoE架构的优势在于推理速度可以接近4B模型,但质量远超4B水平——用更少的计算资源换取更强的能力。31B Dense则是310亿参数全激活,60层架构,256K上下文,追求的是质量上限。官方说未量化的bfloat16权重一张80GB的H100就能装下,量化后消费级显卡也能跑。这意味着什么?一个普通开发者,不需要数据中心,只需要一块消费级显卡,就能部署一个能力接近顶级模型的服务。
全系模型都支持图像和视频输入,支持140多种语言。有趣的是,小模型反而支持语音输入——E2B和E4B各自带了一个约3亿参数的音频编码器,可以做语音识别和语音翻译,最长30秒。大模型没有音频能力。这种设计背后的产品逻辑很清晰:手机端语音是刚需,工作站场景下不是。
31B如何击败“20倍对手”
技术参数再漂亮,最终还是要看实战表现。在Arena AI这个业界公认的大模型竞技场上,Gemma 4 31B交出了一份令人震惊的成绩单:全球开源模型第三名。这个位置之前被各种400亿参数以上的巨无霸占据,而31B用不到十分之一的参数量就冲了进来。
更具体的数字是:Gemma 4 31B的Arena AI Elo评分达到1452分。在数学竞赛AIME 2026上,31B拿下89.2%的正确率——作为对比,Gemma 3只有20.8%。这是超过四倍的提升。在GPQA Diamond科学推理测试中,31B拿到84.3%。在LiveCodeBench v6编程测试中,31B拿到80.0%的分数。在Codeforces编程竞赛中,Gemma 4整体达到ELO 2150分,而上一代只有1100分。
这些数字意味着什么?意味着Gemma 4在榜单上的表现甚至超越了自身规模20倍的模型。谷歌在官方宣传中反复强调一个概念:“intelligence-per-parameter”——每个参数的智能水平都被榨干了。传统上,大模型提升性能的方式很简单粗暴:堆参数、堆数据、堆算力。但Gemma 4走的是另一条路——在有限参数下追求极致效率。这种策略对开发者来说意义重大:只需更少的硬件开销,即可实现前沿级AI能力。
26B MoE版本同样不容小觑。AIME 2026得分88.3%,GPQA Diamond得分82.3%,LiveCodeBench v6得分74.6%。在Arena AI开源排行榜上,26B位列第六。这个成绩已经足以让很多200亿以上的模型汗颜。
这不仅是技术竞争,更是生态战争
如果只看技术指标,你可能低估了这次发布的战略意义。谷歌的真正目标,是抢占端侧AI的入口。
端侧AI为什么重要?因为端侧意味着数据不需要上传云端,隐私有保障;意味着断网也能用,响应零延迟;意味着终端设备厂商可以借此构建差异化能力。当AI从云端走向边缘,从服务器走进手机,这背后是整个计算范式的转移。
谷歌显然看到了这一点。E2B和E4B的定位非常明确:不是与服务器端模型比性能,而是重新定义端侧部署的价值。与其单纯堆砌参数,不如在多模态能力、低延迟处理、生态无缝集成上做出差异化。谷歌与Pixel团队、高通、联发科的合作已经说明了这一点——他们要的不是某个单项指标冠军,而是端侧AI的完整解决方案。
与此同时,Apache 2.0许可证的采用也意味深长。开发者可以自由商用,无需担心法律风险。这在某种程度上是在向Meta的Llama系列宣战——Llama系列虽然开源,但商业使用一直有各种限制。谷歌这次彻底放开的姿态,显然是想吸引更多开发者转向Gemma生态。
更深一层看,Gemma 4的发布也是谷歌对抗Meta Llama系列开源生态的关键一步。Llama 4在2025年已经用Elo 1417分拿下了开源第一的位置,谷歌不可能坐视不管。但与其在相同维度上竞争,谷歌选择了另一条路——用更小的参数、更高的效率、更开放的许可,来撬动开发者的心。
开发者的新选择
对于开发者而言,Gemma 4意味着什么?意味着你现在有两个极具诱惑力的选择:如果你有高端GPU,想要最强性能,31B版本可以让你用一张80GB H100跑出接近顶级模型的能力;如果你想在手机或边缘设备上部署AI,E2B和E4B可以让你在不到2GB内存的设备上实现多模态理解和对话。
获取渠道也很方便。Hugging Face、Kaggle和Google AI Studio同步上线,开发者可以立即下载模型权重。AICore预览版也已经集成了Gemma 4,开发者可以直接在Google生态内构建应用。
当然,挑战同样存在。如何在端侧设备上优化推理效率,如何在有限的计算资源下发挥模型最大潜力,如何将Gemma 4与现有应用场景结合——这些都是开发者需要解决的问题。但至少现在,谷歌提供了一张极具竞争力的底牌。
2026年的开源大模型战局,因为Gemma 4的发布变得更加有趣。31B参数开源第三的成绩,不只是一个排名,更是谷歌向整个行业发出的信号:在端侧AI这个新战场上,谷歌准备好了。
写在最后
当31B用不到十分之一的参数击败400亿模型时,开源战争的逻辑已经变了。此前的法则是“谁参数大谁赢”,但Gemma 4告诉开发者:效率才是下一代AI的核心竞争力。对开发者而言,这种变化意味着一个临界点的到来——不再需要数据中心和百亿投入,一个消费级GPU就能部署顶级AI能力。
也更意味着,端侧AI不再是概念,而是开发者的新基建。当每个人手机里都能跑Agent,AI的普及速度将以数量级增长。这才是Gemma 4打开的真正新时代。