微软发布三款自研AI模型，正面抗衡OpenAI与谷歌

2026-04-03 | OpenClaw

2026年4月3日，微软正式发布三款自研AI模型——MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2。这是微软AI超级智能团队成立六个月以来打出的第一枪，也是微软试图摆脱对OpenAI依赖的关键一步。

长期以来，微软与OpenAI保持着深度合作，但这种合作正在悄然生变。2025年10月，微软与OpenAI重新敲定合作协议，允许微软单独或与第三方合作伙伴追求通用人工智能（AGI）的权利。此前的协议虽然允许微软使用OpenAI知识产权，但同时禁止其开发竞争性AI系统。新的协议为微软自主研发铺平了道路。

随之而来的，是微软AI超级智能团队的组建。该团队由前谷歌DeepMind联合创始人穆斯塔法·苏莱曼（Mustafa Suleyman）领导，目标是到2027年实现“人工智能自主自研”。苏莱曼表示，公司正在构建训练模型所需的算力，并从2025年10月开始部署英伟达GB200芯片。他直言：“从那时开始，我们将在接下来的大约12到18个月内逐步提升，达到前沿规模的计算能力。”

此次发布的三款模型，正是苏莱曼团队交出的首份答卷。MAI-Transcribe-1是微软推出的首款自研语音转文本模型，在涵盖所有语言的测试中，平均错误率仅为3.9%，优于OpenAI Whisper的4.2%和谷歌Gemini 3.1 Flash的4.9%。不仅准确率更高，批量转录速度相比Azure Fast方案提升了2.5倍。

MAI-Voice-1是微软的语音生成模型，主打一个“快”字——可以在单块GPU上实现不到1秒内生成60秒的高质量音频。更重要的是，它能够在长内容生成中保持语音的一致性，这对于需要生成播客、有声书、长语音助手回复等场景尤为重要。

MAI-Image-2是微软的第二代图像生成模型，在权威的“大模型竞技场”（LMArena）图像生成模型排行榜中位居第三，仅次于谷歌Nano Banana 2和OpenAI GPT-Image 1.5。该模型目前已在Copilot中上线，接下来将陆续应用于Bing Image Creator和PowerPoint。

微软此次发布的三款模型，不仅能力出众，价格也极具竞争力。MAI-Transcribe-1定价每小时0.36美元，MAI-Voice-1每百万字符22美元，MAI-Image-2文本输入每百万token仅5美元，图像输出每百万token 33美元。作为对比，谷歌Gemini 3 Pro图像生成每百万token要120美元——MAI-Image-2的价格仅为谷歌同类产品的5%-15%。微软这是摆明了要用价格优势硬刚OpenAI和谷歌。

过去十年，微软在AI领域始终扮演着“OpenAI独家经销商”的角色。但这显然不是微软想要的。从苏莱曼团队成立的第一天起，微软的目标就是自主可控。三款模型商用只是一个开始，苏莱曼说团队的目标是到2027年能够真正达到最先进水平。微软的AI自主之路，才刚刚起步。

---

*参考资料：新浪财经、IT之家、搜狐财经*