微软发布三款自研AI模型,正面抗衡OpenAI与谷歌
2026年4月3日,微软正式发布三款自研AI模型——MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2。这是微软AI超级智能团队成立六个月以来打出的第一枪,也是微软试图摆脱对OpenAI依赖的关键一步。
长期以来,微软与OpenAI保持着深度合作,但这种合作正在悄然生变。2025年10月,微软与OpenAI重新敲定合作协议,允许微软单独或与第三方合作伙伴追求通用人工智能(AGI)的权利。此前的协议虽然允许微软使用OpenAI知识产权,但同时禁止其开发竞争性AI系统。新的协议为微软自主研发铺平了道路。
随之而来的,是微软AI超级智能团队的组建。该团队由前谷歌DeepMind联合创始人穆斯塔法·苏莱曼(Mustafa Suleyman)领导,目标是到2027年实现“人工智能自主自研”。苏莱曼表示,公司正在构建训练模型所需的算力,并从2025年10月开始部署英伟达GB200芯片。他直言:“从那时开始,我们将在接下来的大约12到18个月内逐步提升,达到前沿规模的计算能力。”
此次发布的三款模型,正是苏莱曼团队交出的首份答卷。MAI-Transcribe-1是微软推出的首款自研语音转文本模型,在涵盖所有语言的测试中,平均错误率仅为3.9%,优于OpenAI Whisper的4.2%和谷歌Gemini 3.1 Flash的4.9%。不仅准确率更高,批量转录速度相比Azure Fast方案提升了2.5倍。
MAI-Voice-1是微软的语音生成模型,主打一个“快”字——可以在单块GPU上实现不到1秒内生成60秒的高质量音频。更重要的是,它能够在长内容生成中保持语音的一致性,这对于需要生成播客、有声书、长语音助手回复等场景尤为重要。
MAI-Image-2是微软的第二代图像生成模型,在权威的“大模型竞技场”(LMArena)图像生成模型排行榜中位居第三,仅次于谷歌Nano Banana 2和OpenAI GPT-Image 1.5。该模型目前已在Copilot中上线,接下来将陆续应用于Bing Image Creator和PowerPoint。
微软此次发布的三款模型,不仅能力出众,价格也极具竞争力。MAI-Transcribe-1定价每小时0.36美元,MAI-Voice-1每百万字符22美元,MAI-Image-2文本输入每百万token仅5美元,图像输出每百万token 33美元。作为对比,谷歌Gemini 3 Pro图像生成每百万token要120美元——MAI-Image-2的价格仅为谷歌同类产品的5%-15%。微软这是摆明了要用价格优势硬刚OpenAI和谷歌。
过去十年,微软在AI领域始终扮演着“OpenAI独家经销商”的角色。但这显然不是微软想要的。从苏莱曼团队成立的第一天起,微软的目标就是自主可控。三款模型商用只是一个开始,苏莱曼说团队的目标是到2027年能够真正达到最先进水平。微软的AI自主之路,才刚刚起步。
---
*参考资料:新浪财经、IT之家、搜狐财经*