链接跳转

MiMo_小米大模型

AI语言

小米

端侧部署大模型，智能家居联动与系统级AI智能体

Xiaomi MiMo是小米成立的小米大模型Core团队推出的首个专为推理（Reasoning）而生的大模型，于2025年4月30日正式开源。小米集团成立于2010年，是一家以智能手机、智能硬件和IoT平台为核心的消费电子及智能制造公司，2024年位居《财富》世界500强第386位。小米大模型Core团队致力于通过Xiaomi MiMo推动AGI向物理世界延伸，2025年11月前DeepSeek研究员罗福莉正式宣布加入小米，担任AI大模型团队负责人。Xiaomi MiMo在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，仅用7B的参数规模，超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。2026年3月19日推出Xiaomi MiMo-V2-Pro、Xiaomi MiMo-V2-Omni与Xiaomi MiMo-V2-TTS三款自研大模型。MiMo-V2-Pro是面向Agent时代的旗舰基座大模型，总参数规模为1T（万亿参数），激活参数为42B，采用创新的混合注意力架构（Global Attention与Sliding Window Attention混合结构，混合比例为1:7），原生支持1M超长上下文，在高强度智能体场景下，逻辑推理与任务规划能力稳健，性能直追Claude Opus 4.6，在Artificial Analysis排行榜上位列全球第八，国内第二。MiMo-V2-Omni是全模态Agent大模型，具备原生全模态感知能力，支持图像、视频、音频、文本的原生理解，实现跨模态精准感知与长程推理，音频理解方面支持从环境声分类、多说话人分离、音频-视觉联合推理，到超过10小时连续长音频的深度理解，综合表现超越Gemini 3 Pro；图像理解方面展现出强大的多学科视觉推理与复杂图表分析能力，超越Claude Opus 4.6，逼近Gemini 3 Pro等顶尖闭源模型水平；视频理解方面支持原生音视频联合输入，实现真正的多模态视频理解。MiMo-V2-TTS是小米自主研发的语音合成大模型，基于自研Audio Tokenizer和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制，支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变，真实还原人类说话的自然韵律，在唱歌时也能准确表达音高和节奏。2026年4月23日小米MiMo-V2.5系列大模型开启公测，涵盖MiMo-V2.5、V2.5-Pro及TTS、ASR系列，其中MiMo-V2.5-Pro和MiMo-V2.5均支持百万级上下文，并计划开源。2026年6月8日发布MiMo-V2.5-Pro-UltraSpeed，通过模型与系统的极致Codesign，在通用GPU上将万亿参数模型的生成速度首次突破1000 tokens/s，实现了AI应用范式的底层颠覆。主要版本包括MiMo-7B、MiMo-V2-Flash、MiMo-V2-Pro、MiMo-V2-Omni、MiMo-V2-TTS、MiMo-V2.5系列、MiMo-V2.5-Pro-UltraSpeed等。应用场景包括智能家居联动、系统级AI智能体、办公自动化（MiMo Claw模块全面打通金山WebOffice生态，原生支持Word、Excel、PPT、PDF四大主流格式）、代码开发、语音交互等。

工具网

MiMo_小米大模型

看了MiMo_小米大模型的人还看了

热门排行

推荐软件