小米開源MiMo-V2-Flash:150token/秒極速推理,性能比肩DeepSeek
**小米開源MiMo-V2-Flash:150token/秒極速推理,性能比肩DeepSeek**
在2025年小米“人車家全生態(tài)合作伙伴大會”上,Xiaomi MiMo大模型負責人羅福莉正式揭幕了開源模型MiMo-V2-Flash,其以每秒150 tokens的生成速度刷新行業(yè)標桿,推理效率超越主流閉源模型,成本僅為競品的5%。這一技術(shù)突破標志著小米在高效能AI領域的領先地位,也為開源社區(qū)提供了可商用的尖端工具。
**混合專家架構(gòu)的工程革命**
MiMo-V2-Flash采用MoE(混合專家)架構(gòu),總參數(shù)規(guī)模達3090億,但通過動態(tài)路由機制僅激活150億參數(shù)運行。這種設計在保證模型容量的同時,將計算資源消耗壓縮至傳統(tǒng)密集模型的1/20。更關鍵的是,其創(chuàng)新的Hybrid SWA(混合滑動窗口注意力)機制鎖定了128 tokens的“神奇窗口”,結(jié)合5:1的Hybrid Attention與Full Attention配比,既支持256K超長上下文處理,又將內(nèi)存占用降低40%。
**速度與成本的顛覆性平衡**
實測數(shù)據(jù)顯示,該模型單機吞吐量達5,000~15,000 tokens/秒,單請求響應速度穩(wěn)定在150~155 tokens/秒,比DeepSeek-V3.2快3倍。后訓練階段采用的MOPD技術(shù)(多目標參數(shù)蒸餾)以不足標準流程1/50的計算量,復現(xiàn)了教師模型97.3%的性能,使得推理成本較GeMINI 2.5 Pro降低20倍。據(jù)小米披露,其API定價已低至輸入0.7元/百萬tokens、輸出2.1元/百萬tokens,為開發(fā)者提供高性價比選擇。
**開源生態(tài)的競爭力躍升**
在權(quán)威評測中,MiMo-V2-Flash的代碼生成與智能體任務表現(xiàn)位列全球開源模型Top 2,部分指標超越Claude Sonnet 4.5等閉源產(chǎn)品。其開源策略不僅釋放了模型權(quán)重與推理代碼,還配套提供邊緣設備部署方案,通過參數(shù)壓縮技術(shù)適配3B~7B參數(shù)的移動端場景。羅福莉強調(diào):“下一代智能體需突破語言模擬器局限,構(gòu)建環(huán)境交互能力?!痹撃P鸵颜故就ㄟ^HTML編寫操作系統(tǒng)、天體運動模擬等跨模態(tài)理解案例,為智能家居、車載系統(tǒng)等小米核心生態(tài)鋪路。
目前,MiMo-V2-Flash的Web Demo已開放限時體驗,技術(shù)白皮書與開源社區(qū)同步上線。這一發(fā)布或?qū)⒅厮苄袠I(yè)對高效能AI模型的成本認知,推動大模型技術(shù)向?qū)崟r響應場景加速滲透。
最新問答





