a级免费视频,婷婷五月亚洲综合图区

小米大模型負(fù)責(zé)人羅福莉首秀：算力和數(shù)據(jù)也并非最后的護(hù)城河

來源：界面新聞作者：伍洋宇2025-12-17 14:10

12月17日，小米召開2025人車家全生態(tài)合作伙伴大會。但實(shí)際上，幾乎所有目光都瞄準(zhǔn)了其中一位演講者——Xiaomi Mimo大模型負(fù)責(zé)人羅福莉。

自離開DeepSeek、低調(diào)入職小米后，這是被行業(yè)譽(yù)為“AI天才少女”的羅福莉首次代表小米大模型團(tuán)隊(duì)公開對外。而大會開始前，小米發(fā)布并開源了最新MoE大模型MiMo-V2-Flash，這構(gòu)成了羅福莉演講的核心內(nèi)容。

羅福莉在開場時指出，下一代智能體系統(tǒng)核心圍繞Agent執(zhí)行與Omni（全能）感知，涵蓋記憶、推理、自主規(guī)劃、決策、執(zhí)行多個維度，應(yīng)當(dāng)從回答問題走向完成任務(wù)，并且應(yīng)當(dāng)統(tǒng)一多模態(tài)感知，為理解物理世界打基礎(chǔ)。

她由此表示，MiMo-V2-Flash在研發(fā)之初，主要圍繞三個關(guān)鍵問題展開。

第一，當(dāng)代智能體必須要有高效的溝通語言，即代碼能力和工具調(diào)用能力；第二，“高帶寬”是Agent協(xié)作的關(guān)鍵，因此需要圍繞極致推理效率設(shè)計(jì)模型結(jié)構(gòu)；第三，模型訓(xùn)練范式逐步從預(yù)訓(xùn)練轉(zhuǎn)向后訓(xùn)練，為了激發(fā)后訓(xùn)練的更多潛能，需要高效穩(wěn)定的擴(kuò)展強(qiáng)化學(xué)習(xí)訓(xùn)練。

圖自界面新聞

MiMo-V2-Flash是小米全新一代面向Agent的基座模型，總參數(shù)309B，激活參數(shù)15B，支持256k上下文窗口，整體針對推理、編碼和Agent場景構(gòu)建，支持混合思維模式，允許用戶切換“思考”和即時回答模式。

在基準(zhǔn)測試中，MiMo-V2-Flash的表現(xiàn)整體接近DeepSeek-V3.2，在SWE-Bench Verified/Multiligual、GPQA-Diamond等測試中略勝一籌，僅在HLE（人類最后的考試）及Arena-Hard（創(chuàng)意寫作評估）兩項(xiàng)測試中不及后者。此外，該模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。

作為首秀成果，同時也是小米未來可能全面落地各個業(yè)務(wù)場景的智能體模型底座，羅福莉花了大量篇幅重點(diǎn)講述MiMo-V2-Flash的性價比優(yōu)勢及其技術(shù)來由。

目前，MiMo-V2-Flash推理吞吐速度為每秒150個token，定價0.7元/每百萬輸入token，2.1元/每百萬輸出token。

在一張價格與速度構(gòu)成的坐標(biāo)軸圖標(biāo)中，MiMo-V2-Flash的速度與Gemini-2.5 Pro齊平，但價格是其約二十分之一；其價格是DeepSeek V3.2的約一半，但速度是后者的近3倍。

這樣的推理效率主要來自兩項(xiàng)創(chuàng)新。其一是模型注意力機(jī)制采用了Hybrid Sliding Window Attention（Hybrid SWA/混合滑動窗口注意力機(jī)制），其中SWA與Full Attention（全局注意力機(jī)制）的比例是5:1。

羅福莉指出，相較于一些復(fù)雜的Linear Attention（線性注意力機(jī)制），SWA在兼顧長短文的推理、知識檢索等方面更勝一籌。

一名AI大模型行業(yè)從業(yè)者對界面新聞記者表示，SWA本質(zhì)上是一種Sparse Attention（稀疏注意力機(jī)制），業(yè)界普遍利用它解決長上下文的推理效率問題，其最大優(yōu)勢是可以將KV Cache保持在一個固定最大值，而不會隨著上下文擴(kuò)大而無限增長，從而實(shí)現(xiàn)降本增效的目的。

他指出，這種機(jī)制核心要考慮的問題是在長文本任務(wù)中受到窗口策略限制可能表現(xiàn)不佳，這也是SWA會與Full Attention進(jìn)行混合配比的原因之一。

MiMo-V2-Flash另一項(xiàng)重要創(chuàng)新在于MTP（Multi-Token Prediction）。羅福莉表示，團(tuán)隊(duì)在訓(xùn)練時加入了一層MTP層以提高基座模型能力，并在微調(diào)時也加入了更多MTP層，最終在推理時加入了3層MTP，以加速并行token驗(yàn)證的方式實(shí)現(xiàn)了2-2.6倍推理速度的提升。

此外，為了提高強(qiáng)化學(xué)習(xí)訓(xùn)練的穩(wěn)定性，MiMo團(tuán)隊(duì)提出了一種叫做Multi-Teacher On-Policy Distillation（MOPD）的后訓(xùn)練范式。相較于傳統(tǒng)SFT+RL（微調(diào)+強(qiáng)化學(xué)習(xí)）的后訓(xùn)練方式，它可以提供稠密的token level監(jiān)督學(xué)習(xí)信號，以簡單快速的方式獲得各個專家模型的能力。

“我們還發(fā)現(xiàn)一個很意外的事情，當(dāng)學(xué)生很快超越老師的時候，我們能不能把老師替換成學(xué)生繼續(xù)自我迭代提升，這是一個正在進(jìn)行中的工作?！绷_福莉預(yù)告稱。

圖自界面新聞

從這場演講可以看出的是，羅福莉在小米大模型團(tuán)隊(duì)不僅僅要擔(dān)任一個科學(xué)家角色，她需要真正帶領(lǐng)小米做出能夠落地其人車家全生態(tài)產(chǎn)品的AI基座模型及應(yīng)用能力——在汽車、手機(jī)、大家電、智能穿戴等硬件產(chǎn)品線全面開始跨越自己的階段性門檻后，AI能力是小米撐起下一個十年技術(shù)敘事的核心底座。

羅福莉也幾乎沒有談?wù)撟约?，唯一涉及團(tuán)隊(duì)構(gòu)成的表述是，一個“小而美，卻充滿創(chuàng)業(yè)精神極度好奇、追求真理”的年輕團(tuán)隊(duì)。此外，她認(rèn)為在大模型的能力競爭中，算力和數(shù)據(jù)也并非最終的護(hù)城河，“而是科學(xué)的研究文化與方法，是將未知問題結(jié)合模型優(yōu)勢轉(zhuǎn)化可用產(chǎn)品的能力”。

此外，在大會上，小米集團(tuán)合伙人、集團(tuán)總裁盧偉冰披露了小米“人車家全生態(tài)”的最新進(jìn)展：用戶規(guī)模方面，小米全球月活躍用戶數(shù)達(dá)到7.42億；硬件生態(tài)方面，小米AIoT平臺連接設(shè)備數(shù)達(dá)到10.4億，硬件合作伙伴數(shù)量突破15000家；軟件生態(tài)方面，小米全球開發(fā)者規(guī)模達(dá)到120萬，國內(nèi)應(yīng)用生態(tài)每月應(yīng)用分發(fā)量突破11億。

責(zé)任編輯：陳勇洲

羅福莉

大模型

MoE大模型

聲明：證券時報力求信息真實(shí)、準(zhǔn)確，文章提及內(nèi)容僅供參考，不構(gòu)成實(shí)質(zhì)性投資建議，據(jù)此操作風(fēng)險自擔(dān)

下載“證券時報”官方APP，或關(guān)注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機(jī)會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達(dá)個人看法，并不表明證券時報立場