編者按:本文來自微信公眾號 機器之心(ID:almosthuman2014),編輯:杜偉、李,創(chuàng)業(yè)邦經(jīng)授權轉載。
在大公司一路高歌猛進的 AI 浪潮里,小創(chuàng)業(yè)者和高校研究者正變得越來越迷茫。就連前段時間谷歌創(chuàng)始人謝爾蓋?布林回斯坦福,都要回答「大學該何去何從」「從學術到產(chǎn)業(yè)的傳統(tǒng)路徑是否依然重要」這類問題。
AI,真的只是大公司的游戲嗎?被算力掣肘的其他研究者、創(chuàng)業(yè)者,機會在哪里?在「強化學習」后訓練引領「下半場」的當下,這個問題變得愈發(fā)重要。
好在,國內(nèi)外都有專業(yè)團隊在關心這個問題,比如前 OpenAI CTO Mira 創(chuàng)辦的 Thinking Machines Lab,前段時間就推出了一個叫「Tinker」的產(chǎn)品,專注于解決后訓練 Infra 的復雜性。
而在國內(nèi),一群由 95 后青年科學家組成的團隊做出了足以對標甚至超越 Tinker 的競品,成為世界第一家能夠對標 Thinking Machines Lab 的公司。
這個研究中心叫 Mind Lab,是 Macaron AI 背后的實驗室。1 月 1 日,他們發(fā)布了亮相以來的第一款產(chǎn)品——Mind Lab Toolkit(MinT)。這是一個用 CPU 的機器就能高效訓練萬億參數(shù)模型的后訓練平臺,且成本優(yōu)化了十倍,一天即可輕松完成一輪訓練。此外,它比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。

如果你是 Agent 領域創(chuàng)業(yè)公司或高校頂尖實驗室的成員,并且被算力限制了想象力,那你將是 MinT 的首批受益者。它的應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域,已經(jīng)在圈內(nèi)做出了一些成果。
細看一下,Mind Lab 的創(chuàng)始團隊也堪稱豪華。創(chuàng)始人 Andrew 畢業(yè)于 MIT,目前擔任深圳清華大學研究院的研發(fā)中心主任,代表工作有和姚順雨合作的 Agent 微調(diào)的經(jīng)典工作之一 FireAct。
首席科學家馬驍騰博士則畢業(yè)于清華大學自動化系,常年深耕強化學習領域。團隊成員來自清華、MIT、CMU等高校,并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經(jīng)歷。
團隊累計發(fā)表論文超 100 篇,總引用量超 3 萬次。
這樣一個團隊打造的 MinT,正以極致的工程效率,將 AI 下半場的入場券交還到每一位研究者手中。
預訓練時代結束,AI 下半場開啟
過去幾年,預訓練一直是 AI 領域的主旋律 —— 更大的模型、更多的數(shù)據(jù)、更長的訓練周期。
如今,這一階段已趨于飽和:開源社區(qū)已經(jīng)擁有萬億參數(shù)級別的模型,能夠編寫代碼、總結文檔、通過標準化考試。
但當這些系統(tǒng)被部署到真實產(chǎn)品中,新的瓶頸開始顯現(xiàn)。模型一旦完成訓練,參數(shù)就被 ' 凍住 ' 了,不停重復著相同的錯誤,也無法適應不斷變化的用戶需求,實際使用效果只能靠抽卡。
強化學習,正是破局的關鍵。
DeepSeek R1 的發(fā)布更是向業(yè)界證明,強化學習能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數(shù)據(jù),而是學會了在復雜任務中進行推理。
在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術報告中都反復強調(diào):后訓練仍是一片藍海,強化學習還沒看到天花板。
2026 年的主旋律,是后訓練。
后訓練時代的基礎設施
強化學習這么重要,為什么沒普及?答案是:算法太復雜,訓練太不穩(wěn)定。
為了解決這個問題,前 OpenAI CTO Mira 創(chuàng)立的 Thinking Machines 發(fā)布了 Tinker,定義了后訓練 API 的新范式,迅速獲得美國學界和硅谷創(chuàng)業(yè)公司的熱捧。
在 OpenAI 經(jīng)歷了 Sam Altman 被解雇又回歸的內(nèi)部動蕩后,Mira 選擇離開,并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業(yè)界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。2025 年 7 月,Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元,估值 120 億美元。
他們押注的,正是后訓練賽道。2025 年 10 月,Thinking Machines 發(fā)布了首款產(chǎn)品 Tinker,12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式,那么 Tinker 定義的就是模型的訓練 API 范式,讓所有模型訓練共享。
Tinker 已經(jīng)獲得了學術界和工業(yè)界的廣泛認可,成為了硅谷和美國頂尖高校的訓練新范式。

Mind Lab 與 MinT國產(chǎn)后訓練基礎設施的崛起
Tinker 在海外大火的同時,國內(nèi)也涌現(xiàn)出了對標甚至超越的力量 ——Mind Lab 推出的 MinT(Mind Lab Toolkit)。
Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念,致力于讓 AI 系統(tǒng)能夠從真實世界的經(jīng)驗中不斷成長。
在他們看來,當前大模型最大的問題是:訓練完就 "凍住",無法從真實交互中持續(xù)學習進化。
MinT,正是為解決這個問題而生。
MinT 和 Tinker 是什么關系?可以從兩個層面理解:
兼容性上,MinT 做到了模型夠大夠全、接口完全一致 —— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發(fā)者可以幾乎零成本地遷移到 MinT,享受國產(chǎn)基礎設施帶來的便利。
技術領先性上,MinT 不是簡單的 “國產(chǎn)替代”。事實上,早在 2025 年 12 月 1 日,Mind Lab 就比 Thinking Machines 更早實現(xiàn)了 1T LoRA-RL,是業(yè)界在萬億參數(shù)模型上進行高效強化學習的第一個成果。
相關實現(xiàn)方案已經(jīng)開源,并獲得了 Nvidia 官方轉載。
具體方案詳見 Mind Lab 的技術報告:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解決了什么問題?
MinT 的核心價值可以用一句話說清:不論模型是1B還是1T,需要調(diào)度多少GPU,你只管數(shù)據(jù)和算法,基礎設施的復雜工程全交給平臺。
具體來說:用戶只需在本地 CPU 機器上寫幾行 Python 代碼,MinT 就會自動把計算任務分發(fā)到大規(guī)模 GPU 集群執(zhí)行。集群調(diào)度、資源管理、容錯恢復,這些讓開發(fā)者和研究人員頭疼的工程問題,統(tǒng)統(tǒng)由 MinT 搞定。切換不同的模型,只需修改代碼中的一個字符串。
技術路線上,MinT 采用 LoRA 技術,使多個訓練和推理任務可以共享同一計算資源池,從而顯著降低成本。LoRA 在選擇最優(yōu)學習率的情況下,訓練進程與全參數(shù)微調(diào)幾乎完全一致,這為大規(guī)模高效后訓練奠定了理論基礎。
目前,MinT 已支持 Kimi K2 Thinking(萬億參數(shù)級別的 MoE 推理模型)、Qwen3-VL 系列視覺語言模型等前沿開源模型,并全面兼容 Tinker API。值得一提的是,MinT 還優(yōu)先支持了 π0 等具身 VLA 模型,這也體現(xiàn)出了中國公司在具身智能上的領先優(yōu)勢。

為什么需要 1T LoRA-RL?
強化學習被視為讓大模型從 “背題” 走向 “推理” 的關鍵,但現(xiàn)實里有三大難題:訓練不穩(wěn),小模型難以收斂,算力成本高。LoRA 提供了一條低成本路徑,只訓練少量低秩適配器即可顯著提升下游任務表現(xiàn),且在 RL/Agent 訓練上幾乎不損失性能。
Mind Lab 在 Kimi K2(萬億參數(shù) MoE)上實現(xiàn)了端到端 LoRA 強化學習,帶來三點突破:
成本:僅用常規(guī)全參 RL 約 10% 的 GPU 資源,64 塊 H800 即可完成訓練。
穩(wěn)定性:獎勵與任務成功率平穩(wěn)提升,無災難性發(fā)散;在 held-out 基準上既提升特定任務,又保持基座模型通用能力。
系統(tǒng):統(tǒng)一調(diào)度張量 / 流水線 / 專家 / 序列并行,針對 MoE 路由不均衡與通信壓力做了專項優(yōu)化。相關技術已貢獻至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。

為什么選擇 MinT?
MinT 的產(chǎn)品設計圍繞一個核心目標:把后訓練和強化學習的門檻打下來。
驗證成本上:MinT 允許開發(fā)者僅用 CPU 機器進行訓練驗證,告別配置 GPU 驅動和 OOM 的煩惱。這讓團隊可以在投入大規(guī)模 GPU 資源前,先低成本驗證算法可行性。
工程效率上:MinT 將采樣、訓練、回寫與發(fā)布無縫串聯(lián),減少了工程拼裝成本。并行策略、權重管理、optimizer state 管理、滾動訓練、日志與可復現(xiàn)性等,都按工程標準打通。
開發(fā)體驗上:MinT 完全兼容 Tinker API,現(xiàn)有代碼可快速適配,切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進的開源大模型。
迭代速度上:采用 LoRA-RL 技術讓模型迭代周期從 “按周” 縮短到 “按天”,真正服務于快節(jié)奏的產(chǎn)品開發(fā)需求。
誰是 MinT 最大的受益者?
第一批使用 MinT 的受益者,一定是 Agent 領域的創(chuàng)業(yè)公司和研究模型的高校頂尖實驗室。
它們共同的特點是:掌握核心的數(shù)據(jù)和問題的設定。他們并非不了解前沿算法,而往往是被算力與訓練框架難住了。
據(jù) Mind Lab 官網(wǎng)介紹,目前 MinT 已經(jīng)獲得了頂尖高校和多個創(chuàng)業(yè)公司的認可,應用場景涵蓋基礎研究到垂直行業(yè)的廣泛領域。
在學術機構方面:
清華大學人工智能學院黃高副教授團隊(CVPR best paper 以及 NeruIPS best paper runner up 獲得者)利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
上海交通大學副教授、上海創(chuàng)智學院全時導師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。
在行業(yè)應用方面:
硅谷創(chuàng)業(yè)公司 Eigen AI 合作探索運用 MinT 和 Data Agent 合成數(shù)據(jù)在 1T 模型上進行 agentic RL 訓練。
腦機接口公司姬械機利用 MinT 支持了他們的腦機接口 Agent BCI-Love,可以進行情感交互對話。
瑞銘醫(yī)療利用 MinT 對醫(yī)療編碼模型進行了基于 RL 的后訓練,顯著提升了醫(yī)療編碼的準確率,并落地到數(shù)十家三甲醫(yī)院。
這些案例展現(xiàn)了 MinT 的通用性 —— 從基礎研究到垂直行業(yè),都能用。
中國團隊引領后訓練浪潮
如何讓模型真正 “理解” 而非只是 “記住”,是眾多創(chuàng)業(yè)團隊與科研工作者共同面對的核心問題。強化學習被視為解決這一問題的關鍵路徑,但其高門檻、高成本與不穩(wěn)定性,長期限制了它在真實產(chǎn)品和中小團隊中的落地。
2025 年,中國團隊在開源模型上大放異彩。
2026 年,后訓練將是中國 AI 彎道超車的下一個關鍵戰(zhàn)場。
Mind Lab 選擇了 LoRA-RL 這一技術路徑,在超大規(guī)模模型上完成了萬億參數(shù)級別的探索與驗證,再次證明了中國團隊在前沿研究上的工程能力與原創(chuàng)實力。MinT 正是 Mind Lab 希望將這些研究成果系統(tǒng)化、工具化的產(chǎn)物 —— 讓后訓練和強化學習不再只屬于少數(shù)頭部機構,而是成為更多公司與實驗室可以日常使用的能力。
這正是 Mind Lab 真正布局的方向:讓先進研究轉化為可用工具,讓中國團隊在模型后訓練與強化學習這一關鍵技術浪潮中,實現(xiàn)自主可控。
可以訪問以下鏈接了解更多:
Mind Lab 官網(wǎng):https://macaron.im/mindlab
相關文檔:https://mint.macaron.im/doc
本文為專欄作者授權創(chuàng)業(yè)邦發(fā)表,版權歸原作者所有。文章系作者個人觀點,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn







