八戒八戒午夜视频_国产欧美一区二区三区不卡_乡村大坑的性事小说_女人脱裤子让男生桶爽在线观看

不斷有人在問,這個中國模型到底有什么魔力?

作者 | Yoky

郵箱 | yokyliu@pingwest.com

DeepSeek、李飛飛、LIMO,全球的AI界近期幾乎都被這幾個名詞環(huán)繞,而這一切的背后,都要從一個“大隱隱于市”的高手談起。

2月3日,李飛飛和斯坦福大學等團隊在arXiv上發(fā)表了一篇名為《s1: Simple test-time scaling》的論文,僅在16塊H100上微調(diào)26分鐘,以不到50美元的價格訓練出的新模型s1-32B,數(shù)學及編程能力與OpenAI o1及DeepSeek R1等尖端推理模型效果相當。

幾乎同一時間,來自上海交大的本科生Yixin Ye與團隊訓練出的LIMO新模型,用1%的數(shù)據(jù)量,訓練出MATH測試準確率高達94.8%的新模型。

一般認為,低成本訓練強勁性能模型的方法,基本上始于DeepSeek推出R1模型時順手做的蒸餾示范。這一系列工作涌現(xiàn),海外AI社區(qū)驚奇地發(fā)現(xiàn),他們采用的基座模型,居然都是Qwen——這位真正的幕后高手。

中國人更熟悉的名字是,通義千問,阿里云自研并開源的大模型Qwen系列。

加拿大滑鐵盧大學助理教授陳文虎更是直言,他們也在別的模型上作了嘗試,同樣的訓練數(shù)據(jù)卻完全不奏效,他總結(jié)稱:“Qwen模型里頭一定有一些magical的東西!”

那么,這些充滿魔力的東西到底是什么?

1從研究到實踐,他們?yōu)楹味歼x擇Qwen?

李飛飛團隊在這篇論文里提到,性能優(yōu)化的核心技術(shù)是s1K 數(shù)據(jù)集和預算強制法(budget forcing)。

s1K的數(shù)據(jù)集包含1000個精心挑選的問題,李飛飛團隊還使用谷歌的 Gemini Flash Thinking 模型生成每個問題的推理軌跡(reasoning traces)和答案。預算強制方法的特點,則是在模型終結(jié)思考時添加“wait”,鼓勵探索更多答案。

最后,李飛飛團隊對開源的 Qwen2.5-32B-Instruct 進行 s1K 的監(jiān)督微調(diào)并應用預算強制后,得到模型 s1-32B。也就是在 16 個 H100 GPU 上訓練26 分鐘、花費50美元的階段。

首先應該破除的迷思是,這絕不僅僅是只花50美元就能辦到的事情。李飛飛的新方法,并不是從零訓練一個模型,而是基于Qwen模型做的微調(diào)。公開數(shù)據(jù)顯示,Qwen2.5模型系列,僅預訓練就用了18萬億tokens,可以想見是怎樣一筆支出。

陳文虎在X上的留言,更是一語道破天機,絕非所有模型微調(diào)后都能有這樣的效果。

上海交大團隊的LIMO,幾乎是對同樣技術(shù)的探討,使用了更少的817 個精選訓練樣本,通過構(gòu)建更高質(zhì)量的推理鏈,結(jié)合推理時計算擴展和微調(diào),就在極具挑戰(zhàn)性的 AIME 基準測試中從6.5%的準確率提升到57.1% ,在MATH 基準測試中更是達到了 94.8% 的準確率。

這一數(shù)據(jù)規(guī)模,僅占經(jīng)典方法能達到模型水平所需數(shù)據(jù)量的1%左右。

在X上,即將成為MIT助理教授、現(xiàn)Databricks的研究科學家Omar Khattab評價LIMO稱,此類的論文更像是關于Qwen的研究成果而非推理。

前三星研究院科學家Rakshit Shukla也表示,這些新成果印證了基礎模型(也即Qwen)的性能之強。

事實上,國際開源社區(qū)對Qwen非常熟識,從Qwen2到Qwen2.5,不同代際的開源Qwen模型,屢屢登上HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲測榜單,多次斬獲“全球開源冠軍”,性能強勁毋庸置疑。

更重要的是,Qwen推出了不同尺寸的開源模型,小到0.5B,大到110B,可以更好滿足千行百業(yè)的需求,開發(fā)者用腳投票,紛紛來下載Qwen模型。這在HuggingFace平臺上,僅Qwen的一款小型模型就占據(jù)了去年所有模型下載量的26.6%。

HuggingFace官方供圖

全球火爆出圈的DeepSeek,同樣選擇了Qwen。

在發(fā)布R1時,DeepSeek官方透露,打樣蒸餾R1的能力給到6個模型,其中4個模型就是Qwen,分別選擇了1.5B、7B、14B和32B四個尺寸,其中基于Qwen-32B的蒸餾模型,在多項能力上實現(xiàn)了與OpenAI o1-mini 相當?shù)男Ч?/p>

全球越來越多的開發(fā)者和企業(yè)選擇了Qwen,也將他們研發(fā)出的Qwen衍生模型貢獻于開源社區(qū)。目前,開發(fā)者二創(chuàng)的Qwen衍生模型數(shù)量已經(jīng)突破了9萬,成為全球最大的AI模型族群。

或許,這是李飛飛、Yixin Ye乃至DeepSeek選擇Qwen的又一原因,畢竟從學術(shù)界到產(chǎn)業(yè)界都用的Qwen,是最容易被對比的性能標桿基座模型。

2不止是最佳開源模型,更強的Qwen2.5-Max來了

正當大家為性能出色的開源Qwen模型歡呼時,大年初一,阿里云在凌晨1點半又放出了新年第一彈:Qwen2.5-Max。

在與業(yè)界領先的所有模型對比中,Qwen2.5-Max 依然展現(xiàn)出極強的性能。

在測試大學水平知識的 MMLU-Pro、評估編程能力的 LiveCodeBench、全面評估綜合能力的 LiveBench,以及近似人類偏好的 Arena-Hard等主流測評中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

而就在這兩天,Qwen的新模型又再次以超強性能沖上主流大模型評測榜單全球前十:

2月4日, 業(yè)界最知名的三方評測榜單——Chatbot Arena 大模型盲測榜單放榜。Qwen2.5-Max以1332分,超過DeepSeek V3、o1-mini和Claude-3.5-Sonnet等國內(nèi)外強手,獲得全球第七名,并且獲得數(shù)學和編程的單項第一。

2月6日,在Meta楊立昆牽頭的LiveBench最新榜單中,Qwen2.5-Max也闖進全球前十,領先于DeepSeek-V3、Gemini-2.0-flash-lite等諸多好手。

Qwen團隊關于Qwen2.5-Max的技術(shù)博客里最后一段提到,“持續(xù)提升數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模能夠有效提升模型的智能水平。”

這等同于解答了這個超大規(guī)模MoE模型里的秘密:Scaling Law,基于MoE(混合專家)架構(gòu)開發(fā),持續(xù)擴大參數(shù)規(guī)模,不斷改進訓練方案。Scaling Law,既是觀念,也是實踐。

在預訓練數(shù)據(jù)規(guī)模上,Qwen2.5-Max模型基于高達20萬億tokens的數(shù)據(jù)進行預訓練,規(guī)模比訓練Qwen2.5的18萬億Tokens還要多。Qwen2.5-Max的預訓練數(shù)據(jù)覆蓋領域廣泛,且知識密度高,同時通過精心設計的數(shù)據(jù)過濾及配比,保證了數(shù)據(jù)的數(shù)量與質(zhì)量。此外,全面優(yōu)化的后訓練數(shù)據(jù)及強化學習方法讓 Qwen2.5-Max 產(chǎn)出的內(nèi)容也更符合廣大用戶的偏好。

而在訓練技術(shù)層面,Qwen團隊在今年1月提交的這篇名為《魔鬼在細節(jié)》(Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models)的論文中,著重解釋了MoE模型訓練改進的方法。

在DeepSeek訓練V3的技術(shù)報告中,就曾在小規(guī)模上討論了基于全局均衡來優(yōu)化專家選擇的效果。而Qwen更進一步,通過輕量的通信代價實現(xiàn)了全局均衡,在大規(guī)模上系統(tǒng)驗證了這種方法的有效性,使得MoE 模型的性能和專家特異性都得到了顯著的提升。

也正因這些關鍵改進,在模型裸性能也即基座模型的11項評測對比中,Qwen2.5-Max 與業(yè)界領先的 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B以及同系列的 Qwen2.5-72B 比拼中,全面領先。

3不是從DeepSeek到Qwen,而是從Qwen到開源世界

當不少人為Qwen2.5-Max性能超越DeepSeek-V3、再度為中國大模型歡呼時,實際上忽略了一個重要的事實:在DeepSeek爆火之前,海外大模型圈,早就熟知了Qwen這一名字。

在我們此前對硅谷的數(shù)次探訪中,每當談及中國大模型,不少CEO、開發(fā)者蹦出來的第一個名字,是Alibaba's Qwen。

過去兩年來,Qwen的確是開源最多、最深入的中國大模型代表。Qwen模型性能強勁,開源尺寸多樣化,并且擁有全球最大的衍生模型群,成為學術(shù)界到產(chǎn)業(yè)界都廣受歡迎的最重要的開源模型系列。

從2023年8月首個開源模型Qwen-7B的發(fā)布開始,Qwen就陸續(xù)開源了覆蓋不同參數(shù)規(guī)模、不同模態(tài)、不同應用場景的數(shù)十款模型。這些模型不僅包括通用大語言模型,還涵蓋了多模態(tài)、對話、代碼生成等專業(yè)領域的特化版本。

在GitHub社區(qū),Qwen收獲了來自全球開發(fā)者的好評。特別是2024年9月發(fā)布的Qwen2.5系列模型,在代碼生成和調(diào)試任務中表現(xiàn)卓越。有開發(fā)者成功通過本地部署Qwen2.5-32B模型并配合VS Code擴展工具,完全替代了此前依賴的ChatGPT和Claude 3.5 Sonnet的編程輔助功能。

圖源X截圖

僅僅在過去的3個月,Qwen就陸續(xù)開源了推理模型QwQ、多模態(tài)推理模型QVQ、數(shù)學推理過程獎勵模型Qwen2.5-Math-PRM、支持100萬Tokens的長文本模型Qwen2.5-1M以及最新一代視覺理解模型Qwen2.5-VL。

以視覺理解模型為例,阿里云曾開源Qwen-VL及Qwen2-VL兩代模型,全球總下載量突破3200萬次,是開源社區(qū)里最受歡迎、性能最強的視覺理解模型,開發(fā)者用它來理解難以辨認的手寫稿,解答書本上艱深的數(shù)學物理題,甚至嘗試去探索月球和銀河的秘密。

也正因此,Qwen2.5-VL一開源發(fā)布,就引發(fā)了大波的海外Qwen粉絲們的狂歡,開源社區(qū)大佬VB一句話總結(jié):它持續(xù)變得越來越好了。

一個業(yè)界的共識是,Qwen最早扛起了中國AI大模型開源的大旗,也帶起了一波開源的浪潮,孕育起一個AI生態(tài)。阿里云牽頭建設的魔搭社區(qū),已經(jīng)上架了4萬多個AI模型,服務超過1000萬名開發(fā)者。

李飛飛這樣的學術(shù)大咖選擇Qwen,Yixin Ye這樣的年輕本科生基于Qwen探索新技術(shù),甚至DeepSeek這樣現(xiàn)象級的創(chuàng)業(yè)公司也用Qwen模型做蒸餾。更多來自阿拉伯語、法語、日語、西班牙語地區(qū)的開發(fā)者,因為Qwen的強勁語言能力而第一次擁有了性能超群的本國語言大模型。

Qwen讓AI技術(shù)從杭州走向了世界。

4「神秘東方力量」的公開秘密

人往往高估一年的變化,但會低估五年的變化。

不到一年前,還有大佬認為閉源才是AI大模型發(fā)展的主流,現(xiàn)在,全世界的開發(fā)者都在為開源的中國AI技術(shù)挑戰(zhàn)傳統(tǒng)霸權(quán)而歡呼。

今天,當我們談中國大模型集體崛起,我們會談論DeepSeek,談它背后充足的量化資本以及追求AGI的純粹初心;我們也會談通義千問Qwen,談孕育它的阿里云和更龐大的阿里巴巴生態(tài)。

巧的是,這兩個揚名海外的中國大模型,都來自杭州,因此也有人稱之為開源世界里的杭州「內(nèi)戰(zhàn)」,甚至一度傳出阿里要入股DeepSeek的謠言。一個不爭的事實是,在DeepSeek最需要算力支持的時候,阿里云官宣支持部署DeepSeek-V3和R1模型。

AI不是零和博弈,最后勝利也不會只屬于某一家公司。在這樣一個激動人心的大時代,齊頭并進或許是個最優(yōu)解。

當然,時間會考驗所有人,而一切才剛剛開始。


相關內(nèi)容