“DeepSeek在基座大模型上做出的突破,是天才級(jí)別的?!?/p>
最近,國(guó)產(chǎn)大模型公司深度求索(DeepSeek)引發(fā)的輿論震動(dòng),讓今年春節(jié)成為“最有AI味的年”。談到DeepSeek旗下標(biāo)志性大模型DeepSeek-R1,多位業(yè)內(nèi)人士向澎湃新聞?dòng)浾弑磉_(dá)了高度贊賞。
視覺(jué)中國(guó) 圖
1月28日,大洋彼岸的人工智能巨頭Open AI CEO山姆·奧特曼(Sam Altman)發(fā)文回應(yīng)DeepSeek帶來(lái)的挑戰(zhàn):“DeepSeek推出的R1令人影響深刻,我們當(dāng)然會(huì)推出更好的模型,有新的競(jìng)爭(zhēng)對(duì)手也令人振奮?!?/p>
國(guó)內(nèi)某Top2 AI初創(chuàng)企業(yè)也對(duì)記者坦言,他們感受到了同行帶來(lái)的壓力:“后續(xù)我們會(huì)加快產(chǎn)品研發(fā)的角度?!?/p>
與之對(duì)比的是在產(chǎn)品上的快速迭代:除夕當(dāng)天,DeepSeek悄無(wú)聲息地發(fā)布開(kāi)源多模態(tài)模型Janus-Pro。此前1月27日早間,DeepSeek應(yīng)用曾登頂蘋(píng)果中國(guó)地區(qū)和美國(guó)地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜,在美區(qū)下載榜上超越ChatGPT。
“多模態(tài)考驗(yàn)的是對(duì)人類世界和環(huán)境的認(rèn)知,相信DeepSeek在此刻發(fā)布多模態(tài)大模型,一定有自己的信心和底氣?!?月28日,360創(chuàng)始人周鴻祎告訴澎湃新聞?dòng)浾撸爸袊?guó)大模型技術(shù)復(fù)仇者聯(lián)盟戰(zhàn)隊(duì)里一定有DeepSeek的一份,因?yàn)檫@家公司和它的創(chuàng)始人非常低調(diào),他們技術(shù)能力和未來(lái)前景被市場(chǎng)嚴(yán)重低估了?!?/p>
“現(xiàn)在硅谷都把DeepSeek叫做來(lái)自東方的神秘力量,中國(guó)AI公司的創(chuàng)造力已經(jīng)剎不住車了?!敝茗櫟t表示。
AI軍備競(jìng)賽已進(jìn)入深水期,曾有觀點(diǎn)認(rèn)為,在字節(jié)、阿里、騰訊等大廠包圍下,AI創(chuàng)業(yè)公司將面臨洗牌,難逃被并購(gòu)的命運(yùn),而殺出重圍的卻是似乎“名不見(jiàn)經(jīng)傳”的DeepSeek。DeepSeek走紅的秘密是什么,為國(guó)內(nèi)大模型行業(yè)帶來(lái)哪些啟示?
DeepSeek優(yōu)秀在哪?
“DeepSeek公司高層明確對(duì)商業(yè)化不感興趣,只想做技術(shù)研究,這樣的高度一般人達(dá)不到?!?/p>
有了解DeepSeek人士向記者透露,自己曾經(jīng)面試過(guò)一些AI領(lǐng)域的人才,最后拒絕了自己的公司,去了DeepSeek,理由是他們科研氛圍好,是一個(gè)真正做事的團(tuán)隊(duì)。
“從薪資來(lái)看,其實(shí)他們只是業(yè)內(nèi)中流水平,高,但并不是最高的。”他向記者坦言,“如果說(shuō)人才密度,可能還比不上頭部大廠。并不是大廠的人不聰明,而是大廠的聰明人花了太多精力在技術(shù)之外。大廠雖然薪資高,但是內(nèi)部斗爭(zhēng)也多,想要真正專心做事,反而不如這樣的技術(shù)公司純粹?!?/p>
盡管在外界眼中,DeepSeek仿佛是一夜爆紅,但此前早有多項(xiàng)成就引發(fā)行業(yè)關(guān)注。2024年,在大模型行業(yè)率先發(fā)起價(jià)格戰(zhàn)的正是DeepSeek,但并未引起外界關(guān)注,此后智譜、字節(jié)跳動(dòng)等跟進(jìn),才引發(fā)整個(gè)行業(yè)的降價(jià)潮流。
視覺(jué)中國(guó) 圖
當(dāng)時(shí)的DeepSeek,還未真正讓他人看到它的實(shí)力。2024年,智譜AI COO張帆在接受采訪時(shí)曾開(kāi)玩笑說(shuō):“我們是主流廠商中第一個(gè)降價(jià)的?!碑?dāng)時(shí)有人提醒,首個(gè)降價(jià)的廠商其實(shí)是DeepSeek,張帆表示:“我說(shuō)的是主流廠商”。
DeepSeek最引人矚目的,是其顯著降低了大模型開(kāi)發(fā)成本。1月20日,DeepSeek正式發(fā)布推理模型R1,其API(編程接口)服務(wù)定價(jià)為每百萬(wàn)輸入tokens(詞元)僅需1元(緩存命中)/4 元(緩存未命中),每百萬(wàn)輸出tokens為16元。DeepSeek的定價(jià)約等于Meta旗下Llama 3-70B的七分之一,GPT-4 Turbo的七十分之一。
因此,DeepSeek也被戲稱為AI界的“拼多多”,實(shí)現(xiàn)高效低價(jià)背后的原因是什么?國(guó)內(nèi)某知名AI公司董事長(zhǎng)向記者解釋稱,這主要得益于DS-V3的多項(xiàng)技術(shù)創(chuàng)新。首先,DeepSeek采用MoE架構(gòu)(Mixture of Experts,混合專家模型),通過(guò)將大模型變成多個(gè)稀疏的專家小模型,并通過(guò)多個(gè)模型聚合來(lái)達(dá)到和傳統(tǒng)大模型相當(dāng)?shù)哪芰?,有效降低了?jì)算成本。
其次,DS-V3在訓(xùn)練方法上進(jìn)行了重要?jiǎng)?chuàng)新。采用FP8混合精度訓(xùn)練,效率是常規(guī)BF16精度的約1.6倍;同時(shí)優(yōu)化了并行流水線,提升了訓(xùn)練和推理效率。這些優(yōu)化加上訓(xùn)練的一次成功,使得V3的訓(xùn)練成本降至約550萬(wàn)美元。
而在最新發(fā)布的DS-R1中,DeepSeek采用了創(chuàng)新性的GRPO(組相關(guān)策略優(yōu)化)強(qiáng)化學(xué)習(xí)方法,無(wú)需龐大的人類標(biāo)注數(shù)據(jù)庫(kù)。通過(guò)讓模型自主生成并驗(yàn)證結(jié)果的方式,R1展現(xiàn)出了強(qiáng)大的推理能力。隨著訓(xùn)練步數(shù)增加,其思維鏈(Chain-of-Thought,CoT)的長(zhǎng)度不斷增長(zhǎng),模型甚至開(kāi)始在推理過(guò)程中進(jìn)行自我反思。
“DeepSeek R1的成功意味著,如果基礎(chǔ)模型能力夠強(qiáng),在強(qiáng)化學(xué)習(xí)過(guò)程中它就能自己學(xué)會(huì)推理。這也是為什么國(guó)外AI圈的人看到DS-R1后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗(yàn)镽1證明了能力足夠強(qiáng)的模型是可以不依靠人類自己進(jìn)化的,盡管現(xiàn)階段的reward還是需要標(biāo)簽。”上述人士表示。
《麻省理工科技評(píng)論》分析稱,DeepSeek R1 采用類似ChatGPT o1使用的“思維鏈”方法,它可以通過(guò)逐步處理查詢來(lái)解決問(wèn)題。這可能是美國(guó)對(duì)華高端AI芯片出口管制帶來(lái)的意外結(jié)果,迫使中國(guó)的初創(chuàng)企業(yè)“優(yōu)先考慮效率”。
有意思的是,如果問(wèn)DeepSeek自己R1模型相比OpenAI有哪些特點(diǎn),DeepSeek的回答是,創(chuàng)新點(diǎn)可能在“注意力機(jī)制”和“參數(shù)效率”,R1在處理長(zhǎng)文本時(shí)更聚焦關(guān)鍵部分(比如法律合同中的條款),減少計(jì)算量,類似“讀書(shū)時(shí)用熒光筆劃重點(diǎn),只反復(fù)看關(guān)鍵段落”。在參數(shù)效率方面,用類似MoE(混合專家系統(tǒng))的結(jié)構(gòu),把模型分成多個(gè)“子專家”,不同任務(wù)激活不同部分,既節(jié)省算力又提升效果(類似“看病時(shí)分科室掛號(hào),心臟問(wèn)題找心內(nèi)科專家,不用讓全科醫(yī)生從頭學(xué)到尾”)
DeepSeek自我評(píng)價(jià)道,“DeepSeek像一家精品店,在特定領(lǐng)域更專精;OpenAI像大型超市,啥都有但價(jià)格高?!?/p>
為什么是DeepSeek?
談到DeepSeek,離不開(kāi)創(chuàng)始人梁文鋒。這位在外人眼中樸素、低調(diào)的“85后”企業(yè)家,最近也站在了媒體的聚光燈下。
根據(jù)公開(kāi)報(bào)道,梁文鋒從小就表露在數(shù)學(xué)領(lǐng)域的天賦和興趣,曾是高考狀元,在浙大求學(xué)期間就與同學(xué)一起積累市場(chǎng)行情數(shù)據(jù)和探索全自動(dòng)量化交易。
2008年金融危機(jī)期間,他帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2015年創(chuàng)立對(duì)沖基金“幻方量化”,2021年資產(chǎn)管理規(guī)模突破千億大關(guān)。2023年創(chuàng)辦深度求索DeepSeek,專注于通用人工智能(AGI)的突破。
“一件激動(dòng)人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來(lái)買得起,二來(lái)是因?yàn)橛幸蝗杭庇谠谏厦鎻椬鄻?lè)曲的人?!痹诠_(kāi)采訪中,梁文鋒本人曾經(jīng)如此談?wù)撍闹械腁GI(通用人工智能)。
在另一段采訪中,他提到,中國(guó)AI不可能永遠(yuǎn)處在跟隨的位置,“我們經(jīng)常說(shuō)中國(guó) AI 和美國(guó)有一兩年差距,但真實(shí)的Gap(差距)是原創(chuàng)和模仿之差。如果這個(gè)不改變,中國(guó)永遠(yuǎn)只能是追隨者,所以有些探索也是逃不掉的?!?/p>
他認(rèn)為,英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果,“中國(guó)AI的發(fā)展,同樣需要這樣的生態(tài)。很多國(guó)產(chǎn)芯片發(fā)展不起來(lái),也是因?yàn)槿狈ε涮椎募夹g(shù)社區(qū),只有第二手消息,所以中國(guó)必然需要有人站到技術(shù)的前沿?!?/p>
梁文鋒不打無(wú)準(zhǔn)備之仗。幻方量化官網(wǎng)顯示,其在2018年就確立以AI為公司的主要發(fā)展方向。
2020年開(kāi)始,幻方累計(jì)投資超億元、占地面積相當(dāng)于一個(gè)籃球場(chǎng)的AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”正式投入運(yùn)作,2021年,幻方投入十億建設(shè)“螢火二號(hào)”,以“任務(wù)級(jí)分時(shí)共享”為核心理念,調(diào)度系統(tǒng)秒級(jí)響應(yīng),平臺(tái)配備強(qiáng)大的軟件層支持:高性能算子庫(kù)(hfai.nn)、分布式訓(xùn)練通訊框架(hfreduce)、專為AI開(kāi)發(fā)而生的大容量高帶寬文件系統(tǒng)(3FS),讓AI模型能自如拓展到多節(jié)點(diǎn)之上,進(jìn)行大規(guī)模并行訓(xùn)練,算力擴(kuò)容翻倍,集群連續(xù)滿載運(yùn)行,平均占用率達(dá)到96%以上。
梁文鋒曾在采訪中表示,最早的一張卡到1萬(wàn)張卡,這個(gè)過(guò)程是逐步發(fā)生的,而這里面主要是好奇心驅(qū)動(dòng),“對(duì)AI能力邊界的好奇”。
“DeepSeek最令美國(guó)科技圈震驚的是,在開(kāi)源大模型上做到了突破性的領(lǐng)先。”昆侖萬(wàn)維CEO方漢向澎湃新聞?dòng)浾咴u(píng)論稱,“以往美國(guó)在基座大模型上處于絕對(duì)優(yōu)勢(shì),例如ChatGPT,后續(xù)的大模型都是基于ChatGPT進(jìn)行改進(jìn)和優(yōu)化。此前,在開(kāi)源大模型領(lǐng)域最領(lǐng)先的是Meta的Llama系列,但如今DeepSeek徹底超越了Llama,這意味著,后續(xù)的行業(yè)大模型可能將基于DeepSeek進(jìn)行深度開(kāi)發(fā)?!?/p>
“中國(guó)可能取代美國(guó)在基座大模型的統(tǒng)治地位,這是美國(guó)十分擔(dān)憂的。”方漢坦言。
美國(guó)AI初創(chuàng)公司Perplexity首席執(zhí)行官在接受采訪時(shí)認(rèn)為,DeepSeek的模型堪稱“瘋狂”。“這些中國(guó)團(tuán)隊(duì)推出了一個(gè)瘋狂的模型,API價(jià)格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度極快,并且在某些基準(zhǔn)測(cè)試中與GPT-4相當(dāng),甚至更好。他們總共只花了500萬(wàn)美元的計(jì)算機(jī)預(yù)算,就做出了如此驚人的模型,并且免費(fèi)公開(kāi)了技術(shù)論文?!?/p>
據(jù)美國(guó)全國(guó)廣播公司(NBC)報(bào)道,美國(guó)總統(tǒng)特朗普當(dāng)?shù)貢r(shí)間1月27日在佛羅里達(dá)州邁阿密舉行的共和黨會(huì)議上表示,中國(guó)人工智能初創(chuàng)公司DeepSeek的AI技術(shù)給美國(guó)科技企業(yè)敲響“警鐘”,美國(guó)公司“需要專注于競(jìng)爭(zhēng)以贏得勝利”。
“DeepSeek效應(yīng)”如何發(fā)酵
DeepSeek的成功,暴擊AI硬件龍頭英偉達(dá)。
當(dāng)?shù)貢r(shí)間1月27日,英偉達(dá)(Nasdaq:NVDA)股價(jià)暴跌16.86%收于每股118.58美元,跌至過(guò)去10月以來(lái)的最低點(diǎn);總市值2.90萬(wàn)億美元,一日蒸發(fā)5900億美元(約合人民幣4.28萬(wàn)億元),創(chuàng)史上最大單日個(gè)股市值蒸發(fā)紀(jì)錄。
英偉達(dá)的暴跌也使得創(chuàng)始人黃仁勛的身家大幅縮水210億美元。
視覺(jué)中國(guó) 圖
DeepSeek在國(guó)際范圍內(nèi)的成功,也為中國(guó)AI初創(chuàng)企業(yè)帶來(lái)“DeepSeek效應(yīng)”。
“我對(duì)AGI的判斷,是一場(chǎng)馬拉松。目前技術(shù)仍然還沒(méi)有收斂,算力是一個(gè)重要的影響因素。”國(guó)內(nèi)AI頭部初創(chuàng)企業(yè)、面壁智能CEO李大海告訴記者。
他介紹,就像DeepSeek一樣,面壁也在旗下開(kāi)發(fā)的MiniCPM-S系列引入自研稀疏化方案,通過(guò)將激活函數(shù)替換為ReLU及通過(guò)帶漸進(jìn)約束的稀疏感知訓(xùn)練來(lái)提升大模型的稀疏性,能將Llama、MiniCPM 稀疏度提升至接近 90%,并且也能夠在保持模型原有水平的基礎(chǔ)上,有效降低模型推理的開(kāi)銷。
“DeepSeek的成功,說(shuō)明中國(guó)人工智能企業(yè)已進(jìn)入世界第一梯隊(duì)。盡管我們要承認(rèn)中美在人工智能上確實(shí)有原創(chuàng)性的差距,但是R1的發(fā)布將會(huì)很大程度影響這個(gè)行業(yè)的發(fā)展,2025年中國(guó)在AI領(lǐng)域的創(chuàng)新相當(dāng)值得期待?!辟Y深A(yù)I從業(yè)者、獵豹移動(dòng)董事長(zhǎng)兼CEO傅盛表示。
而方漢認(rèn)為,要談中國(guó)在AI上的能力完全趕超美國(guó),還為時(shí)尚早,但是DeepSeek的表現(xiàn),說(shuō)明中國(guó)AI在發(fā)展空間上確實(shí)為人矚目。中國(guó)擁有最龐大的AI工程師隊(duì)伍和最多的AI論文數(shù)量,“在AI領(lǐng)域,中國(guó)和美國(guó)的優(yōu)勢(shì)相比其他國(guó)家是巨大的?!?/p>
“如果要雙方真正平起平坐地競(jìng)爭(zhēng),還是需要解決算力卡脖子問(wèn)題。”方漢坦言,“但是我預(yù)計(jì)將在2-3年內(nèi)徹底解決這個(gè)問(wèn)題。相信在不久之后,能看到兩個(gè)國(guó)家真正實(shí)現(xiàn)你追我趕、公平競(jìng)爭(zhēng)。”