不要神化DeepSeek,但必須擁抱AI浪潮。
上一次AI行業(yè)引起全民震動(dòng)還是2022年11月ChatGPT的橫空出世,此后AI行業(yè)每逢重大變革,都被稱為是“ChatGPT時(shí)刻”。
這個(gè)詞在2024年年底被改寫,“DeepSeek時(shí)刻”出現(xiàn),被看作是AI歷史上的新轉(zhuǎn)折點(diǎn)。
2025年春節(jié)前期,中國杭州的一家AI企業(yè)DeepSeek(深度求索)接連發(fā)布了V3(2024年12月26日)和R1(2025年1月20日)兩大開源模型。
其中,DeepSeek宣稱V3在性能上接近閉源模型OpenAI的GPT-4o與Anthropic的Claude-3.5-Sonnet,優(yōu)于開源模型Meta的Llama 3,且總訓(xùn)練成本僅為557.6萬美元。推理模型R1的效果則逼近OpenAI o1,同時(shí)API(應(yīng)用程序編程接口)價(jià)格僅為OpenAI o1的3.7%。
這是一家成立于2023年7月17日的初創(chuàng)公司,手上卻握著萬張英偉達(dá)芯片,以海外AI巨頭們7%左右的成本訓(xùn)練出了性能不錯(cuò)的大模型。這家公司早在2024年5月發(fā)布V2模型后,正式打響中國大模型價(jià)格戰(zhàn),被字節(jié)、阿里、百度等大公司盯上,年底又成功將價(jià)格戰(zhàn)燒到海外。
DeepSeek的出現(xiàn),一度讓全球算力概念股暴跌,疊加美股科技股普跌的影響,英偉達(dá)股價(jià)下跌近17%,市值蒸發(fā)近6000億美元,規(guī)模創(chuàng)美股史上最大。OpenAI和谷歌也在近期緊急上線最新模型,AI行業(yè)堪稱烈火烹油。
DeepSeek爆火之后,硅谷巨頭們開始掀桌,OpenAI表示已經(jīng)發(fā)現(xiàn)證據(jù),證明DeepSeek“蒸餾”O(jiān)penAI模型的跡象,Anthropic創(chuàng)始人和CEO Dario Amodei發(fā)文否認(rèn)R1取得的突破,并呼吁加強(qiáng)對中國的算力出口管制。
拋開這場盛宴背后的情緒,本文試圖理清,DeepSeek到底有沒有被“高估”,以及DeepSeek將會(huì)對國內(nèi)外AI產(chǎn)業(yè)帶來哪些漣漪效應(yīng)。
欲戴其冠,必承其重
DeepSeek-R1上線20多天,接受了多少掌聲,就承受了多少壓力。
AI行業(yè)從業(yè)者林志向「定焦One」總結(jié)了DeepSeek口碑的來源:1、完全免費(fèi)使用。2、在和用戶聊天時(shí)會(huì)展示思維過程,這樣也能反向優(yōu)化用戶的提問形式,提升對話體驗(yàn),而o1就沒有公布思考過程,原因可能是怕競爭對手將過程拷貝后訓(xùn)練自己的模型。3、將技術(shù)論文和模型進(jìn)行毫無保留的開源,部分開源大模型還是會(huì)將最好的版本留給自己。
但前幾天因?yàn)闊岫惹皝淼挠脩舭l(fā)現(xiàn),DeepSeek頻繁出現(xiàn)宕機(jī),幾乎無法正常使用,原因是公司服務(wù)器受到了大規(guī)模DDoS惡意攻擊,截至發(fā)稿,DeepSeek已恢復(fù)正常使用。
DeepSeek表示服務(wù)運(yùn)行穩(wěn)定
當(dāng)然,上述特征只是讓DeepSeek有了用戶自發(fā)傳播的基礎(chǔ),DeepSeek之所以火爆,一定程度上是因?yàn)樗尯M釧I巨頭“破防”,出現(xiàn)了“掀桌子”的行為。
面對不少人士“DeepSeek是否有創(chuàng)新”的質(zhì)疑,DeepSeek在其披露的V3和R1的技術(shù)論文中已經(jīng)有過回應(yīng):1、V3模型采用多項(xiàng)自研技術(shù)進(jìn)行架構(gòu)創(chuàng)新,包括DeepSeekMoE+DeepSeekMLA架構(gòu)、MTP多Token預(yù)測技術(shù),使低成本訓(xùn)練成為可能;2、R1模型放棄了傳統(tǒng)RLHF(人類反饋強(qiáng)化學(xué)習(xí))中的HF部分,通過純強(qiáng)化學(xué)習(xí)(RL)直接訓(xùn)練,驗(yàn)證了RL的優(yōu)先級和有效性,進(jìn)一步優(yōu)化了訓(xùn)練效率。
這也意味著,DeepSeek證明了自己的確可以做到“以不到600萬美元的訓(xùn)練成本(可以理解為凈算力成本),完成一個(gè)性能接近巨頭的模型”。
不過,半導(dǎo)體市場分析和預(yù)測公司SemiAnalysis指出,557.6萬美元這個(gè)數(shù)字主要指的是模型預(yù)訓(xùn)練的GPU成本,考慮到服務(wù)器資本支出、運(yùn)營成本等因素,DeepSeek的總成本在4年內(nèi)可能達(dá)到25.73億美元。
不可忽略的是,創(chuàng)新成本下降的趨勢早已開始,DeepSeek只是加速了這一進(jìn)程。方舟投資管理公司的創(chuàng)始人兼CEO“木頭姐”指出,在DeepSeek之前,人工智能訓(xùn)練成本每年下降75%,推理成本甚至下降85%到90%。
英諾天使基金合伙人王晟也有相同看法,比如年初發(fā)布的模型,到年底再發(fā)布同樣的模型,成本都會(huì)有大幅度下降,甚至有可能降至1/10。而且OpenAI作為閉源模型,對外披露的算力成本也有虛高的可能性,因?yàn)橐舨糠掷麧櫩臻g,也要不斷對資本市場強(qiáng)化成本很貴的故事,以此得到更高的投資。
不過,DeepSeek的可貴性并不僅僅在于“便宜”,更在于它是一個(gè)“屠龍少年”的故事。
在ChatGPT橫空出世之前,在中國面臨算力管制之前,DeepSeek就已經(jīng)擁有了超萬張的GPU儲備。這關(guān)聯(lián)到DeepSeek的創(chuàng)始人梁文峰從2008年開始探索的量化交易,因?yàn)橐獙⑸疃葘W(xué)習(xí)模型應(yīng)用于實(shí)盤交易,必須儲備大量算力,2019年至2021年間,梁文峰的另一家公司幻方相繼自主研發(fā)了“螢火一號”與“螢火二號”AI集群,囤積大量芯片和技術(shù)人才。
幻方為梁文峰提供了很多東西,足夠的卡、對AI的sense以及模型層面的工程化能力,梁文峰也為DeepSeek提供了很多東西,不以盈利為導(dǎo)向,對AGI純粹的好奇心和探索欲,以及足夠開放的心態(tài)。有參與者表示,幻方曾用很低的價(jià)格將卡提供給算法研究機(jī)構(gòu)使用。
這樣的故事具有不可復(fù)制性和美感,這也使得DeepSeek聚集了全民性的熱度。
DeepSeek讓誰慌了?
DeepSeek火了之后,一石激起千層浪,中美AI產(chǎn)業(yè)鏈上下游的企業(yè)都受到了沖擊。
首當(dāng)其沖的要數(shù)chatbot類(聊天機(jī)器人)AI應(yīng)用,根據(jù)AI產(chǎn)品榜的數(shù)據(jù),DeepSeek在2025年除夕前后,日活超過2000萬,超越國內(nèi)的豆包和Kimi登頂中國第一。同時(shí),DeepSeek僅用一周就用戶破億,而ChatGPT用時(shí)2個(gè)月。
實(shí)際上,在DeepSeek發(fā)布R1的幾乎同一天,月之暗面推出了自己的Kimi k1.5思考模型,并在Kimi免費(fèi)開放使用,豆包APP也更新實(shí)時(shí)語音通話功能,面向所有用戶開放,但是兩者聲量均被蓋過,日活也受到影響。
林志認(rèn)為,這件事充分展示了用戶對chatbot這種模式的忠誠度是很低的,一旦出現(xiàn)了更強(qiáng)大更便宜更快的模型,大家就會(huì)遷移過去。
不過,從產(chǎn)品形態(tài)來看,豆包已經(jīng)在產(chǎn)品中接入多模態(tài)大模型,而DeepSeek目前還只有對話,且體驗(yàn)不穩(wěn)定。雖然DeepSeek在除夕當(dāng)天(1月28日)發(fā)布了開源文字生成圖像(文生圖)大模型Janus-Pro 7B,但是暫時(shí)還沒有接入DeepSeek網(wǎng)頁和APP中使用。
上為豆包,下為DeepSeek
在真正的殺手級應(yīng)用出現(xiàn)之前,比拼的還是背后的大模型能力。在這個(gè)層面上來看,目前受到DeepSeek直接影響的第二批公司是自研大模型公司。
從投資人的視角出發(fā),王晟指出,從2024年5月DeepSeek發(fā)布V2模型打響中國大模型價(jià)格戰(zhàn)時(shí),圈內(nèi)基本達(dá)成一個(gè)共識——國內(nèi)巨頭中,最好用的大模型是阿里的Qwen,豆包在2023年還不夠好用但在2024年下半年提升很快;創(chuàng)業(yè)公司里DeepSeek和月之暗面(Kimi)增長最快,其余五小龍(零一萬物、MiniMax、百川智能、智譜AI、階躍星辰),有的轉(zhuǎn)型、有的放棄、有的背靠國資,但增長逐漸慢下去了,六小龍的格局也基本瓦解。
某種程度上,這些閉源大模型公司也要面臨和國外巨頭一樣的拷問:訓(xùn)練成本能不能降下來?有沒有更高效的訓(xùn)練方式?API價(jià)格戰(zhàn)還打不打?
至于DeepSeek是否會(huì)改變芯片市場的格局,多位行業(yè)人士則表示,算力之爭不會(huì)消失,但是現(xiàn)在到了一個(gè)重估的階段。之前英偉達(dá)的熱度過高,現(xiàn)在股價(jià)只是回歸到了合理區(qū)間,但是最終英偉達(dá)的價(jià)值還是會(huì)上去。也就是說,英偉達(dá)并非DeepSeek的受害者。反而是隨著模型應(yīng)用場景的擴(kuò)展,模型越“平權(quán)”,對算力的需求越大。
DeepSeek把大家從一腔熱血只追求AGI的上限,拉回到轉(zhuǎn)向關(guān)注產(chǎn)業(yè)落地的現(xiàn)實(shí)里,它用很低的成本給到相對高的能力,能促進(jìn)產(chǎn)業(yè)鏈上的創(chuàng)新,將利好AI原生應(yīng)用和AI硬件的發(fā)展?!?025年將是AI商業(yè)化落地元年”,林志稱。
同時(shí),DeepSeek驗(yàn)證了國內(nèi)AI產(chǎn)業(yè)從芯片到模型是可以部分實(shí)現(xiàn)國產(chǎn)替代的,提振了產(chǎn)業(yè)信心。春節(jié)期間,國內(nèi)云服務(wù)廠商和GPU廠商紛紛部署DeepSeek。
不過,隨著一步步被推向“神壇”,DeepSeek的最大沖擊或許將來自于自身的選擇。
有信源稱,阿里正計(jì)劃以100億美元的估值,投資10億美元認(rèn)購DeepSeek10%的股權(quán)。這一估值已經(jīng)超過月之暗面(33億美元)和智譜AI(20億美元)。這一消息被阿里方面否定,也有人指出背靠幻方的DeepSeek一直沒有尋求過融資,但市場仍擔(dān)心還有其他戰(zhàn)略方正在接觸DeepSeek。
這或許是市場最不想看到的結(jié)局,在這個(gè)春節(jié)接到“潑天富貴”的DeepSeek,原本是一家自由的公司,梁文鋒也曾對媒體提到,與大廠模型的最大區(qū)別是,“大廠會(huì)和平臺或生態(tài)捆綁,而我們是完全自由的”。有人擔(dān)心如果DeepSeek此次拿了任何戰(zhàn)略投資方的錢,AI六小龍的故事或許將在它身上重現(xiàn)。
DeepSeek的新范式,
還有成長空間
放到更大視角來看,DeepSeek的崛起之所以被海外巨頭如此重視,背后是兩種路徑的對比。
王晟解釋,AI產(chǎn)業(yè)在跑通AGI方向上往往有兩種不同的路徑選擇:一個(gè)是“算力軍備”范式,堆技術(shù)堆錢堆算力,先把大模型性能拉至一個(gè)高點(diǎn),不斷推高AGI的能力上限,再考慮產(chǎn)業(yè)落地;另外一個(gè)是“算法效率”范式,一開始就以產(chǎn)業(yè)落地為目標(biāo),通過架構(gòu)創(chuàng)新和工程化能力,推出低成本高性能模型。
可以看到,以往大模型公司之間的競爭,基本都是押注“算力軍備”范式。在這種范式下,OpenAI、Anthropic、谷歌,包括國內(nèi)AI六小龍等企業(yè),都是重資本投入型企業(yè)。
因?yàn)樾枰薮蟮馁Y金量,這意味著資本市場只能支持少數(shù)幾家企業(yè),AI巨頭的市場集中度遠(yuǎn)高于其他行業(yè)。
DeepSeek-R1發(fā)布之際,美國總統(tǒng)特朗普宣布了一個(gè)總額達(dá)5000億美元的AI基礎(chǔ)設(shè)施項(xiàng)目“星際之門”,OpenAI、軟銀和甲骨文等都已承諾參與其中。稍早前,微軟表示2025年將在AI基礎(chǔ)設(shè)施上投入800億美元,扎克伯格則計(jì)劃在2025年為其AI戰(zhàn)略投資600多億美元。
一個(gè)無法忽略的市場環(huán)境是,過去大家都在追求AGI能力的不斷增長,只要模型性能增長的夠快,競爭對手在后面無論怎么進(jìn)行數(shù)據(jù)工程優(yōu)化都追不上頭部企業(yè)。但是到2024年11月左右,“高質(zhì)量文本訓(xùn)練數(shù)據(jù)即將被消耗殆盡”的論調(diào)敲響了行業(yè)警鐘,如果數(shù)據(jù)供應(yīng)停滯,模型訓(xùn)練也可能停滯,大家意識到之前比較粗放的訓(xùn)練模式確實(shí)可能存在瓶頸,即使往上堆算力,延長訓(xùn)練時(shí)間和增大數(shù)據(jù)量級,能力增長也幾乎到頭了。
圖源 / Unsplash
在這個(gè)時(shí)間點(diǎn),其實(shí)也有企業(yè)認(rèn)為“算法效率”范式是當(dāng)下可行的范式,只是DeepSeek先做出來了。“它的一系列模型也證明了,在天花板漲不動(dòng)的情況下,把重點(diǎn)放在優(yōu)化效率而非能力增長上的范式也具有可行性?!蓖蹶煞Q。
這樣的背景下,DeepSeek以一個(gè)“攪局者”的身份出現(xiàn),美國AI巨頭“花錢砸模型很值”的資本故事逐漸不成立了。
DeepSeek以開源模型入場,被視為是靠生態(tài)的力量去挑戰(zhàn)領(lǐng)先者,而領(lǐng)先者為了怕被攪局,通常會(huì)越來越封閉。
“其實(shí)中美的主流路線已經(jīng)完全反過來了”,林志稱。在阿里Qwen性能追趕上來之前,全球最主流的開源模型是Meta的Llama,在海外市場,Llama一度落后于OpenAI跟Claude等閉源模型,但在國內(nèi),目前在大模型上支大旗的反而是開源模型。
不過,也有不少業(yè)內(nèi)人士認(rèn)為不應(yīng)該過分樂觀,因?yàn)?span style="font-weight: 700;">DeepSeek只能說是給2025年開了個(gè)好頭,競爭還在繼續(xù),差距依舊存在。
近期,幾大海外巨頭就推出了新模型。2月1日,OpenAI發(fā)布最新推理模型o3-mini系列,這是OpenAI首個(gè)開放給免費(fèi)用戶的推理模型。2月6日,谷歌官宣Gemini 2.0家族更新,其中Gemini 2.0 Flash-Lite版本被稱為谷歌目前為止性價(jià)比最高的模型。
正如梁文鋒自己所說,雖然具體技術(shù)方向一直在變,但模型、數(shù)據(jù)和算力這三者的組合是不變的。數(shù)據(jù)工程也是其中很重要的一環(huán),OpenAI雖然面臨侵權(quán)問題但積累了自己的數(shù)據(jù)庫,豆包因?yàn)門ikTok事件影響也宣稱自己不會(huì)進(jìn)行數(shù)據(jù)蒸餾,“原生搭建的數(shù)據(jù)庫”成為大廠的護(hù)城河之一。
另外,王晟提到,根據(jù)Trade-off Curves(取舍曲線),DeepSeek選擇的路徑意味著它的精力重點(diǎn)在于工程優(yōu)化,那就很難在能力上限上取得突破,“它用現(xiàn)有方法繼續(xù)迭代新版本,能力能提升多少?這是個(gè)問題?!?/p>
從學(xué)生時(shí)代起,梁文鋒就展現(xiàn)出探索AGI的熱情和不斷創(chuàng)新的追求,DeepSeek此前只是躲開了無效或失敗的嘗試,但我們也不應(yīng)該否認(rèn)前一種路徑中,巨頭們不惜代價(jià),通過各種未知的嘗試來拓寬AGI邊界的努力。
DeepSeek攪動(dòng)的這一片汪洋,漣漪還在繼續(xù)擴(kuò)大。