八戒八戒午夜视频_国产欧美一区二区三区不卡_乡村大坑的性事小说_女人脱裤子让男生桶爽在线观看

<b id="1wkpl"></b>

對話周鴻祎、方漢：DeepSeek能否改寫AI戰(zhàn)局？

澎湃新聞

2025-01-29 08:59:55

“DeepSeek在基座大模型上做出的突破，是天才級別的?！?/p>

最近，國產大模型公司深度求索（DeepSeek）引發(fā)的輿論震動，讓今年春節(jié)成為“最有AI味的年”。談到DeepSeek旗下標志性大模型DeepSeek-R1，多位業(yè)內人士向澎湃新聞記者表達了高度贊賞。

視覺中國圖

視覺中國圖

1月28日，大洋彼岸的人工智能巨頭Open AI CEO山姆·奧特曼(Sam Altman)發(fā)文回應DeepSeek帶來的挑戰(zhàn)：“DeepSeek推出的R1令人影響深刻，我們當然會推出更好的模型，有新的競爭對手也令人振奮?！?/p>

國內某Top2 AI初創(chuàng)企業(yè)也對記者坦言，他們感受到了同行帶來的壓力：“后續(xù)我們會加快產品研發(fā)的角度?！?/p>

與之對比的是在產品上的快速迭代：除夕當天，DeepSeek悄無聲息地發(fā)布開源多模態(tài)模型Janus-Pro。此前1月27日早間，DeepSeek應用曾登頂蘋果中國地區(qū)和美國地區(qū)應用商店免費APP下載排行榜，在美區(qū)下載榜上超越ChatGPT。

“多模態(tài)考驗的是對人類世界和環(huán)境的認知，相信DeepSeek在此刻發(fā)布多模態(tài)大模型，一定有自己的信心和底氣?！?月28日，360創(chuàng)始人周鴻祎告訴澎湃新聞記者，“中國大模型技術復仇者聯(lián)盟戰(zhàn)隊里一定有DeepSeek的一份，因為這家公司和它的創(chuàng)始人非常低調，他們技術能力和未來前景被市場嚴重低估了?！?/p>

“現在硅谷都把DeepSeek叫做來自東方的神秘力量，中國AI公司的創(chuàng)造力已經剎不住車了?！敝茗櫟t表示。

AI軍備競賽已進入深水期，曾有觀點認為，在字節(jié)、阿里、騰訊等大廠包圍下，AI創(chuàng)業(yè)公司將面臨洗牌，難逃被并購的命運，而殺出重圍的卻是似乎“名不見經傳”的DeepSeek。DeepSeek走紅的秘密是什么，為國內大模型行業(yè)帶來哪些啟示？

DeepSeek優(yōu)秀在哪？

“DeepSeek公司高層明確對商業(yè)化不感興趣，只想做技術研究，這樣的高度一般人達不到。”

有了解DeepSeek人士向記者透露，自己曾經面試過一些AI領域的人才，最后拒絕了自己的公司，去了DeepSeek，理由是他們科研氛圍好，是一個真正做事的團隊。

“從薪資來看，其實他們只是業(yè)內中流水平，高，但并不是最高的?！彼蛴浾咛寡裕叭绻f人才密度，可能還比不上頭部大廠。并不是大廠的人不聰明，而是大廠的聰明人花了太多精力在技術之外。大廠雖然薪資高，但是內部斗爭也多，想要真正專心做事，反而不如這樣的技術公司純粹。”

盡管在外界眼中，DeepSeek仿佛是一夜爆紅，但此前早有多項成就引發(fā)行業(yè)關注。2024年，在大模型行業(yè)率先發(fā)起價格戰(zhàn)的正是DeepSeek，但并未引起外界關注，此后智譜、字節(jié)跳動等跟進，才引發(fā)整個行業(yè)的降價潮流。

視覺中國圖

視覺中國圖

當時的DeepSeek，還未真正讓他人看到它的實力。2024年，智譜AI COO張帆在接受采訪時曾開玩笑說：“我們是主流廠商中第一個降價的。”當時有人提醒，首個降價的廠商其實是DeepSeek，張帆表示：“我說的是主流廠商”。

DeepSeek最引人矚目的，是其顯著降低了大模型開發(fā)成本。1月20日，DeepSeek正式發(fā)布推理模型R1，其API（編程接口）服務定價為每百萬輸入tokens（詞元）僅需1元（緩存命中）/4 元（緩存未命中），每百萬輸出tokens為16元。DeepSeek的定價約等于Meta旗下Llama 3-70B的七分之一，GPT-4 Turbo的七十分之一。

因此，DeepSeek也被戲稱為AI界的“拼多多”，實現高效低價背后的原因是什么？國內某知名AI公司董事長向記者解釋稱，這主要得益于DS-V3的多項技術創(chuàng)新。首先，DeepSeek采用MoE架構（Mixture of Experts，混合專家模型），通過將大模型變成多個稀疏的專家小模型，并通過多個模型聚合來達到和傳統(tǒng)大模型相當的能力，有效降低了計算成本。

其次，DS-V3在訓練方法上進行了重要創(chuàng)新。采用FP8混合精度訓練，效率是常規(guī)BF16精度的約1.6倍；同時優(yōu)化了并行流水線，提升了訓練和推理效率。這些優(yōu)化加上訓練的一次成功，使得V3的訓練成本降至約550萬美元。

而在最新發(fā)布的DS-R1中，DeepSeek采用了創(chuàng)新性的GRPO（組相關策略優(yōu)化）強化學習方法，無需龐大的人類標注數據庫。通過讓模型自主生成并驗證結果的方式，R1展現出了強大的推理能力。隨著訓練步數增加，其思維鏈（Chain-of-Thought，CoT）的長度不斷增長，模型甚至開始在推理過程中進行自我反思。

“DeepSeek R1的成功意味著，如果基礎模型能力夠強，在強化學習過程中它就能自己學會推理。這也是為什么國外AI圈的人看到DS-R1后驚呼AGI竟然離我們如此之近的原因：因為R1證明了能力足夠強的模型是可以不依靠人類自己進化的，盡管現階段的reward還是需要標簽。”上述人士表示。

《麻省理工科技評論》分析稱，DeepSeek R1 采用類似ChatGPT o1使用的“思維鏈”方法，它可以通過逐步處理查詢來解決問題。這可能是美國對華高端AI芯片出口管制帶來的意外結果，迫使中國的初創(chuàng)企業(yè)“優(yōu)先考慮效率”。

有意思的是，如果問DeepSeek自己R1模型相比OpenAI有哪些特點，DeepSeek的回答是，創(chuàng)新點可能在“注意力機制”和“參數效率”，R1在處理長文本時更聚焦關鍵部分（比如法律合同中的條款），減少計算量，類似“讀書時用熒光筆劃重點，只反復看關鍵段落”。在參數效率方面，用類似MoE（混合專家系統(tǒng)）的結構，把模型分成多個“子專家”，不同任務激活不同部分，既節(jié)省算力又提升效果（類似“看病時分科室掛號，心臟問題找心內科專家，不用讓全科醫(yī)生從頭學到尾”）

DeepSeek自我評價道，“DeepSeek像一家精品店，在特定領域更專精；OpenAI像大型超市，啥都有但價格高。”

為什么是DeepSeek？

談到DeepSeek，離不開創(chuàng)始人梁文鋒。這位在外人眼中樸素、低調的“85后”企業(yè)家，最近也站在了媒體的聚光燈下。

根據公開報道，梁文鋒從小就表露在數學領域的天賦和興趣，曾是高考狀元，在浙大求學期間就與同學一起積累市場行情數據和探索全自動量化交易。

2008年金融危機期間，他帶領團隊使用機器學習等技術探索全自動量化交易。2015年創(chuàng)立對沖基金“幻方量化”，2021年資產管理規(guī)模突破千億大關。2023年創(chuàng)辦深度求索DeepSeek，專注于通用人工智能（AGI）的突破。

“一件激動人心的事，或許不能單純用錢衡量。就像家里買鋼琴，一來買得起，二來是因為有一群急于在上面彈奏樂曲的人?！痹诠_采訪中，梁文鋒本人曾經如此談論他心中的AGI（通用人工智能）。

在另一段采訪中，他提到，中國AI不可能永遠處在跟隨的位置，“我們經常說中國 AI 和美國有一兩年差距，但真實的Gap（差距）是原創(chuàng)和模仿之差。如果這個不改變，中國永遠只能是追隨者，所以有些探索也是逃不掉的?！?/p>

他認為，英偉達的領先，不只是一個公司的努力，而是整個西方技術社區(qū)和產業(yè)共同努力的結果，“中國AI的發(fā)展，同樣需要這樣的生態(tài)。很多國產芯片發(fā)展不起來，也是因為缺乏配套的技術社區(qū)，只有第二手消息，所以中國必然需要有人站到技術的前沿?！?/p>

梁文鋒不打無準備之仗?；梅搅炕倬W顯示，其在2018年就確立以AI為公司的主要發(fā)展方向。

2020年開始，幻方累計投資超億元、占地面積相當于一個籃球場的AI超級計算機“螢火一號”正式投入運作，2021年，幻方投入十億建設“螢火二號”，以“任務級分時共享”為核心理念，調度系統(tǒng)秒級響應，平臺配備強大的軟件層支持：高性能算子庫（hfai.nn）、分布式訓練通訊框架（hfreduce）、專為AI開發(fā)而生的大容量高帶寬文件系統(tǒng)（3FS），讓AI模型能自如拓展到多節(jié)點之上，進行大規(guī)模并行訓練，算力擴容翻倍，集群連續(xù)滿載運行，平均占用率達到96%以上。

梁文鋒曾在采訪中表示，最早的一張卡到1萬張卡，這個過程是逐步發(fā)生的，而這里面主要是好奇心驅動，“對AI能力邊界的好奇”。

“DeepSeek最令美國科技圈震驚的是，在開源大模型上做到了突破性的領先?！崩鋈f維CEO方漢向澎湃新聞記者評論稱，“以往美國在基座大模型上處于絕對優(yōu)勢，例如ChatGPT，后續(xù)的大模型都是基于ChatGPT進行改進和優(yōu)化。此前，在開源大模型領域最領先的是Meta的Llama系列，但如今DeepSeek徹底超越了Llama，這意味著，后續(xù)的行業(yè)大模型可能將基于DeepSeek進行深度開發(fā)。”

“中國可能取代美國在基座大模型的統(tǒng)治地位，這是美國十分擔憂的?！狈綕h坦言。

美國AI初創(chuàng)公司Perplexity首席執(zhí)行官在接受采訪時認為，DeepSeek的模型堪稱“瘋狂”?！斑@些中國團隊推出了一個瘋狂的模型，API價格比GPT-4便宜10倍，甚至比Claude便宜15倍，速度極快，并且在某些基準測試中與GPT-4相當，甚至更好。他們總共只花了500萬美元的計算機預算，就做出了如此驚人的模型，并且免費公開了技術論文。”

據美國全國廣播公司(NBC)報道，美國總統(tǒng)特朗普當地時間1月27日在佛羅里達州邁阿密舉行的共和黨會議上表示，中國人工智能初創(chuàng)公司DeepSeek的AI技術給美國科技企業(yè)敲響“警鐘”，美國公司“需要專注于競爭以贏得勝利”。

“DeepSeek效應”如何發(fā)酵

DeepSeek的成功，暴擊AI硬件龍頭英偉達。

當地時間1月27日，英偉達（Nasdaq：NVDA）股價暴跌16.86%收于每股118.58美元，跌至過去10月以來的最低點；總市值2.90萬億美元，一日蒸發(fā)5900億美元（約合人民幣4.28萬億元），創(chuàng)史上最大單日個股市值蒸發(fā)紀錄。

英偉達的暴跌也使得創(chuàng)始人黃仁勛的身家大幅縮水210億美元。

視覺中國圖

視覺中國圖

DeepSeek在國際范圍內的成功，也為中國AI初創(chuàng)企業(yè)帶來“DeepSeek效應”。

“我對AGI的判斷，是一場馬拉松。目前技術仍然還沒有收斂，算力是一個重要的影響因素?！眹鴥華I頭部初創(chuàng)企業(yè)、面壁智能CEO李大海告訴記者。

他介紹，就像DeepSeek一樣，面壁也在旗下開發(fā)的MiniCPM-S系列引入自研稀疏化方案，通過將激活函數替換為ReLU及通過帶漸進約束的稀疏感知訓練來提升大模型的稀疏性，能將Llama、MiniCPM 稀疏度提升至接近 90%，并且也能夠在保持模型原有水平的基礎上，有效降低模型推理的開銷。

“DeepSeek的成功，說明中國人工智能企業(yè)已進入世界第一梯隊。盡管我們要承認中美在人工智能上確實有原創(chuàng)性的差距，但是R1的發(fā)布將會很大程度影響這個行業(yè)的發(fā)展，2025年中國在AI領域的創(chuàng)新相當值得期待。”資深AI從業(yè)者、獵豹移動董事長兼CEO傅盛表示。

而方漢認為，要談中國在AI上的能力完全趕超美國，還為時尚早，但是DeepSeek的表現，說明中國AI在發(fā)展空間上確實為人矚目。中國擁有最龐大的AI工程師隊伍和最多的AI論文數量，“在AI領域，中國和美國的優(yōu)勢相比其他國家是巨大的。”

“如果要雙方真正平起平坐地競爭，還是需要解決算力卡脖子問題?！狈綕h坦言，“但是我預計將在2-3年內徹底解決這個問題。相信在不久之后，能看到兩個國家真正實現你追我趕、公平競爭。”

上一篇：美國AI專家：全球AI爭霸賽已結束，目前來看，美國沒贏

下一篇：BBC：DeepSeek表明人工智能權力中心可能會從美國轉移

最新推薦

閱讀排行榜

欄目索引

相關內容

<mark id="y7lwh"></mark>

<mark id="y7lwh"></mark>

<big id="y7lwh"></big>