作者 | 湯一濤
「比大更大」(Bigger than bigger)當(dāng)年蘋果的一句廣告詞,用來形容現(xiàn)在 AI 領(lǐng)域最熱的大語言模型,看起來也沒什么不對。
從十億、百億再到千億,大模型的參數(shù)走向逐漸狂野,相應(yīng)的,用來訓(xùn)練 AI 的數(shù)據(jù)量,也以指數(shù)級暴增。
以 OpenAI 的 GPT 為例,從 GPT-1 到 GPT-3,其訓(xùn)練數(shù)據(jù)集就從 4.5GB 指數(shù)級增長到了 570GB。
不久前的 Databricks 舉辦的 Data+AI 大會上,a16z 創(chuàng)始人 Marc Andreessen 認(rèn)為,二十幾年來互聯(lián)網(wǎng)積累的海量數(shù)據(jù),是這一次新的 AI 浪潮興起的重要原因,因?yàn)榍罢邽楹笳咛峁┝丝捎脕碛?xùn)練的數(shù)據(jù)。
但是,即便網(wǎng)民們在網(wǎng)上留下了大量有用或者沒用的數(shù)據(jù),對于 AI 訓(xùn)練來說,這些數(shù)據(jù),可能要見底了。
人工智能研究和預(yù)測組織 Epoch 發(fā)表的一篇論文里預(yù)測,高質(zhì)量的文本數(shù)據(jù)會在 2023-2027 年之間消耗殆盡。
盡管研究團(tuán)隊(duì)也承認(rèn),分析方法存在嚴(yán)重的局限,模型的不準(zhǔn)確性很高,但是很難否認(rèn),AI 消耗數(shù)據(jù)集的速度是恐怖的。
低質(zhì)量文本、高質(zhì)量文本和圖像的機(jī)器學(xué)習(xí)數(shù)據(jù)消耗和數(shù)據(jù)生產(chǎn)趨勢|EpochAI
當(dāng)「人類」數(shù)據(jù)用完,AI 訓(xùn)練不可避免地,將會使用 AI 自己生產(chǎn)的內(nèi)容。不過,這樣的「內(nèi)循環(huán)」,卻會產(chǎn)生很大挑戰(zhàn)。
不久前,來自劍橋大學(xué)、牛津大學(xué)、多倫多大學(xué)等高校的研究人員發(fā)表論文指出,用 AI 生成的內(nèi)容作為訓(xùn)練 AI,會導(dǎo)致新模型的崩潰。
所以,AI 訓(xùn)練用「生成數(shù)據(jù)」會帶來崩潰的原因是什么?還有救嗎?
01 AI「近親繁殖」的后果
在這篇名為《遞歸的詛咒:用生成數(shù)據(jù)訓(xùn)練會使模型遺忘》的論文中,研究人員指出,「模型崩潰」是一個幾代模型的退化過程。
前一代模型生成的數(shù)據(jù),會污染下一代模型,經(jīng)歷幾代模型的「傳承」,它們就會錯誤地感知世界。
模型迭代示意圖|arxiv
模型崩潰分為兩步:
在早期模型崩潰中,模型會開始失去原始數(shù)據(jù)的分布信息,也就是「干凈的人類數(shù)據(jù)」;
在晚期,模型會把上幾代模型對原始分布信息的「錯誤認(rèn)知」糾纏到一起,從而曲解現(xiàn)實(shí)。
研究人員首先從頭訓(xùn)練了小樣本模型 GMM(高斯混合模型)和 VAE(變量自動編碼器)。以 GMM 為例,下圖最左是原始數(shù)據(jù)的正態(tài)分布。
可以看到,模型一開始對數(shù)據(jù)的擬合非常好。到第 50 次迭代時,基礎(chǔ)數(shù)據(jù)分布開始被錯誤感知。當(dāng)?shù)鷣淼?2000 次時,模型已經(jīng)收斂到一個很小的點(diǎn),這意味著模型開始穩(wěn)定輸出錯誤答案。
GMM 在迭代 0、50、100、150、200、350、2000 時擬合數(shù)據(jù)的例子|arxiv
為了驗(yàn)證預(yù)訓(xùn)練對實(shí)驗(yàn)結(jié)果的影響,研究人員又在 Meta 開發(fā)的 1.25 億參數(shù)的 LLM(大語言模型)OPT-125m 上進(jìn)行了實(shí)驗(yàn),數(shù)據(jù)集來自維基百科的 wikitext2。
和 GMM、VAE 這類小模型不同,LLM 從頭訓(xùn)練的成本非常高,所以它們都是經(jīng)過預(yù)訓(xùn)練的。實(shí)驗(yàn)結(jié)果如下:
輸入:根據(jù) Poyntz Wright 的說法,在 1360 年之前有些活動通常由一位主要石匠和一小隊(duì)流動的石匠完成,輔以當(dāng)?shù)亟虆^(qū)勞工。但其他作者則否認(rèn)了這種模式,相反提出主建筑師借鑒英國垂直式風(fēng)格設(shè)計(jì)了教區(qū)教堂的尖塔。
輸出:
第 0 代:復(fù)興建筑,例如倫敦的圣約翰大教堂?,F(xiàn)存最早的垂直復(fù)興建筑可以追溯到 18@-@ 世紀(jì)的根西島圣母教堂,該教堂建于 19 世紀(jì)末。有兩種類型的垂直式教堂:那些
第 1 代:建筑,如羅馬的圣彼得大教堂或布宜諾斯艾利斯的圣彼得大教堂。沒有證據(jù)表明這些建筑 是在教皇英諾森三世統(tǒng)治時期建造的,但有可能是在他的繼任者英諾森教皇統(tǒng)治時期建造的。
第 7 代:英國的建筑。在接受《紐約時報》采訪時,賴特說:"我不認(rèn)為我能夠做我想做的事情有什么問題。它只是對我不起作用。"他補(bǔ)充說:"我不知道你是否可以稱之為有趣、
第 9 代:建筑。除了成為全球黑 @-@ 尾巴大野兔、白 @-@ 尾巴大野兔、藍(lán) @-@ 尾巴大野 兔、紅 @-@ 尾巴大野兔、黃 @-的最大棲息地之一
可以看到,到第 9 代模型時,輸出的內(nèi)容已經(jīng)完全不知所云。
論文的作者之一 Ilia Shumailov 說,隨著時間的推移,人工智能生成的數(shù)據(jù)中的錯誤不斷累積,主要的模型在接受這些數(shù)據(jù)的訓(xùn)練后,會對現(xiàn)實(shí)產(chǎn)生更加扭曲的看法。
02 為什么會模型崩潰?
「模型崩潰」產(chǎn)生的最主要原因,還是因?yàn)?AI 并非真正的智能,它展現(xiàn)出的近似「智能」的能力背后,其實(shí)是基于大量數(shù)據(jù)的統(tǒng)計(jì)學(xué)方法。
基本上,所有無監(jiān)督機(jī)器學(xué)習(xí)算法都遵循一條簡單的模式:給定一系列數(shù)據(jù),訓(xùn)練出一個能描述這些數(shù)據(jù)規(guī)律的模型。
這個過程中,訓(xùn)練集里更大概率出現(xiàn)的數(shù)據(jù)就更容易被模型重視,小概率出現(xiàn)的數(shù)據(jù)就會被模型低估。
舉個例子,假設(shè)我們需要記錄 100 次骰子的投擲結(jié)果,來計(jì)算每個面出現(xiàn)的概率。理論上,每個面出現(xiàn)的概率是一樣的。在現(xiàn)實(shí)生活中,由于樣本量較小,可能 3、4 出現(xiàn)的情況比較多。但對于模型而言,它學(xué)習(xí)到的數(shù)據(jù)就是 3、4 出現(xiàn)的概率更高,因而會傾向于生成更多的 3 和 4 的結(jié)果。
「模型崩潰」示意圖|arxiv
另一個次要原因是函數(shù)近似誤差。也很好理解,因?yàn)檎鎸?shí)函數(shù)往往很復(fù)雜,實(shí)際運(yùn)用中,經(jīng)常使用簡化的函數(shù)來近似真實(shí)函數(shù),這就導(dǎo)致了誤差。
03 真沒招了嗎?杞人憂天!
所以,在人類數(shù)據(jù)越來越少的情況下,AI 訓(xùn)練真的沒機(jī)會了嗎?
并不是,用于訓(xùn)練 AI 數(shù)據(jù)枯竭的問題,還有方法能解決:
數(shù)據(jù)「隔離」
隨著 AI 越來越強(qiáng)大,已經(jīng)有越來越多的人開始使用 AI 輔助自己工作,互聯(lián)網(wǎng)上的 AIGC 爆炸式增長,「干凈的人類數(shù)據(jù)集」可能會越來越難以找到。
谷歌深度學(xué)習(xí)研究部門谷歌大腦 Google Brain 的高級研究科學(xué)家 Daphne Ippolito 就表示,在未來,要找到高質(zhì)量、有保證的無人工智能訓(xùn)練數(shù)據(jù)將變得越來越棘手。
這就好比是一個患有高危遺傳病的人類始祖,但是又擁有極其強(qiáng)大的繁殖能力。在短時間內(nèi)他就把子孫繁衍到了地球每一個角落。然后在某一時刻,遺傳病爆發(fā),人類全體滅絕。
為了解決「模型崩潰」,研究團(tuán)隊(duì)提出的一種方法是「先行者優(yōu)勢」,也就是保留對干凈的人工生成數(shù)據(jù)源的訪問,將 AIGC 與之分隔開來。
同時,這需要很多社區(qū)和公司聯(lián)合起來,共同保持人類數(shù)據(jù)不受 AIGC 污染。
不過,人類數(shù)據(jù)的稀缺意味著這其中有利可圖,已經(jīng)有一些公司行動起來了。Reddit 就表示將大幅提高訪問其 API 的費(fèi)用。該公司的管理人員表示,這些變化 (在一定程度上) 是對人工智能公司竊取其數(shù)據(jù)的回應(yīng)。Reddit 創(chuàng)始人兼首席執(zhí)行官 Steve Huffman 告訴《紐約時報》:「Reddit 的數(shù)據(jù)庫真的很有價值?!埂傅覀儾恍枰阉羞@些價值都免費(fèi)提供給一些全球最大的公司?!?/p>
合成數(shù)據(jù)
同時,專業(yè)基于 AI 生成的數(shù)據(jù),早已有效用于 AI 的訓(xùn)練。在一些從業(yè)者看來,現(xiàn)在擔(dān)心 AI 生成的數(shù)據(jù)會導(dǎo)致模型崩潰,多少有點(diǎn)「標(biāo)題黨」。
光輪智能創(chuàng)始人謝晨光告訴極客公園,國外論文提到的,用 AI 生成數(shù)據(jù)訓(xùn)練 AI 模型導(dǎo)致崩潰,實(shí)驗(yàn)方法比較偏頗。即便是人類數(shù)據(jù),也有能用和不能用之分,而論文提到的實(shí)驗(yàn),則是不加分辨地直接用來訓(xùn)練,而并非有針對性的經(jīng)過質(zhì)檢、效用性判定后作為訓(xùn)練數(shù)據(jù),顯然有可能會造成模型崩潰。
謝晨透露,其實(shí) OpenAI 的 GPT-4,就采用了大量前一代模型 GPT-3.5 生產(chǎn)的數(shù)據(jù)來進(jìn)行訓(xùn)練。Sam Altman 也在近期的采訪中表達(dá),合成數(shù)據(jù)是解決大模型數(shù)據(jù)短缺的有效方法。而其中的關(guān)鍵在于,有一整套體系來區(qū)分 AI 生成的數(shù)據(jù)中,哪些可用,哪些不可用,并不斷根據(jù)訓(xùn)練后模型的效果進(jìn)行反饋——這是 OpenAI 能笑傲 AI 江湖的絕招之一,這家公司并不只是融的錢多,買的算力多這么簡單而已。
在 AI 行業(yè)內(nèi),使用合成數(shù)據(jù)來進(jìn)行模型訓(xùn)練,早已經(jīng)成為一個尚未為外人所知的共識。
曾經(jīng)在英偉達(dá)、Cruise、和蔚來等公司負(fù)責(zé)自動駕駛仿真的謝晨認(rèn)為,以目前各種大模型訓(xùn)練的數(shù)據(jù)量來看,未來 2-3 年,人類數(shù)據(jù)確實(shí)有可能「枯竭」,但是基于專業(yè)化體系和方法,AI 生成的合成數(shù)據(jù),會成為用之不竭的有效數(shù)據(jù)來源。并且使用場景并不局限于文字和圖片,像自動駕駛、機(jī)器人等行業(yè)需要的合成數(shù)據(jù)量,將遠(yuǎn)遠(yuǎn)大于文本的數(shù)據(jù)量。
AI 三要素,數(shù)據(jù)、算力、算法,數(shù)據(jù)來源有著落了,算法大模型在不斷進(jìn)化,唯一剩下的算力壓力,相信英偉達(dá)創(chuàng)始人黃仁勛是可以順利解決的。