自去年年末ChatGPT用近乎于人類的對話能力,迅速使得大語言模型成為了資本市場的寵兒,也被外界認為AI這次可能真的要改變世界了。雖然會有一批人因為它而失業(yè),但也可能會有一大批職業(yè)在AI的加持下贏得效率革命。
當然,從現(xiàn)階段來說,大模型依然還處于叫好不叫座的狀態(tài),日常用它來輔助工作、學習、生活的朋友其實并不多,但如今借助AI的力量來搞邪門歪道,卻似乎要遠比想象中多。
更準確的說,AI已經(jīng)在改變了黑、灰產(chǎn)的玩法。日前,海外新聞網(wǎng)站評級工具NewsGuard發(fā)布的相關報告中顯示,他們自今年年初開始追蹤使用AI生成內(nèi)容的網(wǎng)站,而這類網(wǎng)站主要的運行模式,就是使用爬蟲抓取網(wǎng)絡上的任意內(nèi)容,并用AI重新生成。比如其中一個名為“TNN”的網(wǎng)站,每天會產(chǎn)出的1200篇文章,并完全是由爬蟲以及 “轉換語法后重寫一遍”的AI制造。
NewsGuard將這類網(wǎng)站稱為“Unreliable Artificial Intelligence-Generated News(UAIN,不可靠的人工智能生成的新聞信息和新聞網(wǎng)站)”。根據(jù)他們統(tǒng)計,今年4月監(jiān)測到的UAIN數(shù)量為49個,可到了6月就已經(jīng)增長至217個。
其實如果僅僅只是生成垃圾內(nèi)容來“污染”互聯(lián)網(wǎng),為如今已極為嘈雜的網(wǎng)絡再增加一點噪音也就罷了,但在NewsGuard統(tǒng)計的其中55個網(wǎng)站上,居然有著接近400個廣告投放。
一個純粹生成垃圾內(nèi)容的網(wǎng)站也能獲得廣告投放?甚至這并非胡謅,而是鐵一般的事實。那么為什么內(nèi)容質(zhì)量如此低劣的網(wǎng)站也能獲得廣告主的青睞,后者難道不知道這樣的網(wǎng)站不光壓根就沒有多少流量,也不可能讓受眾在網(wǎng)頁上駐留、更遑論看廣告了。其實這個問題的答案,是廣告主真的不知道他們的廣告會出現(xiàn)在這樣的網(wǎng)站上。
據(jù)了解,絕大多數(shù)被投放到這類由AI負責輸出內(nèi)容的網(wǎng)站廣告,都是出自谷歌旗下的在線廣告拍賣平臺Ad Manager。至于說為什么將廣告分發(fā)給低質(zhì)量網(wǎng)站的是谷歌,這就要從由網(wǎng)景、雅虎建立的互聯(lián)網(wǎng)上通行的數(shù)字廣告體系說起了。如今在數(shù)字廣告這一生態(tài)中,存在著用戶、信息發(fā)布平臺、廣告主,以及廣告平臺這四個角色。
沒錯,在互聯(lián)網(wǎng)里不止有谷歌、Meta、騰訊、百度這樣的巨頭,還有無數(shù)的中小網(wǎng)站/APP,后者顯然缺乏尋找廣告資源的能力,因此坐擁寶山卻沒法變現(xiàn)就是后者的真實寫照。與此同時,廣告主也需要在知名網(wǎng)站、大型APP和搜索引擎之外,找到更經(jīng)濟的投放渠道。
在這個時候,與網(wǎng)站打交道最多的搜索引擎就發(fā)現(xiàn)了商機,谷歌就扮演了中介的角色,并將中小網(wǎng)站/APP的廣告位介紹給廣告主,也就是所謂的“廣告聯(lián)盟”。
此時,谷歌作為廣告平臺會進行大量的計算、分析、優(yōu)化和預測,并撮合廣告主和網(wǎng)站將廣告以恰當?shù)姆绞胶秃侠淼膬r格去放到廣告位上 。在這一體系中,廣告主投入資金試圖用廣告來影響用戶,并讓更多的消費者購買產(chǎn)品;信息發(fā)布平臺掙到了廣告費,也就有了生產(chǎn)優(yōu)質(zhì)內(nèi)容吸引用戶的動力;而廣告平臺則拿到傭金,繼續(xù)研發(fā)更好的算法和技術來提高廣告的效果。
所以不難發(fā)現(xiàn),由AI生成垃圾內(nèi)容的網(wǎng)站也能從廣告聯(lián)盟拿到投放,谷歌難辭其咎。為了服務全世界的網(wǎng)站站長,谷歌其實打造了一套易用性極高的程序化廣告服務,站長們只需要在他們的網(wǎng)站頁面指定位置加入一段谷歌Adsense代碼,即可加入廣告聯(lián)盟、并填充程序化廣告。并且谷歌為了實現(xiàn)高度的易用性,為自己的程序化廣告還搭配了機器學習技術,可問題就出在了這里。
大模型正是機器學習技術的一部分,其所采用的多個任務一起預訓練,也是過去多年來機器學習領域最為常見的方法,只不過大模型使用的參數(shù)規(guī)模要大得多。因此這也就牽扯到了一個問題,AI眼中的世界和人類認知的世界其實是不同的。
與AI不同,人類大腦的知識表征理論中,幾乎看不到語言的痕跡。我們理解物體、理解語言時,所提取的知識是以對視覺、聽覺等信號的感知經(jīng)驗,以及與對象交互的動作經(jīng)驗信息編碼。
“盡管進行了大量研究,但對人類感知與機器感知能力進行比較仍然極度困難”,這是德國研究人員在相關論文中的說法。既然AI和人類的認知是有差異的,那么人類認為是好的東西、AI就不一定會持有同樣的看法了。或許就與當初網(wǎng)站站長用優(yōu)化(SEO)試圖找到搜索引擎的“好惡”,現(xiàn)在大模型也找到了谷歌廣告平臺的機器學習算法的“口味”。
用AI改寫知名網(wǎng)站文章的做法,基本上可以被視為是“偽原創(chuàng)”,因此騙過谷歌的算法確實是大概率事件??涩F(xiàn)在的問題是,要如何遏制用AI生成互聯(lián)網(wǎng)垃圾內(nèi)容的趨勢。相比創(chuàng)作優(yōu)質(zhì)內(nèi)容的網(wǎng)站,使用AI工具的網(wǎng)站在效率上顯然要更勝一籌,如果再加上谷歌廣告體系的“一視同仁”,很容易就會讓真正的創(chuàng)作者失望、進而流失。
那么要如何解決這個問題呢,畢竟需要為垃圾內(nèi)容負更多責任的不是谷歌,而是大模型的開發(fā)者。而如此肆無忌憚地生成垃圾內(nèi)容,最終的結果就是這些內(nèi)容會被重新投喂給大模型“反芻”,進而導致整個模型的崩潰。至于說要怎么解決,這就是OpenAI、微軟、Meta等公司該考慮的問題了。
上一篇:Meta做電商,這回來真的了?
下一篇:快手會被微信視頻號“邊緣化”嗎?