如果現(xiàn)在說,日本半導(dǎo)體公司要超越英特爾,恐怕很多人都會付之一笑,雖然在去年被三星超越,但英特爾仍然是這顆藍(lán)星上最強(qiáng)的半導(dǎo)體廠商之一,至于日本半導(dǎo)體廠商,不論是做存儲的鎧俠,還是做傳感器的索尼,或者是近年發(fā)展迅速的瑞薩,連全球半導(dǎo)體廠商的TOP 10都沒擠進(jìn)去,可謂是名落孫山。
不過大家都承認(rèn)的一點(diǎn)是,日本半導(dǎo)體祖上還是闊過的,把時(shí)間回溯到上世紀(jì)80年代,幾家日廠可以說是叱咤風(fēng)云,飛利浦、英特爾、摩托羅拉……都不過是日本半導(dǎo)體的手下敗將耳。
但日本半導(dǎo)體就像一顆天空中劃過的流星,在上世紀(jì)80年代的短暫輝煌后,又在美國的圍追堵截中敗下陣來,1985年,美國與日本簽訂《廣場協(xié)議》,日元對美元的大幅升值,導(dǎo)致了日本經(jīng)濟(jì)的泡沫逐漸破碎,對日本國內(nèi)的半導(dǎo)體行業(yè)造成了一波沉重打擊。
1986年初,美國商務(wù)部裁定日本存儲器存在不正當(dāng)競爭、低價(jià)傾銷,對日本征收100%反傾銷稅;1987年6月,美國通過“東芝制裁法案”,取消一系列采購合同,并禁止東芝的所有產(chǎn)品向美出口2至5年;1991年,美日再次簽訂了一份為期五年的《新半導(dǎo)體協(xié)定》,美國要求外國半導(dǎo)體在日本的市場份額必須達(dá)到20%……
各類不平等協(xié)定和制裁法案,讓富士通、NEC、日立、東芝和三菱在內(nèi)的日本半導(dǎo)體五大巨頭由盛轉(zhuǎn)衰,將這個(gè)潛力無限的市場拱手讓給了美國,1996年,美國半導(dǎo)體占據(jù)30%以上的全球市場份額,而日本半導(dǎo)體已經(jīng)不足30%,兩國之間的差距逐漸拉大。
為了幫助日本本土半導(dǎo)體廠商走出困境,日本企業(yè)還進(jìn)行過一番自救型的調(diào)整,1999年,NEC和日立分別剝離旗下DRAM業(yè)務(wù),成立了新公司爾必達(dá)(Elpida),后續(xù)三菱電機(jī)的DRAM部門也并入進(jìn)爾必達(dá),意在對抗美國DRAM企業(yè)。
不過,此時(shí)的日本企業(yè)并非只有守成之士,還有不甘于平凡的日本企業(yè)野心勃勃,打算學(xué)習(xí)勾踐臥薪嘗膽,通過梭哈一把,再度登上半導(dǎo)體世界的王座。
01.Cell處理器的誕生與雛形
2000年,伴隨著次世代游戲主機(jī)PS2在全球范圍內(nèi)的大獲成功,風(fēng)頭正盛的SCE(索尼電腦娛樂)開始為下一代主機(jī)做準(zhǔn)備,而CEO久夛良木健的腦袋中萌生出一個(gè)大膽的想法,能不能通過與美國企業(yè)合作,打造出類似英特爾和PowerPC一樣的通用處理器,不僅可以用在下一代主機(jī)上,還能給其他數(shù)碼家電乃至服務(wù)器使用,一旦成功,SCE就能徹底統(tǒng)治主機(jī)市場,贏得下一個(gè)十年不再是夢想。
這種想法一旦冒出來,就在久夛良木健心底里扎了根,改變半導(dǎo)體市場格局,趕超行業(yè)龍頭英特爾……未來的種種美好愿景仿佛已經(jīng)在向SCE招手了。
2000年,索尼電腦娛樂(SCE)、東芝和IBM一同簽署協(xié)議,成立了STI聯(lián)盟,并將研發(fā)中心設(shè)立在得克薩斯州的奧斯汀市,該聯(lián)盟商定,在接下來的4年研發(fā)周期內(nèi),索尼將提供資金預(yù)算,IBM主要負(fù)責(zé)處理器研發(fā),東芝則負(fù)責(zé)后續(xù)處理器和相關(guān)存儲芯片的生產(chǎn)。
這一研發(fā),就是四五年,索尼前后投入了數(shù)十億美元的研發(fā)資金,幾乎耗空了PS1至PS2所攢下的家底,而這顆被稱為Cell的處理器卻遲遲不能問世。
不過這絲毫不影響索尼對外的大吹特吹,2003年,久夛良木健在接受日本《PCWatch》專欄采訪時(shí)表示,足夠數(shù)量的Cell處理器串聯(lián)在一起,就可以達(dá)到甚至超過“地球模擬器”(地球シミュレータ,NEC制的超級計(jì)算機(jī),在當(dāng)時(shí)是世界上最快的計(jì)算機(jī)之一)的性能。
能夠模擬器地球的處理器,這一下子就把人的胃口吊起來了,大家都把目光投向了這索尼,想要看看這顆媲美超算的處理器究竟有何過人之處。
好在功夫不負(fù)有心人,2004年11月,IBM、索尼公司、索尼電腦娛樂公司和東芝公司首次披露了代號為Cell、被高度期待的高級微處理器的一些關(guān)鍵概念,這是四家公司為新一代計(jì)算應(yīng)用及數(shù)字消費(fèi)電子產(chǎn)品聯(lián)合開發(fā)的一種微處理器。
在發(fā)布會上,四家公司最終確認(rèn)Cell是一種多核心芯片,包含一個(gè)64位電源處理器核心和多個(gè)協(xié)作處理器核心,能夠進(jìn)行大規(guī)模的浮點(diǎn)處理,其專為計(jì)算密集型和豐富媒體寬帶應(yīng)用而優(yōu)化,包括電腦娛樂、電影及其他形式的數(shù)字內(nèi)容等。
根據(jù)發(fā)布新聞稿,Cell處理器在設(shè)計(jì)上的一些主要優(yōu)勢包括:
多線程、多核心結(jié)構(gòu)
同時(shí)支持多種操作系統(tǒng)
提供給主內(nèi)存及輔助芯片(Companion Chips)的豐富雙向總線帶寬
靈活的板載I/O (輸入/輸出)接口
用于實(shí)時(shí)應(yīng)用的實(shí)時(shí)資源管理系統(tǒng)
板載硬件,支持安全系統(tǒng),可實(shí)現(xiàn)知識產(chǎn)權(quán)的智能保護(hù)
采用了90納米的絕緣硅(Sillicon-on-insulator, SOI)技術(shù)
“大量和豐富的內(nèi)容,如多信道高清廣播節(jié)目及高分辨率CCD/CMOS成像設(shè)備拍攝的百萬像素?cái)?shù)字靜態(tài)/移動圖像等,要求大容量實(shí)時(shí)媒體處理功能。將來,所有格式的數(shù)字內(nèi)容都將被融合在一起,整合到寬帶網(wǎng)絡(luò)上,從而開始出現(xiàn)爆炸式增長。”索尼公司執(zhí)行副總裁兼首席運(yùn)營官、索尼電腦娛樂公司總裁兼集團(tuán)首席執(zhí)行官久夛良木健講道。“要自由實(shí)時(shí)地訪問和/或?yàn)g覽浩如煙海的內(nèi)容,在三維環(huán)境下更加高級的圖形用戶界面在將來會成為‘關(guān)鍵’。要處理如此豐富的應(yīng)用,當(dāng)前的PC結(jié)構(gòu)無論是在處理功率還是在總線帶寬上都已接近了極限。”
四家公司都為這顆Cell處理器拿出了最大的誠意:IBM計(jì)劃于2005年上半年在紐約East Fishkill市的圓晶生產(chǎn)工廠開始Cell微處理器的試生產(chǎn);索尼希望于2006年推出裝有Cell處理器的寬帶內(nèi)容及高清晰電視(HDTV)系統(tǒng);索尼電腦娛樂也希望推出其裝有Cell的新一代電腦娛樂系統(tǒng)即PS3,以實(shí)現(xiàn)電腦娛樂體驗(yàn)的革命性變化;東芝為Cell設(shè)想了多種應(yīng)用,希望于2006年推出其第一種基于Cell的產(chǎn)品——一種高清晰電視系統(tǒng)(HDTV)。
2004年,Cell處理器發(fā)布的前夕,野心勃勃的久夛良木健甚至找上了蘋果CEO史蒂夫·喬布斯,向他推銷Cell處理器,希望能這款跨時(shí)代的處理器能搭載在下一代Mac上,希望Cell的生態(tài)能夠拓展至個(gè)人電腦與桌面端之上。
不過喬布斯沒有給他面子,直接拒絕了這個(gè)提議,他絲毫不掩飾對Cell設(shè)計(jì)的失望,表示Cell甚至還不如用了這么多年的PowerPC,后面的事情相信大家也知道,蘋果在第二年的全球開發(fā)者大會上宣布轉(zhuǎn)投英特爾和x86的懷抱,徹底斷了索尼的念想。
但久夛良木健沒有灰心,因?yàn)樗髂徇€有PS3這一次世代主機(jī)的大殺器,PS1和PS2兩代主機(jī)在全球賣了上億臺,只要Cell芯片的PS3一出手,別管你是英特爾還是蘋果,都得在索尼面前俯首稱臣。
02.Cell處理器的獨(dú)特與“強(qiáng)大”
前面講了這么多關(guān)于Cell芯片的內(nèi)容,索尼、IBM和東芝都信心十足,但它究竟強(qiáng)大在何處,恐怕大家還沒有一個(gè)具體的概念。
2005年,Cell芯片研發(fā)接近完成,開始試產(chǎn)首批芯片,其采用90nm工藝,搭載 4個(gè)頻率高達(dá)4GHz的PPE主核心(Power Processor Element,簡稱為PPE,由PowerPC970簡化而來),以及32個(gè)總計(jì)1TFloaps算力的基于SIMD的協(xié)處理器(Synergistic Processor Element,以下簡稱SPE),整體性能絲毫不遜于頂級的桌面端處理器,甚至摸到了服務(wù)器芯片的門檻,此外還整合了 XDR內(nèi)存控制器,可配合25.6GBps帶寬的內(nèi)存系統(tǒng),而它的前端總線也采用96位、6.4GHz頻率的FlexIO并行總線(原名稱為 “Redwood”,RAMBUS公司所開發(fā)),這也是有史以來速度最快的計(jì)算機(jī)總線。
不過,4顆PPE加上32顆SPE這種搭配,讓芯片面積與功耗達(dá)到了一個(gè)很高的程度,而多核心設(shè)計(jì)也影響了最終的量產(chǎn)良率。
(勞倫斯伯克利國家實(shí)驗(yàn)室針對Cell、 AMD Opteron,英特爾Itanium2,以及Cray X1E的性能對比)
IBM也給出了具體的技術(shù)解析,CELL作為一種微處理器,介于傳統(tǒng)桌面處理器(如Athlon 64和Core 2系列)和專業(yè)的圖形顯卡(如NVIDIA和ATI)的混合體,在預(yù)期當(dāng)中,Cell不僅能用于娛樂設(shè)備、高清晰度顯示器以及高清電視系統(tǒng),也能用于數(shù)字成像系統(tǒng)(醫(yī)療、科學(xué)等)和物理模擬(如科學(xué)和結(jié)構(gòu)工程建模)等方面,可謂是一顆全能處理器。
Cell處理器具體被分成四個(gè)部分:外部輸入和輸出結(jié)構(gòu),被稱為Power Processing Element(PPE)的主處理器(一個(gè)雙向同步多線程的PowerPC 2.02內(nèi)核),八個(gè)功能齊全的協(xié)處理器,被稱為Synergistic Processing Elements(SPE),以及連接PPE、輸入/輸出元素和SPE的專用高帶寬循環(huán)數(shù)據(jù)總線,稱為Element Interconnect Bus(EIB)。
為了實(shí)現(xiàn)高性能計(jì)算, Cell處理器需要利用EIB將SPE和PPE連接起來,通過完全緩存一致性的DMA(Direct memory access,直接存儲器訪問),訪問主內(nèi)存和其他外部數(shù)據(jù)存儲。而為了充分利用EIB,并使計(jì)算和數(shù)據(jù)傳輸相結(jié)合,處理元件(PPE和SPE)中的每一個(gè)都配備了一個(gè)DMA引擎。由于SPE的加載/存儲指令只能訪問自己的本地scratchpad存儲器,因此每個(gè)SPE完全依靠DMA來傳輸數(shù)據(jù)到主存儲器和其他SPE的本地存儲器。該架構(gòu)的主要設(shè)計(jì)是使用DMA作為芯片內(nèi)數(shù)據(jù)傳輸?shù)暮诵氖侄危云谠谛酒瑑?nèi)的數(shù)據(jù)處理中實(shí)現(xiàn)最大的異步性和并發(fā)性。
此外,能夠運(yùn)行傳統(tǒng)操作系統(tǒng)的PPE對SPE有控制權(quán),可以啟動、停止、中斷和安排SPE上運(yùn)行的進(jìn)程。為此,PPE擁有與SPE的控制有關(guān)的額外指令。與SPE不同,PPE可以通過標(biāo)準(zhǔn)的加載/存儲指令讀寫SPE的主存儲器和本地存儲器。
盡管有完整架構(gòu),但SPE并不是完全自主的,需要PPE對其進(jìn)行啟動,然后才能進(jìn)行工作。由于整個(gè)系統(tǒng)的大部分計(jì)算力來自協(xié)處理器,一方面要使用DMA作為數(shù)據(jù)傳輸?shù)姆椒?,另一方面每個(gè)SPE又受限于較小的本地緩存,這對那些從未接觸過Cell軟件開發(fā)人員是一個(gè)非常大的挑戰(zhàn),需要對運(yùn)行的軟件進(jìn)行非常細(xì)致的調(diào)整,才能最大程度地開發(fā)出這顆處理器的潛能。
事實(shí)上,IBM交出的這份答卷看似優(yōu)秀實(shí)則復(fù)雜,光是要弄懂這顆處理器和其他普通處理器的區(qū)別就要花費(fèi)不少功夫,而原型芯片過于龐大的規(guī)模也導(dǎo)致了最終量產(chǎn)一拖再拖,最終索尼迫于現(xiàn)實(shí)壓力,無奈地向Cell揮起砍刀。
這一刀砍下去,就砍掉了不少性能,最終發(fā)布的首款Cell處理器只搭載了一個(gè)主頻為3.2GHz的PPE主核心與8個(gè)SPE協(xié)處理器,為了保證生產(chǎn)良率,還屏蔽了1個(gè)SPE,還有一個(gè)SPE被分配給操作系統(tǒng)和音頻,游戲只能調(diào)用6個(gè)SPE,其集成了2億3400萬個(gè)晶體管,采用IBM的90納米SOI、Low -K工藝制造,核心面積為221平方毫米,芯片規(guī)模與Intel的雙核Pentium D相當(dāng)。
不過也不用太悲觀, Cell芯片實(shí)際上并不是單純的CPU,而是包含了一部分GPU的功能,SPE協(xié)處理器理論上可以對物理、音頻、光源進(jìn)行幾何運(yùn)算,甚至模擬GPU不支持的后處理特效,如曲面細(xì)分,computer shader等等,已經(jīng)有了今天英偉達(dá)GPU中CUDA核心的雛形。
而在Cell開始研發(fā)時(shí),索尼所希望的,就是用一顆Cell負(fù)責(zé)CPU的功能,另一顆Cell肩負(fù)起GPU的職能,看似異想天開,實(shí)際上并不是完全沒有可能,日后還有Leadtek等廠商發(fā)布了基于Cell的PCI-E卡,用來加速視頻解碼。
另外,由于IBM開發(fā)之初就考慮到了服務(wù)器的需求,還用上服務(wù)器級別的256MB XDR高性能內(nèi)存,因而Cell不僅浮點(diǎn)運(yùn)算能力強(qiáng)勁,還對并行運(yùn)算和分布式運(yùn)算支持良好,只要有足夠數(shù)量的搭載了Cell的PS3主機(jī),就能組成超級計(jì)算機(jī),這一點(diǎn)可以說是讓其他桌面端處理器望塵莫及。
照理說,PS3在Cell芯片的指引下,已經(jīng)是立于不敗之地了,在索尼原本的設(shè)想中,稱霸主機(jī)市場不用多說,搶占桌面市場更是指日可待,“索尼大法好”這句調(diào)侃仿佛已經(jīng)變成了現(xiàn)實(shí)。
然而,索尼所有的美夢都在PS3發(fā)售的那一刻開始破滅。
03.Cell處理器的折戟和湮滅
為什么會破滅,原因還是出在PS3這臺主機(jī)上。
前面我們有提到,Cell可以承擔(dān)一部分GPU的職能,但這并不意味著能直接把Cell當(dāng)成GPU來用,圖形計(jì)算最終還是交給GPU來負(fù)責(zé),IBM自然是不生產(chǎn)GPU的,索尼只能求助于當(dāng)時(shí)的兩大顯卡廠商N(yùn)VIDIA和ATI,加班加點(diǎn)地在PS3里塞入了一張定制的RSX,其基于Geforce7800系列改造而成,性能介于G70和G72之間。
但此時(shí)已經(jīng)臨近發(fā)售日期,Cell芯片的256M XDR內(nèi)存,只能由CELL自己使用,RSX這顆GPU核心沒辦法共享這部分內(nèi)存,為了趕快上市發(fā)售,索尼又額外塞入了256M GDDR3顯存,一來一去,這成本已經(jīng)高上了不少。
不止如此,為了兼容上一代PS1和PS2主機(jī),索尼還額外塞進(jìn)了一塊EE+GS的芯片,用硬件兼容來保證上一代游戲能完美運(yùn)行在PS3上,又是一次出血。
另外,索尼和松下電器等企業(yè)在2004年成立了“藍(lán)光光盤聯(lián)盟”,意在推動下一代光盤格式的普及,與HD-DVD推廣協(xié)會分庭抗禮,PS3此時(shí)又承擔(dān)著推廣藍(lán)光光盤,幫助索尼打贏光盤格式的重任,同時(shí)上一代PS2因?yàn)橹С諨VD而大獲全勝,加上藍(lán)光光驅(qū)也在情理之中。
這樣一套加法算下來,PS3的成本已經(jīng)到了相當(dāng)恐怖的程度,根據(jù)拆解報(bào)告,每顆Cell芯片的成本約為89美元,RSX顯卡的成本約為129美元,藍(lán)光光驅(qū)的成本約為125美元,EE+GS的成本約為27美元,光是芯片和光驅(qū)的成本就已經(jīng)來到了370美元,總成本甚至來到了805-840美元。要知道PS3的起售價(jià)也不過499美元,這還沒算上前期研發(fā)和后期營銷成本呢,賣一臺凈虧300多美元,索尼家底再厚也經(jīng)不起這樣的折騰。
而由于各種芯片的不斷加入,PS3的功耗也來到了一個(gè)恐怖的程度,在玩藍(lán)光游戲時(shí),PS3的總功耗輕松突破了200W,即使在菜單的待機(jī)頁面,功耗也會保持在170W左右。
售價(jià)的高昂還在其次,Cell這顆被索尼寄予眾望的芯片,真的發(fā)揮出之前宣傳中的實(shí)力了嗎?
實(shí)際上,圍繞Cell芯片的最關(guān)鍵的六個(gè)SPE協(xié)處理器,一共有三種開發(fā)模式,其中能最大程度開發(fā)協(xié)處理器潛力的模式,也是最難開發(fā)和優(yōu)化的一個(gè)模式,需要開發(fā)者自己繞過操作系統(tǒng),API和運(yùn)行,直接對SPE進(jìn)行操作開發(fā),效率低得可怕,其中六個(gè)SPE中只有四個(gè)支持這種模式,從PS3誕生到停產(chǎn),就沒有多少游戲是在這種模式下開發(fā)的,在雙核處理器大行其道的2006年,Cell芯片這種本質(zhì)仍為單核的處理器成為了開發(fā)人員的噩夢地獄。
更讓人感到諷刺的是,索尼最大對頭——微軟,在Xbox 360上也用了IBM的處理器,不過微軟沒有像索尼一樣煞費(fèi)苦心地研發(fā),而是直接像IBM定制了一顆集成了三個(gè)3.2GHz的PowerPC核心的xenon處理器,而這些核心不是別的,恰恰是Cell的PPE主核心,另外配備了ATI的R500顯卡,整體架構(gòu)非常接近PC,開發(fā)難度大幅下降,大量PC游戲只需要簡單移植就能登陸Xbox 360,對比PS3簡直是天壤之別。
不過PS3整體并非沒有可取之處,依靠著對并行運(yùn)算和分布式運(yùn)算的良好支持,在其他地方倒是能發(fā)光發(fā)熱。
2010年美國空軍研究實(shí)驗(yàn)室(The Air Force Research Laboratory,AFRL)組建了一套物美價(jià)廉的超算,其由1760臺PS3、 168個(gè)獨(dú)立圖形處理單元及84個(gè)協(xié)調(diào)服務(wù)器組成,其代號為 “禿鷹群”(Condor Cluster),用于處理衛(wèi)星圖像、雷達(dá)以及研究AI,AFRL還向一些大學(xué)以及研究機(jī)構(gòu)開放了禿鷹群的部分算力,據(jù)透露,這個(gè)超算總耗資約200萬美元,運(yùn)算性能為500TFlops,成本和耗電量均只有同等運(yùn)算力常規(guī)超算的十分之一。
另外,索尼還在2007年宣布PS3正式加入Folding@home,這是一個(gè)研究蛋白質(zhì)折疊,誤折,聚合及由此引起的相關(guān)疾病的分布式計(jì)算工程,用戶可以讓自己的PS3在閑置時(shí)執(zhí)行Folding@home分發(fā)的運(yùn)算任務(wù),截至2008年9月,參與的PS3游戲機(jī)提供了1.2PFlops的運(yùn)算能力,占當(dāng)時(shí)運(yùn)算總數(shù)的近35%。
但Cell的步伐也僅限于此了,從發(fā)布到停止支持,除了PS3、IBM服務(wù)器和超算、東芝電視外,就再也沒有電子產(chǎn)品用過這顆奇葩設(shè)計(jì)的處理器,走入桌面端更是完全沒實(shí)現(xiàn)過,這款研發(fā)了四五年的處理器在半導(dǎo)體市場中以一個(gè)非常不體面的姿態(tài)入了土。
當(dāng)然Cell的部分構(gòu)想我們今天也能在各種處理器上找到,英偉達(dá)的CUDA核心, AMD的APU,蘋果最新的M系列芯片,或許它們的部分靈感就出自IBM和索尼研發(fā)的這顆失敗芯片呢?
曾為PS3開發(fā)獨(dú)占畫質(zhì)代表作《殺戮地帶》的Guerilla Games技術(shù)總監(jiān)還曾在2021年緬懷了一下Cell,認(rèn)為這顆處理器仍然要比Intel任何一顆CPU都要強(qiáng)大,它領(lǐng)先于時(shí)代 ,但就是在可用性與平衡性上難以把握。
所謂超前一步是天才,而超前兩步乃至三步的,往往就變成了先烈,這句話用來詮釋Cell的歷程再合適不過了,或許日本廠商在半導(dǎo)體上的野望,那股趕超美國的決心,隨著Cell的遠(yuǎn)去,也逐漸沒了蹤影吧。