| 只有阿里騰訊才懂的芯片秘密 | |
| 發(fā)布時(shí)間:2022-02-21 16:43:13 | 瀏覽次數(shù): | |
虎嗅APP | 宇多田
就在上周,中國(guó)內(nèi)存廠(chǎng)商長(zhǎng)鑫存儲(chǔ)(便是睿力集成),其悄然變更的股東信息引發(fā)了一些媒體和產(chǎn)業(yè)騷動(dòng)。
因?yàn)樵谛略龅?9位股東中,“阿里巴巴”“騰訊”這兩個(gè)名字極為引人矚目。
合肥長(zhǎng)鑫,這家成立于2016年,但注冊(cè)資金高達(dá)485.7億人民幣的“創(chuàng)業(yè)公司”,是目前大陸唯一一家擁有Dram內(nèi)存自主生產(chǎn)能力的芯片廠(chǎng),背負(fù)著眾多期望。而毫不意外,這個(gè)作為服務(wù)器“三大物理硬件”之一的內(nèi)存芯片類(lèi)型,對(duì)云計(jì)算巨頭有多重要,自然不必多說(shuō)。
易失性存儲(chǔ)器 Dram,與NAND閃存同為存儲(chǔ)產(chǎn)業(yè)最為流行的芯片類(lèi)型,是一個(gè)全球規(guī)模約為900億美元的市場(chǎng)(數(shù)據(jù)來(lái)自TrendForce)。這個(gè)數(shù)字看起來(lái)雖然并不龐大,但幾乎被三星、海力士以及美光三巨頭瓜分完畢。
因此,從供需穩(wěn)定來(lái)看,正是由于真正Dram制造廠(chǎng)在國(guó)內(nèi)的稀缺性等原因,讓管理著龐大服務(wù)器機(jī)群的云計(jì)算廠(chǎng)商,需要提高對(duì)N種采購(gòu)備選方案的掌控力。
作為超大數(shù)據(jù)中心的運(yùn)營(yíng)者,云廠(chǎng)商們都是Dram芯片的巨大消耗者。舉個(gè)例子,亞馬遜曾在2019年因三星Dram產(chǎn)品在設(shè)計(jì)層面存在底層缺陷而取消訂單,對(duì)后者當(dāng)季營(yíng)業(yè)利潤(rùn)打擊很大。
另一方面,權(quán)威市場(chǎng)分析機(jī)構(gòu)Digitime整合業(yè)內(nèi)消息來(lái)源認(rèn)為,2022年云服務(wù)器和數(shù)據(jù)中心應(yīng)用將成為Dram芯片市場(chǎng)主要增長(zhǎng)動(dòng)力,恢復(fù)大量出貨勢(shì)頭,預(yù)計(jì)整體市場(chǎng)需求將增長(zhǎng)15-20%;此外,美光在2022第一財(cái)季的數(shù)據(jù)重心業(yè)務(wù)增幅高達(dá)70%,主要貢獻(xiàn)來(lái)自Dram與SSD產(chǎn)品。
而消息人士告訴虎嗅,業(yè)內(nèi)預(yù)計(jì)從2022年第二季度開(kāi)始,數(shù)據(jù)中心需求才能更加明顯。
云巨頭的硬件掌控力野心
另一邊,毋庸置疑,與CPU、GPU及各類(lèi)加速器一樣,存儲(chǔ)芯片對(duì)服務(wù)器架構(gòu)創(chuàng)新與性能的顛覆同樣具有極其重要的影響。
對(duì)于云廠(chǎng)商,巨大的計(jì)算并行處理量與神經(jīng)網(wǎng)絡(luò)規(guī)模巨幅增長(zhǎng),必然要求處理器更快從內(nèi)存獲取數(shù)據(jù)(這一點(diǎn)在文章《干掉英偉達(dá)?》里曾多次提及)。但寧暢信息技術(shù)專(zhuān)家告訴虎嗅,當(dāng)前計(jì)算機(jī)是馮諾依曼架構(gòu),計(jì)算數(shù)據(jù)必須放在Dram內(nèi)才可計(jì)算。所以,程序的大小決定了內(nèi)存的大小。
“因此,單個(gè)程序和數(shù)據(jù)占用內(nèi)存空間不斷增加,導(dǎo)致內(nèi)存容量持續(xù)擴(kuò)張。為保持性能不下降,內(nèi)存速率需與計(jì)算核數(shù)量同步增加。但實(shí)際已經(jīng)快做不到了。”
去年,IEEE研究員兼3D存儲(chǔ)芯片專(zhuān)家Joungho Kim也曾喊話(huà),內(nèi)存與處理器之間的性能差距比任何時(shí)候都要大,馮諾依曼架構(gòu)現(xiàn)在應(yīng)該叫“馮諾依曼瓶頸”。
因此,更多內(nèi)存技術(shù)創(chuàng)新,在近年來(lái),便圍繞“怎樣減少數(shù)據(jù)在芯片間的移動(dòng)”展開(kāi)了。
在阿里云開(kāi)發(fā)者社區(qū),數(shù)據(jù)專(zhuān)家曾詳細(xì)科普過(guò)HBM(高帶寬內(nèi)存)、HBC(混合存儲(chǔ)立方)等新型服務(wù)器內(nèi)存。這一技術(shù)路徑的思路比較直接好懂——讓內(nèi)存盡可能靠近CPU或GPU。
(經(jīng)提醒,這里需要著重強(qiáng)調(diào)一下:這里指的是HBM技術(shù)在內(nèi)存產(chǎn)品上的創(chuàng)新,早在2016年AMD等企業(yè)就已經(jīng)提出過(guò)HBM方面的創(chuàng)新點(diǎn))
更具體一點(diǎn),就是將處理器與內(nèi)存堆疊成一個(gè)3D矩陣,然后鑿在服務(wù)器主板上。
它的最大優(yōu)勢(shì),理論上,便是可以在極低頻率與能耗下帶來(lái)大帶寬。
這一技術(shù)路徑反應(yīng)在產(chǎn)品上,便是2021年8月三星發(fā)布的內(nèi)存處理芯片——HBM2-PIM。三星技術(shù)專(zhuān)家用一種叫做硅穿孔(TSV)的互聯(lián)線(xiàn)把Dram垂直連在一起,放在邏輯芯片上。
通俗一點(diǎn)講,就是讓一堆Dram簇?fù)碇?jì)算單元,齊心協(xié)力做跟AI任務(wù)相關(guān)的神經(jīng)網(wǎng)絡(luò)計(jì)算。
這一技術(shù)在2021年曾引起過(guò)存儲(chǔ)產(chǎn)業(yè)內(nèi)的轟動(dòng),但還尚停留在實(shí)驗(yàn)階段。不過(guò),頭部存儲(chǔ)企業(yè)已紛紛聞風(fēng)而動(dòng)。譬如,美光悄然為一種3D Dram技術(shù)提交了專(zhuān)利申請(qǐng),而半導(dǎo)體材料巨頭應(yīng)用材料也迅速發(fā)布了一套3D Dram材料工程方案。
正如,EEtimes所說(shuō),這可能需要好幾年,但 Dram 很可能會(huì)追隨NAND的腳步,走向3D。
而阿里前段時(shí)間也曾發(fā)布過(guò)基于Dram 的3D 堆疊存算一體芯片,相關(guān)論文還被ISSCC 2022收錄。當(dāng)然,此為研究,并未投產(chǎn),但這也是一個(gè)非常重要的信號(hào)。
很顯然,對(duì)于服務(wù)器基礎(chǔ)架構(gòu)一直十分重視的云巨頭,在以肉眼可見(jiàn)的方式,逐步“吞噬”服務(wù)器架構(gòu)中的各個(gè)核心關(guān)鍵點(diǎn)——
以亞馬遜AWS為例,在2015年收購(gòu)以色列的安納普爾納峰實(shí)驗(yàn)室后,便從2017年開(kāi)始,陸續(xù)推出了DPU芯片Nitro、Arm服務(wù)器CPU Graviton、Graviton2及Graviton3,以及機(jī)器學(xué)習(xí)訓(xùn)練加速器 Trainium 和機(jī)器學(xué)習(xí)推理加速器 Inferentia。
而阿里等中國(guó)云巨頭在芯片研發(fā)上獲得啟發(fā)的時(shí)間,恰好是在A(yíng)WS發(fā)布Nitro DPU前后。如今,基本也完成了從服務(wù)器CPU到AI加速器的“同等類(lèi)別裝備”。
基本可以明確的是,自亞馬遜開(kāi)了先河后,不斷垂直整合云計(jì)算從底層到上層業(yè)務(wù),把服務(wù)器架構(gòu)自研能力掌握在自己手里,如今在頂級(jí)云廠(chǎng)商間已經(jīng)達(dá)成了共識(shí)。
“阿里的野心,或者說(shuō)魄力很大。”
一位不具名的服務(wù)器專(zhuān)家告訴虎嗅,阿里基礎(chǔ)架構(gòu)事業(yè)群AIS,在服務(wù)器架構(gòu)自研與創(chuàng)新走的挺快,只是因?yàn)楸容^底層所以外界不太了解,知乎上甚至有人直接把他們歸為“做運(yùn)維的”。
由于這個(gè)事業(yè)群相當(dāng)于整個(gè)阿里云軟硬基礎(chǔ)設(shè)施的“管家”,所以,各類(lèi)技術(shù)專(zhuān)家集結(jié)在一起,必須在服務(wù)器、內(nèi)核、容器、JVM、調(diào)度、數(shù)據(jù)庫(kù)、存儲(chǔ)、中間件等多個(gè)數(shù)據(jù)中心“節(jié)點(diǎn)”上做迭代與創(chuàng)新,當(dāng)然,它也在采購(gòu)和銷(xiāo)售上有KPI指標(biāo)。
“在存儲(chǔ)這一塊,他們是有一些想法的。基本是兩條路, 第一個(gè)當(dāng)然是買(mǎi)現(xiàn)成的三星海力士美光,另一個(gè)是從前年開(kāi)始吧,阿里自己買(mǎi)‘顆粒’(內(nèi)存芯片),來(lái)自己做DIMM。” 他說(shuō),AIS在實(shí)驗(yàn)室水平上應(yīng)該沒(méi)問(wèn)題,量產(chǎn)可能會(huì)有挑戰(zhàn)。
“更重要的是看他們的整合思路——加速卡(AI, 存儲(chǔ))、網(wǎng)路(DPU/SmartNIC)。芯片是平頭哥或其他部門(mén)來(lái)做,但需求方則是AIS、阿里云以及螞蟻金服。需求方也非常重要,決定了用什么、怎么用,以及怎么用能夠讓效能發(fā)揮到最大。”
他提醒我們要關(guān)注英特爾 IDM2.0開(kāi)放戰(zhàn)略,特別是不久前“要對(duì)外授權(quán)X86的策略和猜測(cè)”——“我想,很多人應(yīng)該很快會(huì)有動(dòng)作的”。
此外,根據(jù)虎嗅近一兩年來(lái)從多方了解到的信息顯示,阿里在云基礎(chǔ)設(shè)施硬件創(chuàng)新和戰(zhàn)略速度層面,雖然存在部分爭(zhēng)議,但在國(guó)內(nèi)的確要?jiǎng)倨渌茝S(chǎng)商兩三籌。
很明顯,對(duì)國(guó)內(nèi)存儲(chǔ)市場(chǎng)的重視和投資,無(wú)論是保證供應(yīng)鏈穩(wěn)定還是技術(shù)創(chuàng)新,都極為有必要。
只有云廠(chǎng)商才能推動(dòng)的存儲(chǔ)芯片進(jìn)步
在2020年寫(xiě)臺(tái)積電時(shí),我們就曾提過(guò),如果說(shuō)蘋(píng)果、高通、英偉達(dá)們高端產(chǎn)品的成功,臺(tái)積電的先進(jìn)制程工藝必然是最大助力之一;那么臺(tái)積電總是能占領(lǐng)最小制程高地的原因,前者也必然功不可沒(méi)——
最好的下游技術(shù)與產(chǎn)品給你“導(dǎo)航”和試錯(cuò),才能跟競(jìng)爭(zhēng)對(duì)手打出一個(gè)漂亮的時(shí)間差。
那么云計(jì)算與半導(dǎo)體的關(guān)系同樣如此。
譬如谷歌推出TPU時(shí)被普遍叫好,并使得GPU廠(chǎng)商產(chǎn)生警惕。很大原因便是,作為成千上萬(wàn)塊芯片并行運(yùn)算的使用者,云廠(chǎng)商太清楚芯片的問(wèn)題到底出在哪兒了,畢竟樣本實(shí)在是豐富。
早在幾年前,多倫多大學(xué)曾做過(guò)一個(gè)關(guān)于“Dram致命缺陷”的重要課題。
他們經(jīng)過(guò)多方周旋,終于從阿貢等大型國(guó)家實(shí)驗(yàn)室、谷歌和Facebook的大型數(shù)據(jù)中心取得了大量寶貴樣本。讓他們感到震驚的是,關(guān)于Dram的錯(cuò)誤很常見(jiàn),而一些數(shù)據(jù)中心的重大宕機(jī)事故更是源自Dram失常。
以谷歌為例,他們發(fā)現(xiàn)12% 到45% 的谷歌機(jī)器每年至少會(huì)遇到一次 DRAM 錯(cuò)誤,有0.2%到4% 的機(jī)器由于 DRAM 錯(cuò)誤無(wú)法糾正而意外關(guān)閉。
而在以往,無(wú)論是大型數(shù)據(jù)中心還是個(gè)人電腦中,產(chǎn)業(yè)內(nèi)都會(huì)把Dram錯(cuò)誤更多歸咎于“軟性問(wèn)題”——根據(jù)IEEE雜志的解釋?zhuān)?dāng)物理設(shè)備在完全正常工作下,會(huì)受到某種短暫干擾(如宇宙射線(xiàn)產(chǎn)生的粒子)因而破壞了存儲(chǔ)數(shù)據(jù)。
但這個(gè)想法此前幾乎沒(méi)有充分的實(shí)驗(yàn)支撐,某種程度上就是缺乏樣本。沒(méi)錯(cuò),企業(yè)數(shù)據(jù)中心不愿透露,而實(shí)驗(yàn)室的樣本量又少。實(shí)際上,經(jīng)過(guò)他們的調(diào)查,結(jié)果令人震驚,其實(shí)大多數(shù)錯(cuò)誤來(lái)自“硬性錯(cuò)誤”。
沒(méi)錯(cuò),就是Dram芯片本身存在的問(wèn)題。
調(diào)查者獲得了谷歌某些數(shù)據(jù)中心的權(quán)限,在調(diào)查后發(fā)現(xiàn),是一小部分機(jī)器造成了大部分錯(cuò)誤。也就是說(shuō),錯(cuò)誤傾向于一次又一次地出現(xiàn)在相同的內(nèi)存模塊上。
那么我們?cè)囅胍幌拢绻擒浶藻e(cuò)誤,譬如某個(gè)射線(xiàn)粒子導(dǎo)致Dram失常,那么應(yīng)該被擊中的幾率是相同的。這就意味著,以前的論斷都是錯(cuò)誤的。
IEEE最后給出的解決方法偏向于云計(jì)算廠(chǎng)商,譬如,利用計(jì)算機(jī)操作系統(tǒng)來(lái)刪除和預(yù)測(cè)內(nèi)存錯(cuò)誤地址或內(nèi)存頁(yè)。
但從硬件角度來(lái)思考,云廠(chǎng)商恰恰能發(fā)現(xiàn)那些實(shí)驗(yàn)室和消費(fèi)端產(chǎn)品測(cè)試不出的硬件錯(cuò)誤,極有利于半導(dǎo)體廠(chǎng)商改進(jìn)和升級(jí)下一代硬件。
這可能也是云廠(chǎng)商一個(gè)個(gè)被戲稱(chēng)為“已變成CPU或存儲(chǔ)器公司”的最大原因之一。
但無(wú)論如何,從設(shè)計(jì)、制造、量產(chǎn)等綜合難度上,硬件需求量龐大的云廠(chǎng)商依然需要強(qiáng)依賴(lài)于半導(dǎo)體廠(chǎng)商。而云廠(chǎng)商的自我底層革新,以及與半導(dǎo)體巨頭的緊密合作,或許在3~5年里,會(huì)對(duì)我們國(guó)內(nèi)尚未壯大起來(lái)的存儲(chǔ)等其他方面的自研能力,有一些實(shí)質(zhì)性的幫助。
|
|
|
|
| 上一篇:互聯(lián)網(wǎng)醫(yī)療給VC/PE關(guān)上了大門(mén) 下一篇:動(dòng)力電池之后,上市公司、車(chē)企、機(jī)構(gòu)都盯上了這塊萬(wàn)億肥肉 |
貴州開(kāi)開(kāi)門(mén)投資管理有限公司
貴州貴孵創(chuàng)業(yè)孵化投資管理有限公司