發(fā)布日期:2022-07-14 點擊率:47
法同Intel為首的X86陣營甚至ARM公司競爭,藍色巨人IBM主推的Power架構一直處于曲高和寡的境地。與其類似的是,其一脈相傳的同門兄弟Cell/B.E(Cell Broadband Engine)如今的日子也不好過:這項IBM聯(lián)合索尼東芝共同開發(fā)的技術其未來在索尼宣布以億美元的價格將旗下芯片業(yè)務轉讓給東芝之后被蒙上了一層陰影。不過,在不久前在上海舉行的一場頒獎活動上,IBM中國開發(fā)中心下一代計算系統(tǒng)軟件和生態(tài)系統(tǒng)開發(fā)經理王遠洪展望了Cell/B.E.刀片服務器以及SDK的發(fā)展路線,顯示了該公司在此項技術上一如既往的熱情。他表示,未來Cell/B.E.將超越主要集中在游戲和HDTV等領域的現(xiàn)狀,向高性能計算、數字媒體、醫(yī)學影像、地震和金融服務等領域進軍。
關注未來兩類應用
簡單回顧一下Cell/B.E.的發(fā)展歷程。IBM、索尼和東芝公司于2000年宣布開始合作開發(fā)面向游戲設備的處理器。2001年,三方在美國德克薩斯州的奧斯汀投資4億美元成立了Cell開發(fā)中心。2004年春天,基于Power架構的第一代Cell處理器完成基本開發(fā)工作。幾個月后,每周期能夠分派兩個指令的第二代Cell處理器也很快誕生。2005年1月,備受矚目的Cell處理器終于第一次正式亮相。同年底,IBM發(fā)布了開放的源SDK軟件。2個月后,Cell三巨頭宣布將合作期限延長5年,并繼續(xù)開發(fā)基于32nm的Cell處理器。
王遠洪表示,與以往的同構多核架構不同,Cell處理器采用了異構多核的架構。由于每塊芯片包含了一個主處理單元(Power Processing Element,PPE)和八個協(xié)處理單元(Synergistic Processing Elements,SPE),并在設計時利用了分布式處理的理念,Cell/B.E.能夠利用將計算任務進行分解,從而利用多個處理單元同步進行子任務處理的方式進行工作,這令它特別適合于需要大量視頻、音頻、圖像處理的游戲機產品。因此就目前來看,Cell處理器的應用大戶依然第一個嘗鮮的PS3游戲機。此外,IBM也在嘗試將其推廣到刀片服務器中,已經推出的QS20和QS21刀片服務器就是在這方面的有益嘗試。據稱,該公司明年還會推出一款新的基于Cell/B.E.技術的刀片服務器。
F1:連接Cell/B.E.所有處理及輸入輸出單元的高速環(huán)形數據總線
在2007年10月舉行的CEATEC上,東芝展示了一款采用基于Cell/B.E.技術的圖像處理芯片SPURS Engine的筆記本電腦,并進行了以三維計算機動畫對從攝像頭輸入的面部圖像進行實時合成的演示。盡管SPURS Engine僅有4個SPE,主頻只有,并取消了PPE模塊,更像是一個精簡版的Cell處理器。但由于首次將Cell/B.E.技術引入消費電子領域,SPURS Engine的發(fā)布還是令Cell/B.E.的推崇者們備受鼓舞。
不過,無論在PS3還是在SPURS Engine上,強大的Cell/B.E.技術都只是小試牛刀。事實上,IBM重金打造Cell/B.E.的目的也的確不僅僅在于上述應用,而是未來的高性能多媒體技術時代。該公司聲稱,“Cell/B.E.可有效提供‘超級計算機般的性能’,特別適用于許多行業(yè)的高性能工作負載,包括數字媒體、醫(yī)療圖像、金融服務、航空航天、國防和通信行業(yè)。”
上述應用可被簡單的分為兩個大類。舉例來說,EDA設計中的半導體檢測、流體動力學、地震分析以及金融模型分析(股市期貨行情)等屬于分析理論、數據處理、信息合成分析的范疇;數字視頻監(jiān)控、多媒體和娛樂則被歸為數字成像、數據演示(Presentation of data)以及圖形化虛擬現(xiàn)實/成像分析一類。此外,航空航天與國防以及醫(yī)療成像由于高度的復雜性而同時具有兩類應用的特點。
就目前來看,在這場關于未來市場的爭奪戰(zhàn)中,IBM已經走到了其他競爭者的前頭。該公司已經贏得了來自美國能源部的一項開發(fā)合同。這臺名為RoadRunner的超級計算機將在位于新墨西哥州洛斯阿拉莫斯國家實驗室建造完成,由16,000顆Cell處理器和大致數量的AMD皓龍服務器芯片組成,峰值運算性能可達1.6 Peta flops,是此前全球速度最快的超級計算機BlueGeneL的4倍。
QS2X系列路景圖
已經披露的數據顯示,如果以Intel的Core 2 Duo CPU來進行上文所提的面部圖像的實時合成,即使CPU資源占用了80%,也只能勉強達到16fps的幀速,而SPURS Engine卻僅用30%的資源就可達到30fps,這顯示了Cell B./E.在處理圖像時的強大性能。Cell開發(fā)中心正在致力于Cell處理器性能的進一步提高。而王遠洪也披露了該公司在Cell/B.E.刀片服務器上的產品路景圖。
在2006年7月和9月相繼推出軟件開發(fā)工具包SDK1.1和QS20刀片服務器之后,IBM在在2007年3月推出了SDK2.1。10月份,又相繼推出了各自的升級版本SDK 3.0和QS21。與QS20相比,新版本最大的變化是如今每個BladeCenter刀片服務器機箱中最多可安裝14個QS21,比原來增加了一倍。QS21還增加了2GB I/O緩存。此外,其I/O還可支持16條單數據傳輸速率Infiniband線路。利用一個名為“交互式光線跟蹤器”的可擴展技術演示程序,IBM展示了其利用QS21來實時呈現(xiàn)傳統(tǒng)高性能計算環(huán)境需要花費數小時處理才能完成的復雜3D場景中的照片級清晰圖像。
王遠洪透露,該公司將在2008年上半年推出擁有兩個CBEA架構處理器的QS22,雖然仍然保持了1+8的基本結構,不過SPE卻升級到了專門針對雙精度浮點運算進行了優(yōu)化的eDP SPE,雙精度浮點預算能力從目前的42GFlops提高到217G Flops,緩存也提高到32GB,并將配備16個PCI Express插槽。此外,2008年還將發(fā)布兩款開發(fā)套件,分別是計劃在3月和12月發(fā)布的SDK 4.0和SDK 5.0。其中,SDK 4.0將采用增強型的刀片間協(xié)作架構,支持XL Fortran 11.1,擁有更多的生態(tài)系統(tǒng)支持能力。
IBM還計劃于2010年推出采用第一個Tereflop級CEBA架構處理器的刀片服務器。這款革命性的產品將包括2個PPE和32個eSPE。單精度浮點運算能力可能提高到2Teraflops,雙精度浮點運算能力也將增至1Teraflops,并將采用下一代存儲技術。
Beyond Gaming
作為這家公司試圖建立起被內核廠商們所追求的“生態(tài)系統(tǒng)”計劃的一部分,IBM已經在去年舉辦了首屆Power架構校園設計大賽,并在上海成立了Power架構應用開發(fā)中心。該公司如今開始嘗試將Cell/B.E.也納入到這一計劃中來。“隨著應用領域的不斷延伸,Cell/B.E.正在為不同行業(yè)的客戶提供著強大的計算動力。校園大賽將使這一技術在更多年輕人中得到推廣和普及。”IBM系統(tǒng)與科技事業(yè)部大中華區(qū)基礎架構解決方案總經理朱明表示。
IBM將這次比賽的主題定名為“Beyond Gaming”,該公司表示,參賽設計主要應用于涉及全行業(yè)的編程工具,包括一切以應用為導向的解決方案,例如:可視化、醫(yī)學成像、地震計算等高性能計算。,而來自中國高校的學生憑借在醫(yī)療、視頻、圖像以及網絡等方面的出色創(chuàng)新展示了強大實力,四所代表隊伍包攬了歐亞賽區(qū)的前四名。下面是這些項目的簡單介紹:
螺旋錐束CT(計算機斷面成像)是一種廣泛采用的醫(yī)療影像系統(tǒng)。精確重建算法的密集計算成本不允許在臨床使用這種新型重建算法。通過一個并行計算的計劃,上海交大的學生在CBEA架構上執(zhí)行了精確反投影卷積(Backprojection Filtration,BPF)重建算法,獲得了這次比賽的冠軍。
紋理合成算法在大規(guī)模場景制作,真實圖形繪制,計算機動畫與合成的游戲背景上具有廣泛的應用前景。在合成一個像素前,該算法會基于像素搜查每一個像素的樣本形象。由于采用了為Cell/B.E.而優(yōu)化的雙緩沖以及數據和任務并行技術,天津大學計算機科學與技術學院同學組成的團隊使得需要大量計算和內存訪問的環(huán)節(jié)變得簡單和快捷,為他們贏得亞軍的桂冠。
來自上海交大的另外一個團隊由于通過Cell/B.E.實現(xiàn)了實時高清編碼而取得了季軍。這一努力被分為兩部分:1.執(zhí)行和優(yōu)化編碼算法;2. 基于Cell/B.E.的算法分區(qū)和并行。通過平衡信息復雜度以充分適應所有硬件資源,編碼算法的計算復雜性能夠平等地分配到每一個處理器。通過仔細評估上述工作,基于Cell/B.E.的編碼速度得到大幅提高,實時高清編碼成為現(xiàn)實。
南京大學的學生通過他們的方案證明了Cell/B.E.架構在網格應用方面的強大性能。其“一種以Cell/B.E.驅動的網格空間”研究取得了本次比賽的第四名。“他們創(chuàng)造了一個基于Python和Cell/B.E.驅動的網格系統(tǒng)。”評審意見指出,“通過擴展Python的執(zhí)行,任何網格中的節(jié)點都可以訪問遍及網格的任何Python目標。同時,Python代碼被分割成片,蔓延到其它節(jié)點實現(xiàn)并行。更重要的是,即時編譯器能夠將Python VM代碼轉換成SPE指令,通過SPE獲得了巨大的加速度。”
作者:王彥