第88部分(第4/4 頁)
etaFlops(即每秒1。5億億次),現在克里按照單純的多路伺服器模擬出來的軟體泰坦II,效能卻只有其三十分之一左右。
這是怎麼回事呢?
杜克回頭仔細研究起泰坦II的組成,網路上這方面的材料不少,杜克看了看泰坦II使用的計算單元,才知道原來自己想得還是差了一些,因為在泰坦II的構成中其中計算陣列、服務陣列分別由採用通用處理器(CPU)的計算節點機、服務節點機構成,而加速陣列則由基於圖形加速處理器(GPU)的大量加速節點機構成,是一種“CPU+GPU”的異構協同計算。
因為單純從浮點運算能力來說,一顆GPU的浮點運算能力相當於CPU的幾十倍甚至幾百倍,而且GPU的視訊記憶體頻寬可達CPU的十倍以上,而且延遲更低,對外資料吞吐能力也比CPU要強。
所以在設計的時候,對於單純的浮點運算部分,如果用同等規模的GPU組成超級計算機的話,那麼這個節點的浮點運算能力將提升百倍之多。而CPU的優勢是在計算邏輯性較強、資料結構比較複雜的計算方面。
考慮到無論是核反應模擬計算也好,還是氣候推測模擬也好,都涉及到大量的浮點運算,所以在泰坦II系統中也採用了這種“CPU+GPU”異構協同架構,大量使用了女IDIA公司生產的TeslaK20GPU作為主要浮點運算部件。
好在採用這種異構的不僅僅只有超級計算機,還有諸多的企業級伺服器可以選擇,杜克吩咐庫賽當天就在波士頓買了一臺。
為了確保模擬出來的泰坦II和實驗室中真實泰坦II保持一致,這次杜克去實驗室拿到了泰坦II詳細的CPU和GPU組成結構資料,這個引數又不是什麼秘密,所以當克里完成了TeslaK20GPU的軟體模擬工作後,重新按照泰坦II架構實現了軟體模擬。
16。5petaFlops!當軟體模擬的泰坦II測試出來這個結果,杜克激動了,克里終於實現了對於泰坦II的再現,根據泰坦II系統原始碼版本重新編譯出來的系統,也成功地執行在克�
本章未完,點選下一頁繼續。