Zinrai Deep Learning System

Deep Learning to proces, w którym komputer uczy się zadań typowych dla ludzkiego mózgu. Zamiast organizować dane i wykonywać szereg równań, komputer zbiera podstawowe parametry dotyczące danych i przygotowuje się do samodzielnego uczenia, poprzez rozpoznawanie wzorców. Przykładem użycia głębokiego uczenia jest rozpoznawanie głosu przez takie aplikacje jak Siri oraz Google Assistant.

Trenowanie sieci neuronicznych używając pojedynczej precyzji (FP32) jest już przestarzałe i wymaga ogromnej mocy obliczeniowej oraz zużywa dużo energii, co powoduje emisję wysokich ilości CO2 do atmosfery. Pytanie brzmi: Jak możemy wykorzystać zalety Deep Learningu jednocześnie dbając o środowisko?

Odpowiedzią na to pytanie jest Zinrai Deep Learning System (ZDLS) napędzany procesorem Deep Learning Unit (DLU) – unikatowym procesorem SI zaprojektowany przez Fujitsu, który jest zoptymalizowany do głębokiego uczenia. ZDLS razem z DLU zużywają mniej zasobów i energii, co pozwala organizacjom uniknąć ryzyka rosnącej emisji dwutlenku węgla generowanego przez dzisiejsze systemy DL.

Czym wyróżnia się DLU, procesor zaprojektowany do głębokiego uczenia?

Używa heterogenicznej architektury, tzn. połączenie kilku dużych rdzeni (Master) oraz wielu mniejszych rdzeni wykonawczych (DPU – Deep Learning Processing Unit), co pozwoli zwiększyć wydajność jednocześnie zmniejszając zużycie energii w porównaniu do architektury homogenicznej. Rdzeń Master odpowiada za dostęp do pamięci oraz kontroluje pracę rdzeni wykonawczych DPU. Każdy z rdzeni wykonawczych DPU składa się z 16 jednostek DPE (Deep Learning Processing Element), jedna jednostka DPE zawiera 8 jednostek wykonawczych SIMD (pojedyncza instrukcja, wiele danych) oraz blok rejestrów. DLU nie posiada pamięci cache, zamiast tego wykorzystuje duży blok rejestrów, co pozwala na uwolnienie pełnego potencjału procesora, gdyż blok rejestrów jest szybszy od pamięci cache i może być w pełni kontrolowany za pomocą software’u.

DLU

DPU

Zmienne typu DL-INT – Deep Learning Integer

Zmienne DL-INT pozwolą na osiągnięcie precyzji zbliżonej do FP32, używając jedynie 8 lub 16 bitowych danych, co przyspieszy wykonywanie obliczeń oraz zmniejszy zużycie energii. Według zapewnień Fujitsu, do wykonania tych samych obliczeń wykorzystane zostanie 75% mniej danych.

Unikatowa technologia interconnect – Tofu Interconnect

Tofu Interconnect osiąga wysoką skalowalność powyżej 100.000 węzłów, wysoką wydajność, dostępność oraz niezawodność. Topologia sieci to skalowalna, sześciowymiarowa siatka/torus, co umożliwia efektywną komunikację między oddalonymi węzłami oraz izolowanie wadliwie pracujących węzłów. Przepustowość łącza wynosi 6.8GB/s w każdym kierunku, a każdy węzeł może komunikować się w sześciu kierunkach jednocześnie. Technologia Tofu Interconnect jest wykorzystywana w superkomputerach Fujitsu – K, PRIMEHPC FX10, PRIMEHPC FX100 i jej najnowsze wydanie pozwala osiągnąć wydajność powyżej 100 Petaflopów (w superkomputerze PRIMEHPC FX100).

Fujitsu chce osiągnąć dziesięciokrotnie wyższą wydajność na wat w porównaniu do konkurencji. Biorąc pod uwagę dotychczasowe sukcesy Fujitsu w dziedzinie superkomputerów (superkomputer K, zbudowany w 2011 roku nadal zajmuje pierwsze miejsce w benchmarku Graph500 oraz trzecie w HPCG) jesteśmy przekonani, że Fujitsu spełni swoje obietnice i dostarczy najbardziej wydajne i energooszczędne rozwiązanie do głębokiego uczenia.

Posted by Adrian Puszer paź 8, 2019 General 0 Comments