Na konferencji Hot Chips 34 firma NVIDIA przedstawia procesor graficzny Hopper H100, dając nam przedsmak tego, co architektura 4th Gen Tensor Core ma do zaoferowania.
Podczas gdy AMD stosuje podejście MCM w swoich procesorach graficznych HPC, NVIDIA zdecydowała się na razie pozostać przy konstrukcji monolitycznej. Ich Hopper H100 jest jednym z największych procesorów graficznych wykonanych w procesie technologicznym 4N firmy TSMC, który został zoptymalizowany i wykonany wyłącznie dla NVIDIA.
Procesor graficzny H100 jest układem o bardzo dużej mocy, wykonanym w technologii 4nm i zawierającym 80 miliardów tranzystorów oraz pamięć HBM3. H100 zbudowany jest na płycie PCB PG520, która posiada ponad 30 układów VRM i masywny, zintegrowany interpozytor, który wykorzystuje technologię CoWoS firmy TSMC, aby połączyć procesor graficzny Hopper H100 z 6-warstwową konstrukcją HBM3. Niektóre z głównych technologii zastosowanych w GPU Hopper H100 obejmują:
- 132 SMs (2x Performance Per Clock)
- 4th Gen Tensor Cores
- Thread Block Clusters
- 2nd Gen Multi-Instance GPU
- Confidential Computing
- PCIe Gen 5.0 Interface
- HBM3 DRAM
- 50 MB L2 Cache
- 4th Gen NVLink (900 GB/s Total Bandwidth)
- New SHARP support
- NVLink Network
Nowy standard HBM3 pozwala jednak na uzyskanie nawet 80 GB pojemności przy prędkości 3 TB/s. Dla porównania obecna najszybsza karta graficzna do gier RTX 3090 Ti oferuje zaledwie 1 TB/s przepustowości i 24 GB pojemności VRAM. Poza tym procesor graficzny H100 Hopper wyposażono również w ostatni format danych FP8, a dzięki nowemu złączu SXM można zbudować konstrukcję zasilania zdolną pobrać 700 Watów. Układ oferuje także dwukrotnie wyższe prędkości FMA w formatach FP32 i FP64 oraz 256 KB pamięci podręcznej L1.
Przechodząc do specyfikacji, procesor graficzny NVIDIA Hopper GH100 składa się z 144 jednostek obliczeniowych SM (Streaming Multiprocessor), które znajdują się w sumie w 8 GPC. Te GPC składają się z 9 TPC, które są dodatkowo złożone z 2 jednostek SM każda. Daje to nam 18 jednostek SM na GPC i 144 na całą konfigurację 8 GPC. Każdy SM składa się z maksymalnie 128 jednostek FP32, co powinno dać nam łącznie 18,432 rdzeni CUDA.
Pamięć podręczna to kolejny obszar, któremu NVIDIA poświęciła wiele uwagi, zwiększając ją do 48 MB w procesorze Hopper GH100. Jest to wzrost o 20% w stosunku do 50 MB pamięci podręcznej w procesorze graficznym Ampere GA100 i 3x większy niż w przypadku flagowego procesora Aldebaran MCM firmy AMD, MI250X.
Podsumowując dane dotyczące wydajności, procesor graficzny NVIDIA GH100 Hopper będzie oferował 4000 TFLOPs wydajności obliczeniowej w trybie FP8, 2000 TFLOPs w trybie FP16, 1000 TFLOPs w trybie TF32 i 60 TFLOPs w trybie FP64. Te rekordowe liczby dziesiątkują wszystkie inne akceleratory HPC, które pojawiły się przed nim. Dla porównania, jest on 3,3x szybszy niż własny procesor graficzny A100 firmy NVIDIA i 28% szybszy niż Instinct MI250X firmy AMD w obliczeniach FP64. W obliczeniach FP16, GPU H100 jest 3x szybszy niż A100 i 5.2x szybszy niż MI250X, co jest dosłownie bonkersem.
Wariant PCIe, który jest okrojonym modelem, został niedawno wystawiony w Japonii za ponad 30 000 dolarów, więc można sobie wyobrazić, że wariant SXM z mocniejszą konfiguracją i lepszym układem zasilania będzie kosztował około 50 tysięcy dolarów.