Procesory graficzne NVIDIA z serii RTX 3000: oto co nowego

1 września 2020 roku NVIDIA zaprezentowała nową linię kart graficznych do gier – serię RTX 3000, opartą na architekturze Ampere. W niniejszym artykule przyjrzymy się innowacjom wprowadzonym przez firmę, nowym oprogramowaniom wykorzystującym sztuczną inteligencję oraz wszystkim szczegółom, które sprawiają, że ta generacja jest wyjątkowa.

Odkryj karty graficzne z serii RTX 3000

NVIDIA zaprezentowała nowe, błyszczące układy GPU, które zostały stworzone w zaawansowanym procesie technologicznym 8 nm, oferując znaczące przyspieszenie w zakresie zarówno rasteryzacji, jak i śledzenia promieni.

Na najniższym poziomie znajduje się model RTX 3070, który kosztuje 499 USD. Choć cena wydaje się wysoka jak na najmniej kosztowną kartę zaprezentowaną przez NVIDIA, to okazuje się, że jest to świetna oferta, gdyż przewyższa wydajność RTX 2080 Ti, która dotychczas sprzedawana była za ponad 1400 USD. Po ogłoszeniu przez NVIDIA ceny kart na rynku wtórnym, wiele z nich sprzedawano na eBayu poniżej 600 USD, co wywołało panikę wśród klientów.

W chwili ogłoszenia brakowało wiarygodnych testów porównawczych, co rodzi pytania dotyczące rzeczywistej przewagi RTX 3070 nad 2080 Ti. Wstępne testy przeprowadzono w rozdzielczości 4K z włączonym RTX, co mogło skutkować większymi różnicami w wynikach, niż w grach tradycyjnie rasteryzowanych. Seria 3000, oparta na architekturze Ampere, ma znaczącą przewagę w zakresie wydajności ray tracingu w porównaniu do Turing. Ponieważ ray tracing nie wpływa znacząco na wydajność i jest obsługiwany przez najnowsze konsole, główną zaletą jest uzyskanie wyników zbliżonych do flagowego modelu zeszłej generacji za około jedną trzecią ceny.

Nie jest również pewne, jak długo cena pozostanie na tym poziomie. Ceny na rynku wtórnym często wzrastają o co najmniej 50 USD, a przy tak dużym popycie, nie zdziwiłoby mnie, gdyby w październiku 2020 roku cena wzrosła do 600 USD.

Nieco droższy jest model RTX 3080, który kosztuje 699 USD i powinien być dwukrotnie szybszy od RTX 2080, a także około 25-30% szybszy od RTX 3070.

Na szczycie gamy znajduje się RTX 3090, który jest ogromny. NVIDIA określa go mianem „BFGPU”, co jest skrótem od „Big Ferocious GPU”.

NVIDIA nie podała konkretnych wskaźników wydajności, ale demonstrowała, że karta jest w stanie obsługiwać gry w rozdzielczości 8K przy 60 klatkach na sekundę, co robi ogromne wrażenie. Prawdopodobnie w tym przypadku użyta została technologia DLSS, ale bez wątpienia 8K to 8K.

Oczywiście w przyszłości pojawią się modele 3060 i inne, które będą skierowane do bardziej budżetowych użytkowników, ale zazwyczaj są one wprowadzane na rynek później.

Aby skutecznie chłodzić nowe modele, NVIDIA wprowadziła nową konstrukcję. Model 3080 ma zapotrzebowanie na moc na poziomie 320 watów, co jest stosunkowo wysokie, dlatego zdecydowano się na system z dwoma wentylatorami. Jednak zamiast umieszczać je na dole, wentylator został umieszczony na górze, co pozwala na kierowanie powietrza w stronę chłodnicy procesora i górnej części obudowy.

Decyzja ta jest uzasadniona, biorąc pod uwagę, jak negatywnie może wpłynąć zły przepływ powietrza w obudowie na wydajność. Niemniej jednak, ciasne ułożenie elementów na płytce drukowanej może wpłynąć na ceny na rynku wtórnym.

DLSS: korzyści z oprogramowania

Śledzenie promieni to nie jedyna zaleta nowych kart graficznych. W rzeczywistości, seria RTX 2000 i 3000 nie oferuje znacznej poprawy w rzeczywistych obliczeniach ray tracingu w porównaniu do starszych generacji. W przypadku pełnego śledzenia promieni w oprogramowaniu 3D, takim jak Blender, proces ten często zajmuje kilka sekund lub minut na klatkę, co czyni niemożliwym uzyskanie wyników poniżej 10 milisekund.

Oczywiście istnieją dedykowane rdzenie do obliczeń związanych z ray tracingiem, jednak NVIDIA przyjęła inne podejście, udoskonalając algorytmy odszumiania. Dzięki nim, układy graficzne mogą renderować tani przebieg, który wygląda źle, a następnie, za pomocą sztucznej inteligencji, przekształcić ten obraz w coś, co przyciąga wzrok gracza. Połączenie tradycyjnych technik rasteryzacji z efektami ray tracingu zapewnia fantastyczne wrażenia wizualne.

Aby przyspieszyć ten proces, NVIDIA dodała rdzenie Tensor, które są specjalnie zaprojektowane do przetwarzania obliczeń związanych ze sztuczną inteligencją. Dzięki nim możliwe jest szybkie przetwarzanie wszystkich obliczeń wymaganych do uruchamiania modeli uczenia maszynowego. Te rdzenie stanowią przełom w dziedzinie AI w chmurze, ponieważ wiele firm korzysta z sztucznej inteligencji.

Jednym z głównych zastosowań rdzeni Tensor w grach jest DLSS, czyli superpróbkowanie oparte na głębokim uczeniu. Technologia ta umożliwia przekształcenie obrazu o niższej jakości w natywną jakość. Oznacza to, że gracze mogą cieszyć się płynnością 1080p, uzyskując przy tym obraz w jakości 4K.

Dzięki DLSS następuje również poprawa wydajności w zakresie ray tracingu – testy przeprowadzone przez PCMag pokazują, że RTX 2080 Super w grze Control, przy najwyższych ustawieniach ray tracingu w 4K osiąga jedynie 19 FPS, podczas gdy z włączonym DLSS uzyskuje znacznie lepsze 54 FPS. DLSS stanowi darmowe przyspieszenie wydajności, możliwe dzięki rdzeniom Tensor w architekturze Turing i Ampere. Każda gra, która obsługuje tę technologię, może zyskać znaczące przyspieszenie wydajności tylko dzięki oprogramowaniu.

DLSS nie jest nową funkcją; została wprowadzona wraz z premierą serii RTX 2000 dwa lata temu. Wówczas była obsługiwana jedynie przez nieliczne tytuły, ponieważ wymagała od NVIDIA przeszkolenia i dostosowania modelu uczenia maszynowego dla każdej gry.

Jest jednak pewien haczyk – podczas całkowitego przełączania scen, na przykład w przerywnikach filmowych, DLSS 2.0 musi renderować pierwszą klatkę w jakości 50%, czekając na dane wektora ruchu. Może to skutkować chwilowym spadkiem jakości na kilka milisekund, ale 99% tego, co oglądasz, jest renderowane poprawnie, a większość użytkowników nie zauważa tego w praktyce.

Architektura Ampere: zaprojektowana dla sztucznej inteligencji

Ampere to niezwykle szybka architektura, szczególnie w obliczeniach związanych z AI. Rdzeń RT jest 1,7 razy szybszy od Turinga, a nowy rdzeń Tensor osiąga 2,7 razy wyższą wydajność w porównaniu do Turinga. Połączenie tych dwóch elementów stanowi prawdziwy przełom w wydajności ray tracingu.

W maju 2020 roku NVIDIA wprowadziła procesor graficzny Ampere A100, przeznaczony dla centrów danych i sztucznej inteligencji. W szczególności opisano, co sprawia, że Ampere jest znacznie szybszy. W kontekście centrów danych i obciążeń obliczeniowych o wysokiej wydajności Ampere jest około 1,7 razy szybszy od Turinga, a w przypadku treningu AI osiąga nawet sześciokrotną przewagę.

NVIDIA w architekturze Ampere zastosowała nowy format liczb, który ma na celu zastąpienie standardu branżowego „32 zmiennoprzecinkowe” (FP32). W przypadku obliczeń komputerowych liczby są reprezentowane w pamięci przy użyciu wcześniej zdefiniowanej liczby bitów. W przypadku FP32 przechowywana jest 32-bitowa liczba, z czego 8 bitów przeznaczone jest na zakres liczby, a 23 bity na precyzję. NVIDIA twierdzi, że nie wszystkie te bity są niezbędne dla wielu obliczeń związanych ze sztuczną inteligencją, co pozwala osiągnąć podobne wyniki przy użyciu zaledwie 10 bitów. Zmniejszenie rozmiaru do 19 bitów zamiast 32 prowadzi do znacznych korzyści wydajnościowych.

Nowy format nosi nazwę Tensor Float 32, a rdzenie Tensor w A100 są zoptymalizowane do przetwarzania tego formatu. Umożliwia to osiągnięcie sześciokrotnego przyspieszenia w treningu AI, przy jednoczesnym zmniejszeniu rozmiaru matrycy i zwiększeniu liczby rdzeni.

Dodatkowo architektura Ampere oferuje znaczne przyspieszenie wydajności w obliczeniach FP32 i FP64. Chociaż te zmiany nie przekładają się bezpośrednio na większą liczbę klatek na sekundę, są częścią tego, co sprawia, że jest on prawie trzykrotnie szybszy w operacjach związanych z tensorami.

Aby jeszcze bardziej zwiększyć wydajność obliczeń, NVIDIA wprowadziła koncepcję drobnoziarnistej struktury rzadkiej, co oznacza, że sieci neuronowe operują na dużych zbiorach danych, zwanych wagami, które wpływają na ostateczny wynik. Im więcej danych, tym wolniej działają obliczenia.

Jednak nie wszystkie liczby są użyteczne; niektóre z nich są zerowe i można je zignorować, co pozwala na znaczne przyspieszenie, gdy możemy przetwarzać więcej danych jednocześnie. Rzadkość kompresuje te dane, co sprawia, że obliczenia są mniej zasobożerne. Nowe rdzenie „Sparse Tensor” są zaprojektowane do działania na skompresowanych danych.

NVIDIA zapewnia, że wprowadzone zmiany nie wpłyną na dokładność trenowanych modeli.

W przypadku obliczeń rzadkich INT8, które wykorzystują jeden z najmniejszych formatów liczb, maksymalna wydajność pojedynczego GPU A100 wynosi ponad 1,25 PetaFLOP, co jest imponującą liczbą. Oczywiście to osiągnięcie dotyczy tylko jednego rodzaju obliczeń, ale mimo to robi ogromne wrażenie.