Tesla vs GeForce

Porównanie kart NVIDIA Tesla, Quadro, Titan i GeForce w zakresie wykorzystania
do obliczeń numerycznych i aplikacjach Deep Learning

Prawie wszystkie współczesne procesory graficzne NVIDIA obsługują obliczenia wykonywane na GPU, ale nie wszystkie GPU oferują taką samą wydajność lub takie same funkcje. Linia konsumencka kart GPU GeForce może wydawać się atrakcyjna dla tych, którzy korzystają z aplikacji wykonujących obliczenia na GPU. Warto jednak pamiętać o różnicach między produktami przeznaczonymi na rynek konsumencki lub profesjonalny. Istnieje wiele funkcji dostępnych jedynie dla profesjonalnych procesorów Tesla lub Quadro.

Wielkość pamięci GPU

Ogólnie rzecz biorąc, im więcej pamięci tym system będzie działał szybciej. W przypadku niektórych aplikacji HPC nawet nie można wykonać obliczeń, jeśli nie ma wystarczającej ilości pamięci. Dla niektórych aplikacji wierność wyników ulegnie zniekształceniu, chyba że dostępna jest wystarczająca ilość pamięci GPU. GPU Tesla oferują zazwyczaj dwukrotnie większą pamięć niż GeForce. Dodatkowo, w kartach Tesla / Quadro (Pascal) funkcja Unified Memory umożliwia GPU dzielenie się pamięcią, aby załadować nawet większe zestawy danych.

48GB	32GB	24 GB	11 GB
Quadro RTX 8000 Passive	Tesla V100/V100s	Quadro RTX 6000 Passive	RTX 2080 Ti
Quadro RTX 8000	Quadro GV100	Quadro RTX 6000	GTX 1080 Ti
		Quadro P6000
		Titan RTX

Wydajność pamięci GPU

Szybki dostęp do danych ma kluczowe znaczenie. W przypadku wielu aplikacji HPC zwiększenie wydajności obliczeniowej nie pomaga, jeśli wydajność pamięci nie jest wystarczająca. Z tego powodu GPU Tesla zapewniają wyższe transfery danych od / do pamięci niż karty GeForce.

1134 GB/s	900 GB/s	868 GB/s	672 GB/s	670 GB/s	624 GB/s	616 GB/s	448 GB/s
Tesla V100s	Tesla V100	Quadro GV100	Titan RTX	Quadro RTX 8000	Quadro RTX 8000 Passive	RTX 2080 Ti	GTX 1080TI
				Quadro RTX 6000	Quadro RTX 6000 Passive

Wykrywanie i korekcja błędów pamięci (ECC)

Aplikacje do obliczeń bazują na dokładności danych uzyskanych z GPU. W przypadku niektórych aplikacji pojedynczy błąd może powodować, że całe obliczenia są całkowicie błędne. W innych aplikacjach pojedynczy błąd może nie być łatwy do wykrycia (zwracanie nieprawidłowych wyników, które wydają się poprawne). Procesory graficzne GeForce nie posiadają możliwości korekcji lub wykrywania błędów. Ani GPU, ani system nie mogą ostrzegać przed tym użytkownika. To użytkownik musi zaprogramować możliwość wykrycia błędów (np. czy to powoduje awarie aplikacji lub nieprawidłowe wyniki). Takie problemy nie są rzadkie i mogą wystąpić na kartach konsumenckich przeznaczonych dla gier. W przypadku gry komputerowej jeden błąd pamięci zwykle nie powoduje problemów (np. jeden kolor piksela może być niepoprawny). Gracz nawet nie zdaje sobie sprawy z problemu. Procesory graficzne NVIDIA Tesla i niektóre Quadro mogą poprawiać, wykrywać i ostrzegać o błędach. W najnowszych modelach GPU Tesla P100 i Quadro GP100 wsparcie ECC znajduje się w głównej pamięci HBM2, a także w plikach rejestru, współdzielonych pamięciach, pamięci podręcznej L1 i pamięci podręcznej L2.

GPU Direct RDMA

Technologia GPU-Direct firmy NVIDIA umożliwia znaczną poprawę szybkości przesyłania danych między GPU. RDMA (Remote Direct Memory Access) zapewnia największe korzyści z technologii GPU-Direct. Tradycyjnie przesyłanie danych między układami GPU klastra wymagało trzech kopii pamięci (raz na pamięć systemu GPU, raz na pamięć systemu CPU i raz na pamięć sterownika InfiniBand). GPU Direct RDMA usuwa konieczność tworzenia kopii pamięci systemowych, umożliwiając GPU wysyłanie danych bezpośrednio przez połączenie InfiniBand do zdalnego systemu. W praktyce spowodowało to ok. 70% zmniejszenie opóźnień i ponad czterokrotny wzrost przepustowości dla małych rozmiarów pakietów MPI. W wersji CUDA 8.0 firma NVIDIA wprowadziła GPU Direct RDMA ASYNC, która umożliwia GPU inicjowanie transferu RDMA bez jakiejkolwiek interakcji z procesorem. Procesory graficzne GeForce nie obsługują GPU-Direct RDMA. Mimo że wywołania MPI będą przesyłane pomyślnie, transfery będą przeprowadzane za pośrednictwem standardowych ścieżek kopiowania pamięci. Jedyną formą GPU-Direct obsługiwaną na kartach GeForce jest GPU Direct Peer-to-Peer (P2P). Pozwala to na transfery w pojedynczym komputerze ale nie ma zastosowania w przypadku aplikacji działających na wielu serwerach lub węzłach obliczeniowych. Procesory GPU Tesla mają pełne wsparcie dla GPU Direct RDMA oraz dodatkowych funkcji z technologii GPU Direct.
Więcej informacji:
https:/developer.nvidia.com/gpudirect

Wspieranie aplikacji

Niektóre programy są w stanie działać na dowolnym GPU obsługującym technologię Nvidia CUDA, inne są zaprojektowane i zoptymalizowane pod kątem wykorzystania GPU z serii kart profesjonalnych. Większość profesjonalnych pakietów oprogramowania które wykorzystują obliczenia na GPU oficjalnie obsługuje tylko procesory graficzne NVIDIA Tesla i Quadro. Korzystanie z GPU GeForce może być możliwe, ale nie będzie obsługiwane przez dostawcę oprogramowania. W niektórych przypadkach aplikacje w ogóle nie działają po uruchomieniu na kartach GeForce.
Więcej informacji:
http:/pny.quadrok-selector.com/en
http:/www.nvidia.com/object/gpu-applications.html

Wsparcie dla systemu operacyjnego Windows

Aktualnie brak jest sterowników dla kart GeForce dla systemów operacyjnych Windows Server. Procesory graficzne GeForce są obsługiwane tylko w systemach Windows 7, Windows 8 i Windows 10. Użytkownicy korzystający z systemu Windows Server powinni korzystać z profesjonalnych produktów NVIDIA Tesla lub Quadro.
Więcej informacji:
http:/www.nvidia.pl/Download/index.aspx?lang=pl

Możliwości monitorowania i zarządzania pracą GPU w serwerach

Funkcje monitorowania i możliwość zarządzania GPU, które są niezbędne przy zarządzaniu wieloma serwerami GPU są obsługiwane na profesjonalnych układach GPU Tesla. NVIDIA Data Center GPU Manager (DCGM) dostarcza administratorom klastrów dodatkowe narzędzia do zarządzania GPU. Administratorzy systemów mają możliwość implementacji zasad systemowych, monitorowania stanu układów GPU, diagnozowania zdarzeń systemowych i maksymalizowania wydajności centrum danych. NVML służy do monitorowania i zarządzania stanem i możliwościami każdego GPU. Umożliwia to dostęp do GPU i obsługę wielu aplikacji i narzędzi innych firm. Ponad połowa funkcji nie jest dostępna na kartach GeForce.
Więcej informacji:
http:/www.nvidia.pl/page/software-for-tesla-products.html

Cykl życia produktu

Ze względu na charakter rynku konsumenckiego, produkty GeForce mają stosunkowo krótki cykl życia (zwykle nie dłużej niż rok między wydaniem produktu a końcem produkcji). Projekty, które wymagają dostępu do danego produktu w dłuższym czasie (np. takie, które mogą wymagać części zamiennych w przeciągu trzech lat po zakupie), powinny być z serii produktów przeznaczonych dla profesjonalnych zastosowań. Profesjonalne produkty GPU Tesla i Quadro firmy NVIDIA mają dłuższy okres eksploatacji i długoterminowe wsparcie ze strony producenta. Ponadto produkty przeznaczone na rynek profesjonalny przechodzą dokładniejszy proces testowania i sprawdzania podczas produkcji.

Gwarancja

Gwarancja firmy NVIDIA na produkty GPU GeForce wyraźnie stwierdza, że produkty GeForce nie są przeznaczone do instalacji w serwerach. Uruchamianie kart GPU GeForce w serwerach może spowodować unieważnienie gwarancji. Z witryny producenta firmy NVIDIA odnośnie gwarancji: „Produkt objęty gwarancją jest przeznaczony tylko dla użytkowników końcowych i nie jest przeznaczony do komercyjnych wdrożeń w centrum przetwarzania danych i / lub przedsiębiorstwach. Wszelkie użycie Produktu do Użytku korporacyjnego powoduje unieważnienie tej gwarancji.”
Więcej informacji:
http:/www.nvidia.com/object/manufacturer_warranty.html
http:/www.pny.eu/legal/warranty/pl
http:/warranty.pny.eu/terms.html

05.03.2018 (aktuaizacja 04.03.2020)