Porównanie kart NVIDIA Tesla, Quadro,
Titan i
GeForce w zakresie
wykorzystania
do obliczeń numerycznych i aplikacjach Deep
Learning |
Prawie wszystkie współczesne procesory graficzne NVIDIA obsługują obliczenia wykonywane na GPU, ale nie wszystkie GPU oferują taką samą wydajność lub takie same funkcje.
Linia konsumencka kart GPU GeForce może wydawać się atrakcyjna dla tych, którzy korzystają z aplikacji wykonujących obliczenia na GPU. Warto jednak pamiętać o różnicach między produktami przeznaczonymi na rynek konsumencki lub profesjonalny. Istnieje wiele funkcji dostępnych jedynie dla profesjonalnych procesorów Tesla lub Quadro.
Wielkość pamięci GPU
Ogólnie rzecz biorąc, im więcej pamięci tym system będzie działał szybciej.
W przypadku niektórych aplikacji HPC nawet nie można wykonać obliczeń, jeśli
nie ma wystarczającej ilości pamięci. Dla niektórych aplikacji wierność
wyników ulegnie zniekształceniu, chyba że dostępna jest wystarczająca ilość
pamięci GPU. GPU Tesla oferują zazwyczaj dwukrotnie większą pamięć niż GeForce.
Dodatkowo, w kartach Tesla / Quadro (Pascal) funkcja Unified Memory umożliwia GPU dzielenie się pamięcią, aby załadować nawet większe zestawy danych.
Wydajność pamięci GPU
Szybki dostęp do danych ma kluczowe znaczenie. W przypadku wielu aplikacji
HPC zwiększenie wydajności obliczeniowej nie pomaga, jeśli wydajność pamięci
nie jest wystarczająca. Z tego powodu GPU Tesla zapewniają wyższe transfery
danych od / do pamięci niż karty GeForce.
Wykrywanie i korekcja błędów pamięci (ECC)
Aplikacje do obliczeń bazują na dokładności danych uzyskanych z GPU. W przypadku niektórych aplikacji pojedynczy błąd może powodować, że całe obliczenia są całkowicie błędne. W innych aplikacjach pojedynczy błąd może nie być łatwy do wykrycia (zwracanie nieprawidłowych wyników, które wydają się poprawne).
Procesory graficzne GeForce nie posiadają możliwości korekcji lub wykrywania błędów. Ani GPU, ani system nie mogą ostrzegać przed tym użytkownika. To użytkownik musi zaprogramować możliwość wykrycia błędów (np. czy to powoduje awarie aplikacji lub nieprawidłowe wyniki).
Takie problemy nie są rzadkie i mogą wystąpić na kartach konsumenckich przeznaczonych dla gier.
W przypadku gry komputerowej jeden błąd pamięci zwykle nie powoduje problemów (np. jeden kolor piksela może być niepoprawny). Gracz nawet nie zdaje sobie sprawy z problemu.
Procesory graficzne NVIDIA Tesla i niektóre Quadro mogą poprawiać, wykrywać i ostrzegać o błędach. W najnowszych modelach GPU Tesla P100 i Quadro GP100 wsparcie ECC znajduje się w głównej pamięci HBM2, a także w plikach rejestru, współdzielonych pamięciach, pamięci podręcznej L1 i pamięci podręcznej L2.
GPU Direct RDMA
Technologia GPU-Direct firmy NVIDIA umożliwia znaczną poprawę szybkości przesyłania danych między GPU. RDMA (Remote Direct Memory Access) zapewnia największe korzyści z technologii
GPU-Direct.
Tradycyjnie przesyłanie danych między układami GPU klastra wymagało trzech kopii pamięci (raz na pamięć systemu GPU, raz na pamięć systemu CPU i raz na pamięć sterownika InfiniBand). GPU Direct RDMA usuwa konieczność tworzenia kopii pamięci systemowych, umożliwiając GPU wysyłanie danych bezpośrednio przez połączenie InfiniBand do zdalnego systemu. W praktyce spowodowało to ok. 70% zmniejszenie opóźnień i ponad czterokrotny wzrost przepustowości dla małych rozmiarów pakietów MPI.
W wersji CUDA 8.0 firma NVIDIA wprowadziła GPU Direct RDMA ASYNC, która umożliwia GPU inicjowanie transferu RDMA bez jakiejkolwiek interakcji z procesorem.
Procesory graficzne GeForce nie obsługują GPU-Direct RDMA. Mimo że wywołania MPI będą przesyłane pomyślnie, transfery będą przeprowadzane za pośrednictwem standardowych ścieżek kopiowania pamięci. Jedyną formą GPU-Direct obsługiwaną na kartach GeForce jest GPU Direct Peer-to-Peer (P2P). Pozwala to na transfery w pojedynczym komputerze ale nie ma zastosowania w przypadku aplikacji działających na wielu serwerach lub węzłach obliczeniowych.
Procesory GPU Tesla mają pełne wsparcie dla GPU Direct RDMA oraz dodatkowych funkcji z technologii GPU Direct.
Więcej informacji:
https:/developer.nvidia.com/gpudirect
Wspieranie aplikacji
Niektóre programy są w stanie działać na dowolnym GPU obsługującym technologię Nvidia CUDA, inne są zaprojektowane i zoptymalizowane pod kątem wykorzystania GPU z serii kart profesjonalnych. Większość profesjonalnych pakietów oprogramowania które wykorzystują obliczenia na GPU oficjalnie obsługuje tylko procesory graficzne NVIDIA Tesla i Quadro. Korzystanie z GPU GeForce może być możliwe, ale nie będzie obsługiwane przez dostawcę oprogramowania.
W niektórych przypadkach aplikacje w ogóle nie działają po uruchomieniu na kartach GeForce.
Więcej informacji:
http:/pny.quadrok-selector.com/en
http:/www.nvidia.com/object/gpu-applications.html
Wsparcie dla systemu operacyjnego Windows
Aktualnie brak jest sterowników dla kart GeForce dla systemów operacyjnych Windows Server. Procesory graficzne GeForce są obsługiwane tylko w systemach Windows 7, Windows 8 i Windows 10. Użytkownicy korzystający z systemu Windows Server powinni korzystać z profesjonalnych produktów NVIDIA Tesla lub Quadro.
Więcej informacji:
http:/www.nvidia.pl/Download/index.aspx?lang=pl
Możliwości monitorowania i zarządzania pracą GPU w serwerach
Funkcje monitorowania i możliwość zarządzania GPU, które są niezbędne przy zarządzaniu wieloma serwerami GPU są obsługiwane na profesjonalnych układach GPU Tesla.
NVIDIA Data Center GPU Manager (DCGM) dostarcza administratorom klastrów dodatkowe narzędzia do zarządzania GPU. Administratorzy systemów mają możliwość implementacji zasad systemowych, monitorowania stanu układów GPU, diagnozowania zdarzeń systemowych i maksymalizowania wydajności centrum danych.
NVML służy do monitorowania i zarządzania stanem i możliwościami każdego GPU.
Umożliwia to dostęp do GPU i obsługę wielu aplikacji i narzędzi innych firm.
Ponad połowa funkcji nie jest dostępna na kartach GeForce.
Więcej informacji:
http:/www.nvidia.pl/page/software-for-tesla-products.html
Cykl życia produktu
Ze względu na charakter rynku konsumenckiego, produkty GeForce mają stosunkowo krótki cykl życia (zwykle nie dłużej niż rok między wydaniem produktu a końcem produkcji). Projekty, które wymagają dostępu do danego produktu w dłuższym czasie (np. takie, które mogą wymagać części zamiennych w przeciągu trzech lat po zakupie), powinny być z serii produktów przeznaczonych dla profesjonalnych zastosowań.
Profesjonalne produkty GPU Tesla i Quadro firmy NVIDIA mają dłuższy okres eksploatacji i długoterminowe wsparcie ze strony producenta. Ponadto produkty przeznaczone na rynek profesjonalny przechodzą dokładniejszy proces testowania i sprawdzania podczas produkcji.
Gwarancja
Gwarancja firmy NVIDIA na produkty GPU GeForce wyraźnie stwierdza, że produkty GeForce nie są przeznaczone do instalacji w serwerach. Uruchamianie kart GPU GeForce w serwerach może spowodować unieważnienie gwarancji. Z witryny producenta firmy NVIDIA odnośnie gwarancji:
„Produkt objęty gwarancją jest przeznaczony tylko dla użytkowników końcowych i nie jest przeznaczony do komercyjnych wdrożeń w centrum przetwarzania danych i / lub przedsiębiorstwach. Wszelkie użycie Produktu do Użytku korporacyjnego powoduje unieważnienie tej gwarancji.”
Więcej informacji:
http:/www.nvidia.com/object/manufacturer_warranty.html
http:/www.pny.eu/legal/warranty/pl
http:/warranty.pny.eu/terms.html
05.03.2018 (aktuaizacja 04.03.2020) |