Meta wypuściła Llamę 2 latem 2023 roku. Nowa wersja Llama jest dostrojona o 40% więcej tokenów niż oryginalny model Llama, podwajając długość kontekstu i znacznie przewyższając inne dostępne modele z otwartym kodem źródłowym. Najszybszym i najłatwiejszym sposobem uzyskania dostępu do Lamy 2 jest interfejs API na platformie internetowej. Jeśli jednak chcesz uzyskać najlepszą jakość, najlepiej będzie zainstalować i załadować Llamę 2 bezpośrednio na swój komputer.
Mając to na uwadze, stworzyliśmy przewodnik krok po kroku, jak używać interfejsu Text-Generation-WebUI do ładowania skwantowanej Lamy 2 LLM lokalnie na komputerze.
Spis treści:
Dlaczego warto zainstalować Llamę 2 lokalnie
Istnieje wiele powodów, dla których ludzie decydują się na bezpośrednie uruchomienie Lamy 2. Niektórzy robią to ze względów prywatności, inni w celu dostosowania, a jeszcze inni ze względu na możliwości offline. Jeśli badasz, dostrajasz lub integrujesz Llamę 2 w swoich projektach, dostęp do Llama 2 poprzez API może nie być dla Ciebie. Celem uruchomienia LLM lokalnie na komputerze jest zmniejszenie zależności od narzędzi sztucznej inteligencji innych firm i korzystanie ze sztucznej inteligencji w dowolnym miejscu i czasie, bez obawy o wyciek potencjalnie wrażliwych danych do firm i innych organizacji.
Powiedziawszy to, zacznijmy od przewodnika krok po kroku dotyczącego lokalnej instalacji Lamy 2.
Aby uprościć sprawę, użyjemy instalatora jednym kliknięciem dla Text-Generation-WebUI (programu służącego do ładowania Lamy 2 z GUI). Aby jednak ten instalator działał, należy pobrać narzędzie Visual Studio 2019 Build Tool i zainstalować niezbędne zasoby.
Pobierać: Visual Studio 2019 (Bezpłatny)
Teraz, gdy masz już zainstalowany program do tworzenia komputerów stacjonarnych w języku C++, czas pobrać instalator jednym kliknięciem Text-Generation-WebUI.
Krok 2: Zainstaluj Text-Generation-WebUI
Instalator Text-Generation-WebUI za pomocą jednego kliknięcia to skrypt, który automatycznie tworzy wymagane foldery i konfiguruje środowisko Conda oraz wszystkie niezbędne wymagania do uruchomienia modelu AI.
Aby zainstalować skrypt, pobierz instalator jednym kliknięciem, klikając Kod > Pobierz ZIP.
Pobierać: Instalator Text-Generation-WebUI (Bezpłatny)
- Jeśli korzystasz z systemu Windows, wybierz plik wsadowy start_windows
- w przypadku systemu MacOS wybierz skrypt powłoki start_macos
- dla systemu Linux skrypt powłoki start_linux.
Jednak program jest jedynie modułem ładującym modele. Pobierzmy Llamę 2, aby uruchomić moduł ładujący modele.
Krok 3: Pobierz model Lamy 2
Decydując, której wersji Lamy 2 potrzebujesz, należy wziąć pod uwagę kilka rzeczy. Należą do nich parametry, kwantyzacja, optymalizacja sprzętu, rozmiar i wykorzystanie. Wszystkie te informacje znajdziesz w nazwie modelu.
- Parametry: liczba parametrów używanych do uczenia modelu. Większe parametry zapewniają bardziej wydajne modele, ale kosztem wydajności.
- Sposób użycia: może być standardowy lub czat. Model czatu jest zoptymalizowany do użycia jako chatbot, taki jak ChatGPT, natomiast standardem jest model domyślny.
- Optymalizacja sprzętu: odnosi się do sprzętu, który najlepiej obsługuje model. GPTQ oznacza, że model jest zoptymalizowany do działania na dedykowanym procesorze graficznym, podczas gdy GGML jest zoptymalizowany do działania na procesorze.
- Kwantyzacja: oznacza precyzję wag i aktywacji w modelu. Do wnioskowania optymalna jest precyzja q4.
- Rozmiar: odnosi się do rozmiaru konkretnego modelu.
Należy pamiętać, że niektóre modele mogą być inaczej rozmieszczone i mogą nawet nie wyświetlać tego samego rodzaju informacji. Jednak tego typu konwencja nazewnictwa jest dość powszechna w bibliotece HuggingFace Model, więc nadal warto ją zrozumieć.
W tym przykładzie model można zidentyfikować jako średniej wielkości model Lamy 2 wyszkolony na 13 miliardach parametrów zoptymalizowanych pod kątem wnioskowania na czacie przy użyciu dedykowanego procesora.
W przypadku komputerów korzystających z dedykowanego procesora graficznego wybierz model GPTQ, natomiast w przypadku procesorów wybierz GGML. Jeśli chcesz rozmawiać z modelem tak jak z ChatGPT, wybierz czat, ale jeśli chcesz poeksperymentować z modelem z jego pełnymi możliwościami, użyj modelu standardowego. Jeśli chodzi o parametry, to wiedz, że zastosowanie większych modeli zapewni lepsze rezultaty kosztem wydajności. Osobiście polecam zacząć od modelu 7B. Jeśli chodzi o kwantyzację, użyj q4, ponieważ służy tylko do wnioskowania.
Pobierać: GGML (Bezpłatny)
Pobierać: GPTQ (Bezpłatny)
Teraz, gdy już wiesz, jakiej wersji Llama 2 potrzebujesz, możesz pobrać żądany model.
W moim przypadku, ponieważ używam tego na ultrabooku, będę używać modelu GGML dostosowanego do czatu, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
Po zakończeniu pobierania umieść model w Text-Generation-webui-main > models.
Teraz, gdy już pobrałeś model i umieściłeś go w folderze modelu, czas skonfigurować moduł ładujący model.
Krok 4: Skonfiguruj interfejs WWW do generowania tekstu
Teraz rozpocznijmy fazę konfiguracji.
Gratulacje, pomyślnie załadowałeś Llamę2 na swój komputer lokalny!
Wypróbuj inne LLM
Teraz, gdy wiesz, jak uruchomić Llamę 2 bezpośrednio na swoim komputerze za pomocą Text-Generation-WebUI, powinieneś móc także uruchamiać inne LLM oprócz Lamy. Pamiętaj tylko o konwencjach nazewnictwa modeli i o tym, że na zwykłych komputerach PC można załadować tylko skwantowane wersje modeli (zwykle z precyzją q4). Wiele skwantowanych LLM jest dostępnych na HuggingFace. Jeśli chcesz poznać inne modele, wyszukaj TheBloke w bibliotece modeli HuggingFace, a powinieneś znaleźć wiele dostępnych modeli.