Jak pobrać i zainstalować Llamę 2 lokalnie

Meta wypuściła Llamę 2 latem 2023 roku. Nowa wersja Llama jest dostrojona o 40% więcej tokenów niż oryginalny model Llama, podwajając długość kontekstu i znacznie przewyższając inne dostępne modele z otwartym kodem źródłowym. Najszybszym i najłatwiejszym sposobem uzyskania dostępu do Lamy 2 jest interfejs API na platformie internetowej. Jeśli jednak chcesz uzyskać najlepszą jakość, najlepiej będzie zainstalować i załadować Llamę 2 bezpośrednio na swój komputer.

Mając to na uwadze, stworzyliśmy przewodnik krok po kroku, jak używać interfejsu Text-Generation-WebUI do ładowania skwantowanej Lamy 2 LLM lokalnie na komputerze.

Dlaczego warto zainstalować Llamę 2 lokalnie

Istnieje wiele powodów, dla których ludzie decydują się na bezpośrednie uruchomienie Lamy 2. Niektórzy robią to ze względów prywatności, inni w celu dostosowania, a jeszcze inni ze względu na możliwości offline. Jeśli badasz, dostrajasz lub integrujesz Llamę 2 w swoich projektach, dostęp do Llama 2 poprzez API może nie być dla Ciebie. Celem uruchomienia LLM lokalnie na komputerze jest zmniejszenie zależności od narzędzi sztucznej inteligencji innych firm i korzystanie ze sztucznej inteligencji w dowolnym miejscu i czasie, bez obawy o wyciek potencjalnie wrażliwych danych do firm i innych organizacji.

Powiedziawszy to, zacznijmy od przewodnika krok po kroku dotyczącego lokalnej instalacji Lamy 2.

Aby uprościć sprawę, użyjemy instalatora jednym kliknięciem dla Text-Generation-WebUI (programu służącego do ładowania Lamy 2 z GUI). Aby jednak ten instalator działał, należy pobrać narzędzie Visual Studio 2019 Build Tool i zainstalować niezbędne zasoby.

Pobierać: Visual Studio 2019 (Bezpłatny)

  • Śmiało, pobierz wersję społecznościową oprogramowania.
  • Teraz zainstaluj Visual Studio 2019, a następnie otwórz oprogramowanie. Po otwarciu zaznacz pole „Tworzenie komputerów stacjonarnych w C++” i kliknij „Instaluj”.
  • Teraz, gdy masz już zainstalowany program do tworzenia komputerów stacjonarnych w języku C++, czas pobrać instalator jednym kliknięciem Text-Generation-WebUI.

    Krok 2: Zainstaluj Text-Generation-WebUI

    Instalator Text-Generation-WebUI za pomocą jednego kliknięcia to skrypt, który automatycznie tworzy wymagane foldery i konfiguruje środowisko Conda oraz wszystkie niezbędne wymagania do uruchomienia modelu AI.

    Aby zainstalować skrypt, pobierz instalator jednym kliknięciem, klikając Kod > Pobierz ZIP.

    Pobierać: Instalator Text-Generation-WebUI (Bezpłatny)

  • Po pobraniu rozpakuj plik ZIP do preferowanej lokalizacji, a następnie otwórz wyodrębniony folder.
  • W folderze przewiń w dół i poszukaj odpowiedniego programu startowego dla swojego systemu operacyjnego. Uruchom programy klikając dwukrotnie odpowiedni skrypt.
    • Jeśli korzystasz z systemu Windows, wybierz plik wsadowy start_windows
    • w przypadku systemu MacOS wybierz skrypt powłoki start_macos
    • dla systemu Linux skrypt powłoki start_linux.
  • Twój program antywirusowy może wygenerować alert; jest okej. Monit jest po prostu fałszywym komunikatem antywirusowym umożliwiającym uruchomienie pliku wsadowego lub skryptu. Kliknij mimo to Uruchom.
  • Otworzy się terminal i rozpocznie się konfiguracja. Na początku instalacja zatrzyma się i zapyta, jakiego procesora graficznego używasz. Wybierz odpowiedni typ procesora graficznego zainstalowanego na komputerze i naciśnij Enter. W przypadku osób nieposiadających dedykowanej karty graficznej wybierz opcję Brak (chcę uruchamiać modele w trybie procesora). Należy pamiętać, że działanie w trybie procesora jest znacznie wolniejsze w porównaniu do uruchamiania modelu z dedykowanym procesorem graficznym.
  • Po zakończeniu konfiguracji możesz teraz uruchomić lokalnie Text-Generation-WebUI. Można to zrobić otwierając preferowaną przeglądarkę internetową i wpisując podany adres IP w adresie URL.
  • WebUI jest teraz gotowy do użycia.
  • Jednak program jest jedynie modułem ładującym modele. Pobierzmy Llamę 2, aby uruchomić moduł ładujący modele.

    Krok 3: Pobierz model Lamy 2

    Decydując, której wersji Lamy 2 potrzebujesz, należy wziąć pod uwagę kilka rzeczy. Należą do nich parametry, kwantyzacja, optymalizacja sprzętu, rozmiar i wykorzystanie. Wszystkie te informacje znajdziesz w nazwie modelu.

    • Parametry: liczba parametrów używanych do uczenia modelu. Większe parametry zapewniają bardziej wydajne modele, ale kosztem wydajności.
    • Sposób użycia: może być standardowy lub czat. Model czatu jest zoptymalizowany do użycia jako chatbot, taki jak ChatGPT, natomiast standardem jest model domyślny.
    • Optymalizacja sprzętu: odnosi się do sprzętu, który najlepiej obsługuje model. GPTQ oznacza, że ​​model jest zoptymalizowany do działania na dedykowanym procesorze graficznym, podczas gdy GGML jest zoptymalizowany do działania na procesorze.
    • Kwantyzacja: oznacza precyzję wag i aktywacji w modelu. Do wnioskowania optymalna jest precyzja q4.
    • Rozmiar: odnosi się do rozmiaru konkretnego modelu.

    Należy pamiętać, że niektóre modele mogą być inaczej rozmieszczone i mogą nawet nie wyświetlać tego samego rodzaju informacji. Jednak tego typu konwencja nazewnictwa jest dość powszechna w bibliotece HuggingFace Model, więc nadal warto ją zrozumieć.

    W tym przykładzie model można zidentyfikować jako średniej wielkości model Lamy 2 wyszkolony na 13 miliardach parametrów zoptymalizowanych pod kątem wnioskowania na czacie przy użyciu dedykowanego procesora.

    W przypadku komputerów korzystających z dedykowanego procesora graficznego wybierz model GPTQ, natomiast w przypadku procesorów wybierz GGML. Jeśli chcesz rozmawiać z modelem tak jak z ChatGPT, wybierz czat, ale jeśli chcesz poeksperymentować z modelem z jego pełnymi możliwościami, użyj modelu standardowego. Jeśli chodzi o parametry, to wiedz, że zastosowanie większych modeli zapewni lepsze rezultaty kosztem wydajności. Osobiście polecam zacząć od modelu 7B. Jeśli chodzi o kwantyzację, użyj q4, ponieważ służy tylko do wnioskowania.

    Pobierać: GGML (Bezpłatny)

    Pobierać: GPTQ (Bezpłatny)

    Teraz, gdy już wiesz, jakiej wersji Llama 2 potrzebujesz, możesz pobrać żądany model.

    W moim przypadku, ponieważ używam tego na ultrabooku, będę używać modelu GGML dostosowanego do czatu, llama-2-7b-chat-ggmlv3.q4_K_S.bin.

    Po zakończeniu pobierania umieść model w Text-Generation-webui-main > models.

    Teraz, gdy już pobrałeś model i umieściłeś go w folderze modelu, czas skonfigurować moduł ładujący model.

    Krok 4: Skonfiguruj interfejs WWW do generowania tekstu

    Teraz rozpocznijmy fazę konfiguracji.

  • Jeszcze raz otwórz Text-Generation-WebUI, uruchamiając plik start_(twój system operacyjny) (patrz poprzednie kroki powyżej).
  • Na zakładkach znajdujących się nad interfejsem GUI kliknij Model. Kliknij przycisk odświeżania w menu rozwijanym modelu i wybierz swój model.
  • Teraz kliknij menu rozwijane modułu ładującego modele i wybierz AutoGPTQ dla osób korzystających z modelu GTPQ oraz ctransformers dla osób korzystających z modelu GGML. Na koniec kliknij przycisk Załaduj, aby załadować model.
  • Aby skorzystać z modelu, otwórz zakładkę Czat i rozpocznij testowanie modelu.
  • Gratulacje, pomyślnie załadowałeś Llamę2 na swój komputer lokalny!

    Wypróbuj inne LLM

    Teraz, gdy wiesz, jak uruchomić Llamę 2 bezpośrednio na swoim komputerze za pomocą Text-Generation-WebUI, powinieneś móc także uruchamiać inne LLM oprócz Lamy. Pamiętaj tylko o konwencjach nazewnictwa modeli i o tym, że na zwykłych komputerach PC można załadować tylko skwantowane wersje modeli (zwykle z precyzją q4). Wiele skwantowanych LLM jest dostępnych na HuggingFace. Jeśli chcesz poznać inne modele, wyszukaj TheBloke w bibliotece modeli HuggingFace, a powinieneś znaleźć wiele dostępnych modeli.