Kompletny przewodnik po procesie pobierania danych ze stron internetowych przy użyciu narzędzia ChatGPT oraz jego dodatkowych wtyczek.
Jeżeli nie jesteś entuzjastą tworzenia nowatorskich rozwiązań, prawdopodobnie potrzebujesz podstawowych informacji, aby rozpocząć. Możesz również przeanalizować działania konkurencji w celu uzyskania istotnych wskazówek. Niezależnie od motywacji, istnieje wiele powodów, dla których ktoś może być zainteresowany zawartością konkretnej witryny internetowej.
Pobieranie danych ze stron internetowych (web scraping) jest procesem, który znajduje zastosowanie w tego typu sytuacjach.
Istnieje kilka metod realizacji tego zadania. Dostępne są zaawansowane narzędzia, które można subskrybować w celu profesjonalnego pobierania informacji z rozbudowanych serwisów. Możliwe jest również skonfigurowanie specjalnego środowiska do przetwarzania danych lokalnie.
Niezależnie od wybranej opcji, takie podejście może być kosztowne, czasochłonne i zniechęcające dla osób początkujących, szczególnie gdy chodzi o pobranie danych z kilku stron internetowych.
Wykorzystanie ChatGPT w procesie pobierania danych ze stron internetowych
Nie powinienem przedstawiać Ci ChatGPT. Prawda?
W skrócie, ChatGPT to generatywna sztuczna inteligencja, która reaguje w sposób przypominający ludzkie interakcje. Oferuje interfejs czatu, w którym można zlecać różne zadania, takie jak zadawanie pytań dotyczących wydarzeń historycznych, tworzenie esejów, streszczanie, tłumaczenie, kodowanie i wiele innych.
Odpowiedzi ChatGPT są przekazywane w formie tekstowej. Istnieją jednak wtyczki rozszerzające jego możliwości. W tym przypadku wykorzystamy jedną z takich wtyczek. Dodatkowo, skorzystamy z interpretera kodu do pobierania danych ze stron o skomplikowanej strukturze lub takich, które aktywnie stosują mechanizmy zapobiegające automatycznemu pobieraniu treści.
Warto pamiętać, że ChatGPT ma wersję bezpłatną oraz płatną. Do korzystania z wtyczki do pobierania danych ze stron internetowych lub interpretera kodu wymagana jest płatna subskrypcja (obecnie kosztuje 20 dolarów miesięcznie).
W dalszej części artykułu szczegółowo opiszę ten proces, krok po kroku.
Zastrzeżenie: Przed kontynuacją upewnij się, że dana strona internetowa zezwala na pobieranie jej zawartości. W przypadku braku takiej zgody, skontaktuj się z administratorem serwisu i upewnij się, czy jest to dozwolone, aby uniknąć problemów prawnych.
Pobieranie danych z sieci za pomocą wtyczki ChatGPT
Zaloguj się na swoje konto OpenAI, najedź kursorem na GPT-4 (obecnie płatna wersja) i wybierz opcję „Wtyczki”.
Następnie, kliknij „Brak włączonych wtyczek”, przewiń w dół i wybierz „Sklep z wtyczkami”.
Jeżeli wtyczka jest już aktywna, zamiast opcji „Brak włączonych wtyczek” zobaczysz ikonę wtyczki. W takim przypadku kliknij tę ikonę, aby rozwinąć menu i na dole wybierz „Sklep z wtyczkami”.
Otworzy się sklep z wtyczkami. Wyszukaj „Scraper” i kliknij „Zainstaluj”.
Wybierz tę wtyczkę w interfejsie ChatGPT.
Po jej aktywacji, poproś ChatGPT o pobranie danych, podając adres URL strony i informacje, które chcesz uzyskać.
Przeprowadziłem to na kilku stronach. Oto rezultaty.
Pobieranie danych z portalu informacyjnego
Jesteśmy portalem skupiającym się na technologii i dla celów demonstracyjnych wybrałem naszą stronę główną, newsblog.pl.com/.
Oto treść mojego zapytania:
przeanalizuj tę stronę: https://newsblog.pl.com/ i przygotuj tabelę zawierającą tytuł artykułu, autora, datę publikacji i fragment (excerpt) dla 10 najnowszych artykułów.
Możesz również poprosić o konwersję danych do formatu CSV, skopiować je do pliku tekstowego z rozszerzeniem .csv i otworzyć go w aplikacji arkusza kalkulacyjnego, np. MS Excel.
Pobieranie danych ze strony z ofertami lub kuponami rabatowymi
W sekcji ofert newsblog.pl prezentujemy starannie wybrane oferty dotyczące interesujących projektów. Czy można pobrać wszystkie te oferty w formie tabeli?
Przygotuj listę ofert z tej strony: https://newsblog.pl.com/deals/. Przedstaw wyniki w formie tabeli.
Pobieranie danych z Wikipedii
Zestaw w formie tabeli najnowsze wiadomości z sekcji "Wydarzenia" ze strony Wikipedii: https://en.wikipedia.org/wiki/Main_Page
Pobieranie danych ze sklepów internetowych
Na koniec, spróbowałem pobrać dane z Amazon.com, wyszukując laptopy, stosując kilka filtrów i podając adres URL do ChatGPT. Oto rezultaty:
Problem polega na tym, że to nie jest odosobniony przypadek. Wiele stron internetowych stosuje mechanizmy zapobiegające pobieraniu danych. W takiej sytuacji, jeśli nie chcesz subskrybować profesjonalnych narzędzi do pobierania danych, musisz znaleźć alternatywne rozwiązanie.
Poniższe sekcje omawiają jedną z takich alternatyw.
Pobieranie danych z sieci za pomocą interpretera kodu ChatGPT
Interpreter kodu to nowa funkcja ChatGPT, która jest przeznaczona do zadań związanych z programowaniem. Chociaż domyślny model ChatGPT w dużej mierze opiera się na generowaniu odpowiedzi tekstowych, Interpreter kodu może pomóc w wizualizacji wyników, analizowaniu, debugowaniu i wykonywaniu kodu, integrowaniu się z plikami binarnymi oprogramowania i wykonywaniu wielu innych operacji związanych z programowaniem.
W tym procesie pobierzemy kod HTML strony, prześlemy go do interpretera kodu ChatGPT, a następnie przystąpimy do pobierania potrzebnych danych.
Jako przykład, wybrałem tę stronę:
Zaczniemy od zapisania strony internetowej w formacie HTML. Aby to zrobić, przejdź do strony i naciśnij Ctrl+S.
Teraz mamy plik do przetworzenia. Ustalmy treść zapytania.
Oprócz zapytania tekstowego, podałem mu przykładowe elementy, aby przyspieszyć proces. Ze względu na złożoną strukturę stron Amazona, bez tych próbek, pobieranie danych może się nie udać lub nie dać żadnych rezultatów.
Zdobycie tych elementów jest proste. Kliknij prawym przyciskiem myszy w dowolnym miejscu na stronie i wybierz „Zbadaj” z menu kontekstowego.
Najpierw kliknij ikonę na górze (oznaczoną jako 1). Spowoduje to podświetlenie szczegółów podczas wybierania elementów ze strony. Następnie wybierz element kontenera dla konkretnego produktu.
Upewnij się, że wybrałeś najbardziej wewnętrzny kontener. Możesz najechać kursorem, a ikona będzie się podświetlać. Gdy dojdziesz do ostatniej warstwy obejmującej dany blok, kliknij ją i przejdź do prawej strony, aby skopiować klasę div elementu.
Podobnie, wybierz przykłady dla pozostałych elementów.
Na koniec prześlij kod HTML i zapytanie podobne do poniższego:
przeanalizuj ten kod HTML strony i pobierz tytuły laptopów, ceny i oceny. przedstaw wyniki w formie tabeli w tym interfejsie czatu, a także udostępnij wyniki w pliku CSV do pobrania. div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border" przykładowy element tytułu: span class="a-size-medium a-color-base a-text-normal" przykładowy element ceny: span class="a-price-whole" przykładowy element ocen: span class="a-size-base puis-bold-weight-text"
Interpreter kodu ChatGPT potrzebuje trochę czasu na wykonanie zadania. Otrzymasz szczegółowe wyniki, a także osadzony plik CSV.
Możesz zauważyć, że w tabeli znajdują się wpisy, których nie było na oryginalnej stronie, zwłaszcza na początku. W takich przypadkach należy zweryfikować i usunąć zbędne dane.
Jeśli takie sytuacje wystąpią, możesz ponownie poprosić ChatGPT o udostępnienie czystego pliku CSV.
Podsumowanie
ChatGPT potrafi wiele, a jednym z jego zastosowań jest pobieranie podstawowych danych ze stron internetowych. Zgadzam się, że może nie być idealny dla osób pobierających dane z setek stron. Niemniej jednak, pomoże Ci rozpocząć we właściwym kierunku i doskonale sprawdzi się w przypadku krótkich sesji.
W tym przewodniku użyliśmy wtyczki do pobierania danych i interpretera kodu. Wtyczki sprawdzają się na wielu standardowych stronach, a druga metoda jest przydatna w przypadku niestandardowych struktur stron lub gdy strona zawiera elementy dynamiczne (niekończące się przewijanie, opcja „czytaj więcej” itp.).
Jeszcze raz przypominam, że przed pobraniem danych należy zapoznać się z warunkami użytkowania strony.
PS: Sprawdź te rozwiązania do pobierania danych w chmurze oraz nasz własny interfejs API do pobierania danych z newsblog.pl.
newsblog.pl