Jak używać ChatGPT do skrobania sieci za pomocą wtyczek i interpretera kodu

Szczegółowy przewodnik po skrobaniu stron internetowych przy użyciu interpretera kodu ChatGPT i jego wtyczek.

Jeśli nie lubisz tworzyć nowości, prawdopodobnie będziesz potrzebować pewnych informacji wstępnych, aby rozpocząć. Możesz też przyjrzeć się konkurencji, aby uzyskać cenne uwagi. Ponadto może istnieć niezliczona ilość powodów, dla których ktoś może zainteresować się treścią określonej witryny internetowej.

Skrobanie sieci to proces, który służy takim przypadkom użycia.

Jest na to kilka sposobów. Istnieją zaawansowane narzędzia, które można subskrybować w celu profesjonalnego skrobania dużych witryn internetowych. Alternatywnie możesz wymagać określonej konfiguracji do przetwarzania lokalnego.

Tak czy inaczej, podejście to jest drogie, czasochłonne i nudne dla początkujących, zwłaszcza w przypadku skrobania kilku stron internetowych.

Przegląd ChatGPT do skrobania sieci

Nie powinienem przedstawiać Ci ChatGPT. Jestem?

Krótko mówiąc, ChatGPT to generatywna sztuczna inteligencja, która reaguje jak ludzie. Otrzymujesz interfejs czatu, w którym możesz prosić go o wykonanie różnych zadań, takich jak zadawanie pytań o wydarzenia historyczne, pisanie esejów, streszczanie, tłumaczenie, kodowanie itp.

Odpowiedzi ChatGPT są przesyłane tekstowo. Istnieją jednak wtyczki ChatGPT, które na wiele sposobów zwiększają jego możliwości. I będziemy używać jednej takiej wtyczki. Ponadto będziemy używać jego interpretera kodu do skrobania witryn o skomplikowanej strukturze stron internetowych lub z aktywnymi protokołami zapobiegającymi skrobaniu.

Pamiętaj, że ChatGPT ma wersję bezpłatną i płatną. Będziesz jednak potrzebować płatnej subskrypcji (obecnie 20 dolarów miesięcznie), aby móc korzystać z wtyczki do skrobania stron internetowych lub jej silnika interpretera kodu.

W dalszych rozdziałach zilustruję ten proces krok po kroku.

Zastrzeżenie: Zanim przejdziesz dalej, potwierdź, że dana witryna internetowa umożliwia pobieranie jej zawartości. Jeśli nie, możesz skontaktować się z ich administratorem i sprawdzić, czy na to pozwala, aby uniknąć problemów prawnych.

Skrobanie sieci za pomocą wtyczki ChatGPT

Zaloguj się do swojego Konto OpenAInajedź kursorem na GPT-4 (jego aktualna płatna wersja) i kliknij Wtyczki.

Następnie kliknij Brak włączonych wtyczek, przewiń w dół i kliknij Sklep z wtyczkami.

Pamiętaj, że zamiast opcji Brak włączonych wtyczek będzie widoczna ikona wtyczki, jeśli jest ona aktywna. W takim przypadku musisz kliknąć tę ikonę, aby otworzyć menu rozwijane i kliknąć sklep z wtyczkami na dole.

Spowoduje to otwarcie sklepu z wtyczkami. Wyszukaj Scraper i naciśnij Zainstaluj.

Wybierz tę wtyczkę w interfejsie ChatGPT.

Po wybraniu tej opcji należy zapytać ChatGPT, podając adres URL tematu i treść do zeskanowania.

Zrobiłem to dla kilku stron internetowych. Sprawdź to.

Skrobanie publikacji

Jesteśmy publikacją skupiającą się na technologii i do tej ilustracji wybrałem naszą stronę główną, newsblog.pl.com/.

Oto zachęta:

check this webpage: https://newsblog.pl.com/ and prepare a table indicating the article title, author, publication date, and excerpt for the top 10 articles.

Można także ponownie poprosić o konwersję danych do formatu CSV, wkleić je do pliku tekstowego z rozszerzeniem .csv i otworzyć w aplikacji arkusza kalkulacyjnego, np. MS Excel.

Zeskrobywanie strony internetowej z ofertą lub kuponem

Sekcja ofert newsblog.pl to miejsce, w którym starannie wybraliśmy kilka ofert dotyczących projektów z najwyższej półki. A co powiesz na pobranie każdej transakcji w formacie tabelarycznym?

Prepare a list of deals from this webpage: https://newsblog.pl.com/deals/. present the result in a tabular format.

Skrobanie Wikipedii

Summarize in tabular format the latest news from the "in the news" section from this wikipedia page: https://en.wikipedia.org/wiki/Main_Page

Skrobanie sklepów e-commerce

Na koniec próbowałem zeskrobać Amazon.com na laptopy, stosując kilka filtrów i podając adres URL do ChatGPT. Oto co dostałem:

Problem w tym, że nie jest to pojedynczy przypadek. Znajdziesz wiele takich przypadków, w których strony internetowe mają środki zapobiegające skrobaniu. W tej sytuacji będziesz musiał znaleźć alternatywę dla uzyskania danych, jeśli subskrypcja standardowych skrobaków branżowych nie wchodzi w grę.

Poniższe sekcje dotyczą jednego z takich rozwiązań.

Skanowanie sieci Web za pomocą interpretera kodu ChatGPT

Code Interpreter to nowo uruchomiony silnik ChatGPT do obsługi zadań związanych z programowaniem. Chociaż domyślny silnik w dużym stopniu opiera się na odpowiedziach tekstowych, Interpreter kodu może pomóc w wizualizacji wyników, analizowaniu, debugowaniu i wykonywaniu kodu, integracji z plikami binarnymi oprogramowania i wykonywaniu o wiele więcej rzeczy związanych z programowaniem.

W tym procesie pobierzemy źródłowy kod HTML, prześlemy go do interpretera kodu ChatGPT i przystąpimy do skrobania.

Wziąłem tę stronę do ekstrakcji:

Zaczniemy od zapisania strony internetowej w formacie HTML. W tym celu przejdź do strony internetowej i naciśnij Ctrl+S.

Teraz mamy plik do zeskrobania. Ustalmy monit.

Oprócz podpowiedzi tekstowej możesz zobaczyć, że dałem mu przykładowe elementy, aby przyspieszyć skrobanie. Ponieważ struktury stron internetowych Amazon są złożone, bez tych próbek próba skrobania może zakończyć się niepowodzeniem lub nie dać żadnego rezultatu.

Zdobycie tych elementów jest dość łatwe. Kliknij prawym przyciskiem myszy w dowolnym miejscu strony tematu i kliknij Sprawdź w wyskakującym okienku.

Najpierw kliknij ikonę znajdującą się najwyżej (oznaczoną jako 1). Spowoduje to podkreślenie szczegółów podczas wybierania elementów ze strony. Następnie wybierz element kontenera dla dowolnego konkretnego produktu.

Upewnij się, że wybrałeś najbardziej wewnętrzny pojemnik. Możesz najechać kursorem, a ikona będzie się podświetlać. W momencie, gdy otrzymasz ostatnią powłokę pokrywającą ten blok, możesz kliknąć i przejść na prawą stronę, aby skopiować klasę div elementu.

Podobnie wybierz próbki dla innych elementów.

Na koniec prześlij kod HTML i monit podobny do tego:

check out this webpage html and extract the laptop titles, price, and ratings. present the result in a tabular format within this chat interface and also give the results in a CSV to download.

div class="s-card-container s-overflow-hidden aok-relative puis-include-content-margin puis puis-vfcg1duwvmpo42mcln9ojhiljk s-latency-cf-section s-card-border"
sample title element: span class="a-size-medium a-color-base a-text-normal"
sample price element: span class="a-price-whole"
sample ratings element: span class="a-size-base puis-bold-weight-text"

Zajmie to trochę czasu, zanim Interpreter kodu ChatGPT wykona swoją pracę. Będziesz miał kilka szczegółów, a wszystko będzie w osadzonym pliku CSV.

Można zauważyć, że tabela zawiera kilka wpisów, których nie było na oryginalnej stronie internetowej, zwłaszcza na początku. W takich przypadkach należy dwukrotnie sprawdzić i wyczyścić dane pod kątem nadmiarów.

Jeśli takie istnieją, możesz ponownie poprosić ChatGPT o uzyskanie czystego pliku CSV.

Końcowe przemyślenia

ChatGPT robi wiele rzeczy, a jednym z nich jest podstawowe skrobanie sieci. Zgadzam się, może nie być odpowiedni dla kogoś, kto skroba setki stron. Mimo to pomoże Ci zacząć we właściwym kierunku i idealnie nadaje się na krótką sesję skrobania.

W tym przewodniku użyliśmy jednej z wtyczek do skrobania i interpretera kodu. Podczas gdy wtyczki działają na wielu standardowych stronach internetowych, druga metoda dotyczy niestandardowych struktur stron internetowych lub jeśli strona zawiera elementy dynamiczne (niekończące się przewijanie, czytaj więcej itp.).

Powtarzam, przed skrobaniem przejrzyj warunki witryny tematycznej.

PS: Sprawdź te rozwiązania do skrobania w chmurze i nasz własny interfejs API do skrobania newsblog.pl.