Jak zablokować roboty indeksujące OpenAI przed zeskrobywaniem Twojej witryny

Chociaż użytkownicy uwielbiają ChatGPT za samą ilość informacji, które obecnie przechowuje, tego samego nie można powiedzieć o właścicielach witryn.

ChatGPT OpenAI używa robotów indeksujących do przeszukiwania stron internetowych, ale jeśli jesteś właścicielem witryny internetowej i nie chcesz, aby robot indeksujący OpenAI uzyskiwał dostęp do Twojej witryny, oto kilka rzeczy, które możesz zrobić, aby temu zapobiec.

Jak działa indeksowanie OpenAI?

Robot indeksujący (znany również jako pająk lub bot wyszukiwarki) to zautomatyzowany program, który skanuje Internet w poszukiwaniu informacji. Następnie kompiluje te informacje w sposób ułatwiający wyszukiwarce dostęp do nich.

Roboty indeksujące indeksują każdą stronę każdego odpowiedniego adresu URL, zwykle koncentrując się na witrynach, które są bardziej odpowiednie dla wyszukiwanych haseł. Załóżmy na przykład, że wyszukujesz w Google konkretny błąd systemu Windows. Robot indeksujący w Twojej wyszukiwarce przeskanuje wszystkie adresy URL ze stron internetowych, które uzna za bardziej wiarygodne w temacie błędów systemu Windows.

Robot indeksujący OpenAI nazywa się GPTBot i zgodnie z Dokumentacja OpenAIprzyznanie GPTBotowi dostępu do Twojej witryny może pomóc w szkoleniu modelu AI, aby stał się bezpieczniejszy i dokładniejszy, a nawet może pomóc w rozszerzeniu możliwości modelu AI.

Jak uniemożliwić OpenAI indeksowanie Twojej witryny

Podobnie jak większość innych robotów indeksujących, dostęp GPTBota do Twojej witryny można zablokować, modyfikując protokół robots.txt witryny (znany również jako protokół wykluczania robotów). Ten plik .txt jest przechowywany na serwerze witryny i kontroluje sposób, w jaki roboty indeksujące i inne zautomatyzowane programy zachowują się w Twojej witrynie.

Oto krótka lista możliwości pliku robot.txt:

  • Może całkowicie zablokować GPTBotowi dostęp do strony internetowej.
  • Może blokować dostęp GPTBot tylko do niektórych stron z adresu URL.
  • Może powiedzieć GPTBotowi, które łącza mogą podążać, a których nie.

Oto jak kontrolować, co GPTBot może robić w Twojej witrynie:

Całkowicie zablokuj GPTBot dostęp do Twojej witryny

  • Skonfiguruj plik robot.txt, a następnie edytuj go za pomocą dowolnego narzędzia do edycji tekstu.
  • Dodaj GPTBota do pliku robots.txt swojej witryny w następujący sposób:
  •  User-agent: GPTBot
    Disallow: /

    Zablokuj dostęp GTPBot tylko do niektórych stron

  • Skonfiguruj plik robot.txt, a następnie edytuj go za pomocą preferowanego narzędzia do edycji tekstu.
  • Dodaj GPTBota do pliku robots.txt swojej witryny w następujący sposób:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    Pamiętaj jednak, że zmiana pliku robot.txt nie działa wstecz, a żadnych informacji, które GPTBot mógł już zebrać z Twojej witryny, nie będzie można odzyskać.

    OpenAI umożliwia właścicielom stron internetowych rezygnację z indeksowania

    Odkąd roboty indeksujące zostały użyte do szkolenia modeli sztucznej inteligencji, właściciele witryn internetowych szukali sposobów na zachowanie prywatności swoich danych.

    Niektórzy obawiają się, że modele sztucznej inteligencji w zasadzie kradną ich pracę, a nawet przypisują mniej wizyt w witrynach internetowych faktowi, że teraz użytkownicy uzyskują informacje bez konieczności odwiedzania ich witryn.

    Podsumowując, to, czy chcesz całkowicie zablokować chatboty AI przed skanowaniem twoich stron internetowych, jest całkowicie twoim wyborem.