Istotne informacje o danych na sprzedaż
- Platformy mediów społecznościowych, mimo obaw o prywatność, sprzedają dane swoich użytkowników przedsiębiorstwom specjalizującym się w sztucznej inteligencji, które wykorzystują te dane do trenowania generatywnych modeli AI.
- W ten rodzaj umów o licencjonowanie danych, celem ich wykorzystania w szkoleniach AI, angażują się aktywnie takie platformy jak Meta, Reddit, Tumblr oraz WordPress.com.
- Użytkownicy mogą podjąć pewne kroki w celu ochrony swoich danych, między innymi dostosowując ustawienia prywatności, rezygnując z udostępniania oraz zachowując ostrożność w kwestii treści publikowanych online.
Coraz popularniejszym sposobem na generowanie przychodów przez firmy z sektora mediów społecznościowych jest handel danymi użytkowników z podmiotami działającymi w sferze sztucznej inteligencji. Rodzi się jednak pytanie, czy przeciętni użytkownicy mają jakiekolwiek możliwości, by zabezpieczyć swoje informacje i publikowane treści?
Wykorzystywanie danych z mediów społecznościowych do doskonalenia generatywnych modeli sztucznej inteligencji jest tematem wywołującym liczne kontrowersje. Nie zniechęca to jednak firm social mediowych do dzielenia się danymi użytkowników.
Meta, na przykład, już wykorzystuje dane z mediów społecznościowych do szkolenia swoich funkcji generatywnej sztucznej inteligencji, które zostały zaprezentowane na wydarzeniu Meta Connect w 2023 roku. Obejmuje to Meta AI oraz funkcje, takie jak generowanie naklejek za pomocą sztucznej inteligencji w aplikacji WhatsApp.
Mike Clark, dyrektor ds. zarządzania produktami w firmie Meta, w komunikacie prasowym Meta Newsroom stwierdził:
„Publicznie dostępne posty z Instagrama oraz Facebooka – w tym zdjęcia i tekst – stanowią część danych wykorzystywanych do trenowania generatywnych modeli AI, stanowiących podstawę funkcji, które przedstawiliśmy na Connect”.
Wydaje się, że w roku 2024 ten trend nie osłabnie. Według agencji Reuters, platforma Reddit zawarła umowę z Google na udostępnianie treści z tej platformy społecznościowej na potrzeby szkolenia modeli sztucznej inteligencji.
Dokument S-1 Reddita związany z pierwszą ofertą publiczną, złożony 22 lutego 2024 roku, potwierdza, że spółka rozważa umowy licencyjne. W dokumencie tym czytamy:
„Dane Reddita stanowią fundamentalny element współczesnej technologii sztucznej inteligencji i wielu modeli językowych LLM. Jesteśmy przekonani, że ogromny zasób danych oraz wiedzy opartej na konwersacjach, który posiada Reddit, będzie odgrywał istotną rolę w procesie szkolenia oraz ulepszania modeli LLM”.
W dokumencie tym zaznaczono również, że Reddit „jest na wczesnym etapie umożliwiania stronom trzecim licencjonowania dostępu do wyszukiwania, analizowania oraz prezentowania danych historycznych i danych w czasie rzeczywistym z naszej platformy” na potrzeby szkolenia modeli LLM.
Chociaż Meta i Reddit to jedne z największych marek w mediach społecznościowych, to nie są one jedynymi platformami, które wykorzystują dane swoich użytkowników do trenowania sztucznej inteligencji. Według raportu 404 Media, Tumblr oraz WordPress.com również planują sprzedaż danych swoich użytkowników firmom Midjourney i OpenAI.
Istnieje duże prawdopodobieństwo, że jeśli korzystasz z Facebooka, Instagrama, Reddita, Tumblra czy WordPress.com, Twoje publicznie dostępne treści zostały już wykorzystane w procesie szkolenia modeli LLM.
Na przykład, korzystając z narzędzia wyszukiwania Washington Post i sprawdzając, jakie witryny znalazły się w zbiorze danych Google C4, wykorzystywanym przy szkoleniu modelu Bard, można zauważyć, że Reddit.com posiada 7,9 miliona tokenów.
Tumblr.com ma przypisane 1,6 miliona tokenów. Moja prywatna strona internetowa, która działa na platformie WordPress.com, zgromadziła 14 000 tokenów, co oznacza, że w zbiorze danych mogły znaleźć się również małe, osobiste blogi.
Biorąc pod uwagę trwające umowy między firmami działającymi w dziedzinie sztucznej inteligencji a przedsiębiorstwami z branży mediów społecznościowych, umowy licencyjne będą oznaczały, że dane te będą aktywnie sprzedawane, a nie tylko usuwane z sieci.
Co jednak można zrobić w kwestii przyszłego przetwarzania danych? Meta wprowadziła formularz dotyczący praw podmiotu danych związanych z generatywną sztuczną inteligencją, który umożliwia wyrażenie sprzeciwu lub ograniczenie przetwarzania danych osobowych przez strony trzecie w celu trenowania generatywnych modeli AI firmy Meta.
Warto zaznaczyć, że ta opcja nie pozwala na sprzeciw wobec przetwarzania danych przez firmę Meta na własną rękę w celu szkolenia generatywnej sztucznej inteligencji. Co więcej, w przypadku wysłania zgłoszenia sprzeciwu dotyczącego wykorzystania moich danych osobowych za pomocą tego formularza, obsługa techniczna zażądała dowodu na to, że moje dane osobowe faktycznie pojawiły się w generatywnych wynikach sztucznej inteligencji Meta.
Tumblr również wprowadził możliwość rezygnacji z udostępniania treści z publicznych blogów osobom trzecim. Można to zrobić, zmieniając ustawienia bloga. W ustawieniach, po kliknięciu bloga, należy przejść do opcji widoczności, gdzie znajduje się opcja „Zapobiegaj udostępnianiu bloga osobom trzecim”.
W przypadku platformy takiej jak Instagram, można spróbować zmienić ustawienia konta na prywatne, aby uniemożliwić wykorzystanie danych. Nie jest to gwarancja całkowitej ochrony, jednak biorąc pod uwagę, że pobieranie danych dla modeli LLM zdaje się skupiać na danych publicznych, może to stanowić pewnego rodzaju zabezpieczenie.
Podobne działanie, ustawienie prywatnego konta, można zastosować również w przypadku platformy X (Twitter), ale i tutaj jest to jedynie potencjalne zabezpieczenie, a nie całkowita gwarancja zachowania prywatności danych.
Wspólne oświadczenie wydane przez wielu krajowych komisarzy i ekspertów ds. informacji z całego świata również zawiera sugestie dla osób, które chcą zminimalizować ryzyko naruszenia prywatności w wyniku gromadzenia danych przez firmy zajmujące się sztuczną inteligencją. Porady te obejmują:
- Dokładne zapoznanie się z warunkami i polityką prywatności danej strony internetowej, aby sprawdzić, w jaki sposób udostępnia ona dane osobowe.
- Ograniczanie informacji publikowanych w Internecie, zwłaszcza tych o charakterze wrażliwym.
- Zarządzanie ustawieniami prywatności.
- Długoterminowe rozważenie, jakie informacje udostępnia się online.
- W przypadku podejrzenia, że dane zostały pobrane w nieodpowiedni sposób, skontaktowanie się z firmą prowadzącą daną platformę społecznościową lub stronę internetową. Jeśli odpowiedź firmy nie jest satysfakcjonująca, należy złożyć skargę do odpowiedniego organu ochrony danych.
W razie obaw co do dostępności danych dla osób trzecich można również usunąć określone informacje z sieci. Należy jednak pamiętać, że dane, które były publicznie dostępne w profilach, mogły już zostać pobrane.
Niestety, my, jako zwykli użytkownicy, mamy ograniczone możliwości w kwestii ochrony naszych danych przed firmami zajmującymi się sztuczną inteligencją. Prawdziwa kontrola nad tymi danymi prawdopodobnie będzie możliwa dopiero przy wsparciu ze strony organów regulacyjnych.
newsblog.pl