26 niesamowitych otwartych zbiorów danych dla Twoich projektów Data Science/ML

Znalezienie odpowiednich zbiorów danych bywa frustrujące, szczególnie gdy są one kluczowe dla projektów z zakresu uczenia maszynowego (ML) i analizy danych. Ułatwiamy Ci zadanie, prezentując obszerną listę bezpłatnych zestawów danych, które możesz wykorzystać.

Zbiory danych to po prostu kolekcje informacji. Mogą one obejmować dane finansowe, informacje o zdrowiu publicznym, dane giełdowe, dane bankowe, dane geograficzne, wyniki badań naukowych, oceny produktów w sklepach internetowych i wiele innych.

Zestawy danych zawierają informacje zgromadzone zgodnie ze standardami badań naukowych i są niezbędne do dalszej wizualizacji, analizy, wyciągania wniosków i prognozowania. W cyfrowym świecie dane są porównywalne do ropy naftowej, dlatego zbiory danych stają się coraz bardziej wartościowe i trudniej dostępne.

Zachęcamy do zapoznania się z dalszą częścią artykułu, aby zrozumieć podstawowe pojęcia związane ze zbiorami danych. Odkryjesz tu także szereg otwartych zbiorów danych, które możesz wykorzystać bezpłatnie w swoich projektach związanych z uczeniem maszynowym (ML) i nauką o danych.

Czym właściwie są zbiory danych?

Zestawy danych to zorganizowane i uporządkowane zbiory informacji. Osoby zajmujące się badaniami często kojarzą zbiory danych z konkretnymi instytucjami, na przykład z Bankiem Światowym i jego Open Data Bank.

Osoby i organizacje gromadzące dane, przechowują zbiory danych tematycznie. Przykładem mogą być dane ze spisu ludności Stanów Zjednoczonych z 2020 roku, udostępnione przez Biuro Spisu Ludności USA.

Dostępnych jest wiele zbiorów danych dotyczących zarówno problemów o zasięgu globalnym, jak i lokalnym. Większość zestawów danych zawiera wzajemnie powiązane elementy informacji. Przykładem może być populacja danego kraju oraz powiązanie otyłości z różnymi grupami tej populacji.

Specjaliści od analizy danych często muszą oczyścić, przetworzyć i przekształcić takie zbiory, korzystając z narzędzi Big Data. Ma to na celu wyciągnięcie z nich cennych wniosków, takich jak: ograniczenie ilości odpadów z tworzyw sztucznych dzięki analizie danych o ich zużyciu, rozwiązywanie problemów pracowniczych poprzez analizę danych o wynagrodzeniach, szkolenie sztucznej inteligencji (AI) i wiele innych.

Rodzaje zbiorów danych

W zależności od źródła, zbiory danych mogą być publiczne lub prywatne. Publiczne zbiory danych są dostępne dla każdego i mają duże znaczenie dla rozwoju badań naukowych i technologicznych.

Zbiory danych można także klasyfikować na podstawie rodzaju zawartych w nich informacji:

  • Wielozmienne: zbiory danych zawierające wiele zmiennych.
  • Kategoryczne: zbiory danych przedstawiające różne kategorie, np. osób.
  • Numeryczne: zbiory danych zawierające dane wyrażone liczbowo, takie jak wiek czy wzrost.
  • Korelacyjne: zbiory danych, w których elementy informacji są ze sobą powiązane.
  • Plikowe: zbiory danych przechowywane w plikach.
  • Dwuwymiarowe: zbiory danych z dwiema zmiennymi i zależnościami między nimi.
  • Web Dataset: dane zgromadzone z jednego lub wielu portali internetowych o podobnym charakterze.
  • Bazodanowe: zbiory danych przechowywane w tabelach, kolumnach i wierszach.

Otwarte zbiory danych dla projektów z zakresu nauki o danych

Dostęp do bezpłatnych zbiorów danych to motor napędowy kariery naukowca zajmującego się danymi. Jeśli dopiero rozpoczynasz swoją drogę w tej dziedzinie, z pewnością zechcesz realizować własne, niekomercyjne projekty. Pozwoli Ci to nabrać pewności siebie i zbudować portfolio.

Możesz w praktyce przetestować swoje umiejętności, stosując narzędzia i techniki do analizy rzeczywistych problemów z wykorzystaniem konkretnych zbiorów danych.

Przykładowo, istnieją ogólnodostępne dane z badań nad rakiem, dane dotyczące pandemii COVID-19, dane z rejestrów przestępstw FBI, dane z analizy cząstek w CERN. Możesz wykorzystać te informacje do budowy modeli nauki o danych, które pomogą w rozwiązywaniu istotnych problemów społecznych, finansowych i zdrowotnych.

Takie projekty stanowią też solidne wzmocnienie Twojego portfolio. Jeśli potrafisz stworzyć skuteczny model analizy danych, dostarczający wartościowych wniosków, możesz zaprezentować go online, budując stronę internetową z portfolio. Pracodawcy bardziej cenią konkretne projekty niż deklaracje celów.

Bezpłatne zbiory danych dla projektów uczenia maszynowego

Podobnie jak w przypadku specjalistów od analizy danych, eksperci ML także powinni pracować nad samodzielnymi projektami, aby doskonalić swoje umiejętności. Sukces takiego projektu to idealny element Twojego portfolio projektów ML online i offline.

Z pewnością rozumiesz już, że rozwój nauki o danych i ML w dużej mierze zależy od dostępności dobrze zorganizowanych zbiorów danych. Gdyby takie zbiory danych były zbyt skomercjalizowane, badania i rozwój w dziedzinie nauki o danych byłyby w pełni podporządkowane korporacjom.

Aby badania naukowe w dziedzinie ML były dostępne dla wszystkich, wiele agencji, instytucji i platform udostępnia bezpłatne zbiory danych:

Data.gov

Na Data.gov znajdziesz wszystkie otwarte dane zgromadzone i przetworzone przez rząd USA. Platforma oferuje także narzędzia i zasoby pomocne w prowadzeniu badań, projektowaniu wizualizacji danych oraz tworzeniu aplikacji mobilnych i internetowych.

Do interesujących zbiorów danych należą informacje o zrównoważonym wykorzystaniu gruntów, dane dotyczące mieszkalnictwa na obszarach wiejskich i elektroniczne mapy nawigacji śródlądowej.

Otwarte zbiory danych: Kaggle

Kaggle oferuje bogaty zbiór publicznych danych i kodów programistycznych dla projektów związanych z analizą danych. Możesz wybierać spośród surowych danych oraz gotowych fragmentów kodu. Do popularnych zbiorów danych należą: dane AMEX, dane o oglądalności serialu „Simpsonowie” oraz dane do treningu chatbotów.

Segmentowane zbiory danych: YouTube 8-M

Segmentacja danych z YouTube 8-M umożliwia segmentację adnotacji zweryfikowanych przez audytorów. Na tym samym portalu można uzyskać dostęp do zbioru danych YouTube-8M. Zawiera on 6,1 miliona identyfikatorów wideo, 350 000 godzin materiału wideo, 2,6 miliarda cech audio/wideo, 3863 kategorii filmów i średnio 3,0 etykiet na film.

Rejestr Otwartych Danych w AWS

ROD na platformie AWS pomaga analitykom danych w udostępnianiu i wyszukiwaniu zbiorów danych hostowanych w zasobach AWS. Do interesujących zbiorów danych należą: Atlas Genomu Raka, zbiory danych Foldingathome COVID-19, Common Crawl.

Repozytorium uczenia maszynowego: UCI

Repozytorium UCI Machine Learning zawiera aktualnie 622 zbiory danych, które mogą być wykorzystane przez naukowców i inżynierów ML do trenowania modeli sztucznej inteligencji. Dostępny jest także interfejs umożliwiający przeszukiwanie bazy danych. Wśród popularnych zbiorów znajdują się: dane z akcelerometru, dane maszyn synchronicznych, zbiory Wikipedia Math Essentials oraz zbiory tureckich nagłówków.

Publiczne zbiory danych BigQuery: Google Cloud

Wiele publicznych zbiorów danych jest przechowywanych w BigQuery. Google udostępnia te zbiory bezpłatnie w ramach programu Google Cloud Public Dataset Program. Bezpłatne zapytania są jednak ograniczone limitem 1 TB miesięcznie. Możesz wykonywać standardowe zapytania SQL i starsze zapytania SQL.

Niesamowite publiczne zbiory danych: GitHub

Awesome Public Datasets to otwarte zbiory danych o różnorodnej tematyce. Gromadzone i sortowane na podstawie wpisów blogowych, odpowiedzi i opinii użytkowników, łączą bezpłatne i płatne zbiory danych z dziedziny fizyki, sportu, oprogramowania, języka naturalnego oraz uczenia maszynowego.

Dane Banku Światowego

Otwarte dane Banku Światowego to platforma umożliwiająca bezpłatny dostęp do globalnych danych dotyczących rozwoju. Oferuje także inne cenne zasoby, takie jak gotowe tabele i raporty. Możesz przeglądać dane według kraju lub wskaźnika, aby znaleźć interesujący Cię zbiór.

PięćTrzydzieści Osiem: Dane

FiveThirtyEight to amerykańska strona internetowa zajmująca się analizą sondaży opinii, polityki, ekonomii i sportu. Możesz uzyskać dostęp do danych z tych sondaży i prognoz za pośrednictwem zbiorów danych na platformie. Zestawy danych można pobrać jednym kliknięciem.

ImageNet

ImageNet to baza obrazów, która umożliwia naukowcom z całego świata pozyskiwanie otwartych zbiorów danych do niekomercyjnych projektów. Obrazy w bazie są zorganizowane w oparciu o hierarchię WordNet. Projekt odgrywa kluczową rolę w zaawansowanych badaniach nad głębokim uczeniem.

Archiwa zbiorów danych: DANE UNICEF

Archiwa zbiorów danych dają dostęp do informacji zgromadzonych przez UNICEF z całego świata. Znajdziesz tu dane dotyczące migracji, przemieszczeń ludności, żywienia, łączności, edukacji, zdrowia, uczenia się, umieralności, przemocy, rozwoju dzieci, małżeństw dzieci, pracy dzieci oraz szereg innych statystyk.

Znajdź otwarte dane: rząd Wielkiej Brytanii

Jeśli w Twoim projekcie potrzebne są dane publikowane przez władze lokalne i rząd centralny Wielkiej Brytanii, platforma Find Open Data jest miejscem, które warto odwiedzić. Zawiera dane z zakresu wydatków rządowych, biznesu, zdrowia, edukacji, obrony oraz wiele innych.

Dane: Biuro Spisu Ludności Stanów Zjednoczonych

Potrzebujesz danych ze spisu powszechnego USA do swojego projektu? Możesz skorzystać z USCB Data. Znajdziesz tu dane, tabele, mapy i profile danych ze spisu ludności z 2020 r. Możesz także wizualizować dane i korzystać z dostępnych narzędzi.

Dane i statystyki: CDC

Amerykańska agencja federalna Centers for Disease Control and Prevention również udostępnia publicznie bezpłatne zestawy danych. Możesz uzyskać dostęp do danych i statystyk z tej platformy. Tematyka zbiorów danych obejmuje m.in. zdrowie środowiskowe, choroby przewlekłe, narodziny, zgony i umieralność, długość życia, urazy, przemoc, zdrowie reprodukcyjne oraz choroby podlegające obowiązkowi zgłoszenia krajowego.

Zbiory danych: MIT

Ten zbiór danych koncentruje się na informacjach dotyczących drgań indukujących wir. Centrum Inżynierii Oceanicznej na MIT udostępnia publicznie zbiory danych do analizy porównawczej kodów. Zbiory te są otwarte dla wszystkich, zachęcając do opracowywania nowych teorii na podstawie danych oraz do współpracy naukowców w tej dziedzinie.

Katalog danych Banku Światowego

Katalog Danych gromadzi bezpłatne zbiory danych, które ułatwiają dostęp do informacji Banku Światowego związanych z rozwojem. Korzystanie z niego w projektach jest bardzo proste, dzięki intuicyjnej wyszukiwarce i łatwemu pobieraniu danych. Katalog zawiera ponad 5000 zestawów danych obejmujących mikrodane, dane finansowe i platformy energetyczne Banku Światowego.

Dane naukowe NASA

NASA udostępnia swoje dane archiwalne w skoordynowanym archiwum danych kosmicznych (Space Science Data Coordinated Archive). Platforma stanowi ogromną pomoc dla społeczeństwa, szczególnie dla osób zajmujących się edukacją i badaniami kosmicznymi. Zawiera 400 TB danych cyfrowych z informacjami o 550 misjach kosmicznych.

Zdobądź dane: Wewnątrz Airbnb

Airbnb, znany portal oferujący zakwaterowanie i wynajem wakacyjny, udostępnia również dane z różnych miast na całym świecie na platformie Get the Data. Możesz przeglądać dane poszczególnych miast. Możesz również poprosić o potrzebne informacje i zapoznać się z założeniami dotyczącymi danych.

Dane internetowe: recenzje Amazon

Osoby zainteresowane badaniami rynku i recenzjami produktów, powinny skorzystać z zestawów danych udostępnianych przez Snap Web Data. Zawierają one ponad 34 miliony recenzji użytkowników z Amazon, z okresu od czerwca 1995 do marca 2013. Zbiory danych obejmują zwykły tekst, informacje o produktach, nazwy użytkowników, oceny i recenzje.

Dane MFW

Portal danych MFW zawiera wiele informacji ekonomicznych i finansowych. Niezależnie od tego, czy poszukujesz danych finansowych MFW, zewnętrznych statystyk sektorowych, flagowych publikacji, czy też danych mikroekonomicznych, znajdziesz je na tej platformie. Dodatkowo, możesz filtrować dane według kraju.

Ngramy w Książkach Google

Jeśli pracujesz nad zagadnieniami związanymi z językiem, Google Books Ngrams może okazać się bardzo przydatne. Ten otwarty zbiór danych przedstawia informacje o historycznym użyciu słów i fraz w określonym przedziale czasowym. Źródłem danych są zindeksowane przez Google dokumenty cyfrowe.

Dane rynkowe: Financial Times

Jeśli potrzebujesz wiarygodnych i dokładnych danych o globalnych i regionalnych rynkach akcji, Markets Data The Financial Times jest platformą dla Ciebie. Zapewnia dostęp do danych rynkowych z Ameryki, Azji i Pacyfiku, Europy, Afryki oraz globalnego rynku.

Dane Ziemi: NASA

NASA oferuje pełny i otwarty dostęp do swoich danych naukowych za pośrednictwem programu Earth Data, który pomaga w zrozumieniu naszej planety i prowadzeniu projektów z nią związanych. Znajdziesz tu bezpłatne zbiory danych z zakresu atmosfery, biosfery, kriosfery, wymiarów ludzkich, powierzchni lądu, oceanów, stałej ziemi, interakcji Słońca z Ziemią i hydrosfery.

Wyszukiwanie zbioru danych: Google

Jeśli jesteś studentem, badaczem lub naukowcem i szukasz zbiorów danych do swojego projektu, skorzystaj z portalu Dataset Search. Można go nazwać wyszukiwarką zbiorów danych, która umożliwia odnajdywanie zbiorów przechowywanych w różnych miejscach w Internecie, za pomocą wyszukiwania słów kluczowych.

Otwarte dane: CERN

Europejska organizacja badawcza CERN posiada portal otwartych danych, który umożliwia dostęp do informacji uzyskanych w trakcie badań w CERN. Portal zawiera dwa petabajty danych związanych z fizyką cząstek elementarnych. Dostępne są także aplikacje i dokumentacja niezbędne do analizy tych danych.

Eksplorator danych o przestępstwach: FBI

Crime Data Explorer (CDE) to otwarty zbiór danych FBI, który ułatwia dostęp do informacji dotyczących przestępczości i działań organów ścigania. Platforma umożliwia nie tylko wyszukiwanie potrzebnych danych poprzez wizualizację i filtrowanie kategorii, ale także pobieranie informacji w formacie CSV.

Podsumowanie

Przedstawiona lista bezpłatnych zbiorów danych jest naprawdę imponująca. Artykuł obejmuje dane z różnych dziedzin, takich jak: nauki fizyczne, dokumentacja medyczna, badania kosmosu, rejestry przestępstw, oceny produktów i wiele innych.

W zależności od projektu z zakresu nauki o danych lub uczenia maszynowego, który chcesz zrealizować, możesz wybrać odpowiedni zbiór danych. Prawie wszystkie zestawy danych zawierają również instrukcje, które pomogą Ci w projekcie.

Być może zainteresują Cię również te zasoby, które pomogą Ci w nauce o danych i uczeniu maszynowym.