26 niesamowitych otwartych zbiorów danych dla Twoich projektów Data Science/ML

Poszukiwanie odpowiednich zestawów danych może być zniechęcające, zwłaszcza gdy są potrzebne do projektów uczenia maszynowego (ML) i analizy danych. Ograniczamy Twoje wysiłki badawcze, dostarczając ostateczną listę bezpłatnych zestawów danych.

Zbiory danych to po prostu zbiory danych. Mogą to być dane finansowe, zdrowie społeczności, dane giełdowe, dane bankowe, dane geograficzne, dane z badań cząstkowych, oceny produktów w witrynie eCommerce itp.

Zestawy danych zawierają dane zebrane za pomocą standardu badań naukowych i są ważne dla dalszej wizualizacji, ekstrakcji, prognozowania itp. Ponieważ dane są odpowiednikiem ropy naftowej w cyfrowym wszechświecie, zestawy danych stają się komercyjne i coraz rzadsze.

Czytaj dalej, aby poznać podstawy zestawów danych. Odkryjesz również niektóre zestawy danych typu open source, które są naprawdę bezpłatne dla projektów uczenia maszynowego (ML) lub nauki o danych.

Czym są zbiory danych?

Zestawy danych to zbiór danych w zorganizowanym i zorganizowanym kontenerze. Zazwyczaj geodeci kojarzą zbiory danych z unikalnym organem, na przykład Open Data Banku Światowego.

Kolekcjonerzy danych przechowują zestawy danych związane z tematem, takim jak dane ze spisu ludności Stanów Zjednoczonych w 2020 r. opublikowane przez Biuro Spisu Ludności Stanów Zjednoczonych.

Znajdziesz wiele zbiorów danych dotyczących zagadnień globalnych i lokalnych. Większość zestawów danych zawiera powiązane ze sobą punkty danych. Na przykład populacja kraju i związek otyłości z różnymi klasami tej populacji.

Naukowcy zajmujący się danymi mogą potrzebować oczyścić, zrestrukturyzować i przetworzyć takie zbiory danych za pomocą narzędzi Big Data, aby dojść do cennych wniosków, takich jak redukcja odpadów z tworzyw sztucznych poprzez analizę danych dotyczących użytkowania tworzyw sztucznych, rozwiązywanie problemów z pracownikami poprzez analizę danych płacowych, szkolenie sztucznej inteligencji (AI) itd. na.

Rodzaje zbiorów danych

W zależności od źródła zbiorów danych mogą być publiczne lub prywatne. Publiczne zbiory danych są otwarte dla wszystkich i wnoszą duży wkład w badania i rozwój.

Ponownie, zbiory danych mogą być następujących typów w zależności od zawartych w nich informacji:

  • Wiele zmiennych: takie dane zawierają wiele zmiennych.
  • Kategoryczny: przedstawia wiele kategorii ludzi.
  • Numeryczne: takie zestawy danych mierzą dane w postaci liczb, takich jak wiek, wzrost itp.
  • Korelacja: W tym typie punkty danych są ze sobą powiązane.
  • Na podstawie plików: tutaj zestawy danych są przechowywane w plikach.
  • Dwuwymiarowa: zbiór danych z dwiema zmiennymi i zależnością między nimi.
  • Web Dataset: Dane zebrane z jednego lub wielu podobnych portali internetowych.
  • Baza danych: takie zestawy danych przechowują dane w tabelach, kolumnach i wierszach.

Zbiory danych typu Open Source dla projektów z zakresu nauki o danych

Bezpłatne zestawy danych są paliwem napędzającym Twoją pasję do kariery naukowej. Ponieważ jeśli jesteś na wczesnym etapie kariery naukowej w dziedzinie danych, możesz chcieć podjąć się realizacji osobistych i niekomercyjnych projektów, aby zyskać pewność siebie lub zbudować portfolio.

Po pierwsze, możesz łatwo przetestować nowo nabyte umiejętności, stosując narzędzia i techniki do rzeczywistych problemów z zestawami danych.

Na przykład istnieją ogólnodostępne dane z badań nad rakiem, dane Covid-19, dane z rejestrów kryminalnych FBI, dane z analizy cząstek z CERN itp. Możesz wykorzystać takie dane i zbudować model nauki o danych, aby odpowiedzieć na ważne problemy społeczne, finansowe i zdrowotne .

Po drugie, takie projekty działają jak wzmocnienie portfolio w Twojej karierze. Jeśli potrafisz zbudować skuteczny model analizy danych, który może oferować przydatne analizy, możesz zaprezentować te modele online, tworząc witryny z portfolio. Pracodawcy wolą projekty niż deklaracje celu.

Bezpłatne zestawy danych do projektów uczenia maszynowego

Podobnie jak specjalista ds. nauki danych, specjalista ML musi również pracować nad samodzielnie zarządzanymi projektami, aby zbadać swoje umiejętności. Jeśli projekt odniesie sukces, stanie się również idealnym komponentem dla twojego portfolio projektów ML online lub offline.

W związku z tym możesz teraz zrozumieć, że nauka o danych i rozwój ML zależą od ustrukturyzowanych zestawów danych. Gdyby takie zbiory danych były zbyt skomercjalizowane, badania i rozwój w dziedzinie nauki o danych stałyby się w pełni skoncentrowane na korporacjach.

Aby badania ML dotyczące nauki o danych były otwarte dla wszystkich, następujące agencje, instytucje i platformy oferują bezpłatne zestawy danych:

Data.gov

Znajdziesz wszystkie otwarte dane zebrane i przetworzone przez US Govt. w Data.gov. Platforma oferuje również zasoby i narzędzia do prowadzenia badań, projektowania wizualizacji danych, tworzenia aplikacji mobilnych/webowych itp.

Jego godne uwagi zbiory danych obejmują dane o zrównoważonym użytkowaniu gruntów, dane dotyczące mieszkalnictwa na obszarach wiejskich, elektroniczne mapy nawigacji śródlądowej itp.

Otwarte zbiory danych: Kaggle

Kaggle oferuje ocean danych publicznych i kodów komputerowych do projektów z zakresu analizy danych. Możesz wybrać zestawy danych dla danych surowych i kod dla kodów programowania. Popularne zbiory danych w Kaggle to dane AMEX, oglądalność Simpsonów, dane szkoleniowe Chatbota itp.

Segmentowe zbiory danych: YouTube 8-M

Segmentowanie zbiorów danych z YouTube 8-M umożliwia segmentowanie adnotacji zweryfikowanych przez audytorów. Możesz również uzyskać dostęp do zbioru danych YouTube-8M z tego samego portalu. Zestaw danych zawiera 6,1 miliona identyfikatorów wideo, 350 000 godzin wideo, 2,6 miliarda funkcji audio/wideo, 3863 klas filmów i średnio 3,0 etykiet na film.

Rejestr Otwartych Danych w AWS

ROD na AWS pomaga analitykom danych udostępniać i odkrywać zestawy danych hostowane w zasobach AWS. Niektóre interesujące zbiory danych, które można znaleźć tutaj, to Atlas genomu raka, zbiory danych Foldingathome COVID-19, Common Crawl itp.

Repozytorium uczenia maszynowego: UCI

Repozytorium UCI Machine Learning przechowuje obecnie 622 zestawy danych odpowiednie dla naukowców zajmujących się danymi i inżynierów ML w celu trenowania ich modeli AI. Dostępny jest również przeszukiwalny interfejs do badania baz danych. Popularne atrakcje to zestaw danych Akcelerometr, zestaw danych maszyny synchronicznej, Wikipedia Math Essentials, zestaw tureckich nagłówków itp.

Publiczne zbiory danych BigQuery: Google Cloud

Wiele publicznych zbiorów danych jest przechowywanych w BigQuery. Google udostępnia zbiór danych bezpłatnie za pośrednictwem programu Google Cloud Public Dataset Program. Jednak bezpłatne zapytanie ma limit 1 TB miesięcznie. Możesz wykonywać standardowe zapytania SQL i starsze zapytania SQL.

Niesamowite publiczne zbiory danych: GitHub

Awesome Public Datasets to zbiór danych typu open source, który zawiera dane publiczne zorientowane na dany temat. Zbierane i sortowane na podstawie różnych blogów, odpowiedzi i opinii użytkowników, łączy bezpłatne i płatne zestawy danych dotyczących fizyki, sportu, oprogramowania, języka naturalnego i uczenia maszynowego.

Dane Banku Światowego

Otwarte dane Banku Światowego to platforma, na której otrzymujesz bezpłatny dostęp do globalnych danych rozwojowych. Oferuje również inne cenne zasoby, takie jak wstępnie sformatowane tabele i raporty. Możesz łatwo przeglądać według kraju lub wskaźnika, aby uzyskać wymagany zestaw danych.

PięćTrzydzieści Osiem: Dane

FiveThirtyEight to amerykańska strona internetowa, która zajmuje się analizą sondaży opinii, polityką, ekonomią i sportem. Możesz uzyskać dostęp do tych ankiet i prognoz za pośrednictwem zestawów danych z jego platformy. Możesz pobrać zestawy danych jednym kliknięciem.

ImageNet

ImageNet to baza danych obrazów, z której badacze na całym świecie mogą pozyskiwać zbiory danych o otwartym kodzie źródłowym do swoich niekomercyjnych projektów. Tutaj obrazy są zorganizowane w oparciu o hierarchię WordNet. Projekt odgrywa kluczową rolę w badaniach nad głębokim uczeniem na poziomie zaawansowanym.

Archiwa zbiorów danych: DANE UNICEF

Korzystając z archiwów zestawów danych, możesz uzyskać dostęp do zestawów danych zebranych przez UNICEF na całym świecie. Dane dotyczące migracji, przesiedleń, diety, łączności, edukacji, zdrowia, uczenia się, śmiertelności, przemocy, rozwoju dzieci, małżeństw dzieci, pracy dzieci oraz różne statystyki są dostępne tutaj.

Znajdź otwarte dane: rządowy z Wielkiej Brytanii

Jeśli Twój projekt potrzebuje danych publikowanych przez władze lokalne i rząd centralny Wielkiej Brytanii, Find Open Data to portal, który powinieneś sprawdzić. Obejmuje wydatki rządowe, biznes, zdrowie, edukację, obronę i inne zbiory danych.

Dane: Biuro Spisu Ludności Stanów Zjednoczonych

Czy potrzebujesz danych ze spisu powszechnego USA do odpowiedniego projektu? Możesz skorzystać z pomocy USCB Data. Tutaj możesz przeglądać dane, tabele, mapy i profile danych ze spisu ludności z 2020 r., jednocześnie wizualizując dane i korzystając z narzędzi danych.

Dane i statystyki: CDC

Amerykańska agencja federalna Centers for Disease Control and Prevention również udostępnia publicznie bezpłatne zestawy danych w celu uzyskania dostępu do danych i statystyk z tego portalu. Tematy zestawu danych to zdrowie środowiskowe, choroby przewlekłe, narodziny i urodzenie, zgony i śmiertelność, długość życia, urazy i przemoc, zdrowie reprodukcyjne, choroby podlegające obowiązkowi zgłoszenia krajowego itp.

Zbiory danych: MIT

Ten zestaw danych skupia się na danych dotyczących drgań indukujących wir. Centrum Inżynierii Oceanicznej na MIT udostępnia publicznie dostępne zestawy danych do analizy porównawczej kodu komputerowego. Zestawy danych są otwarte dla wszystkich, aby zapraszać nowe teorie z danych i synchronizować naukowców pracujących w tej samej dziedzinie.

Katalog danych Banku Światowego

Katalog Danych gromadzi bezpłatne zestawy danych, dzięki którym dane Banku Światowego związane z rozwojem są łatwo dostępne. Używanie go w różnych projektach to pestka, ponieważ możesz bez wysiłku wyszukiwać i pobierać preferowane informacje. Zawiera ponad 5000 zestawów danych obejmujących mikrodane, finanse i platformy energetyczne Banku Światowego.

Dane naukowe NASA

NASA oferuje dostęp do swoich danych archiwalnych w skoordynowanym archiwum danych kosmicznych (Space Science Data Coordinated Archive). Platforma ta jest ogromną pomocą dla ogółu społeczeństwa, zwłaszcza osób pracujących w edukacji i badaniach kosmicznych. Posiada 400 TB danych cyfrowych zawierających informacje o 550 kosmonautyce.

Zdobądź dane: Wewnątrz Airbnb

Airbnb to znany na całym świecie portal internetowy oferujący zakwaterowanie u rodziny goszczącej i wynajem wakacyjny. Oferuje również zbieranie danych z różnych miast na całym świecie z Get the Data. Możesz przeglądać miasto, aby szybko uzyskać dane. Ponadto na tym portalu możesz zażądać wymaganych danych i odczytać założenia dotyczące danych.

Dane internetowe: recenzje Amazon

Osoby zainteresowane badaniami rynku i recenzjami produktów powinny korzystać z zestawów danych dostarczonych przez Snap Web Data. Zawiera ponad 34 miliony recenzji użytkowników na Amazon, od czerwca 1995 do marca 2013. Zbiór danych zawiera zwykły tekst, informacje o produkcie, nazwę użytkownika, oceny i recenzję.

Dane MFW

Portal danych MFW jest przydatny dla wszystkich typów danych ekonomicznych i finansowych. Niezależnie od tego, czy szukasz danych finansowych MFW, zewnętrznych statystyk sektorowych, sztandarowych publikacji, czy danych mikroekonomii, tutaj możesz je znaleźć. Co więcej, możesz użyć filtra, aby uzyskać dane dotyczące kraju.

Ngramy w Książkach Google

Jeśli pracujesz nad częściami mowy i języka, Google Books Ngrams może Ci znacznie pomóc. Ten zbiór danych o otwartym kodzie źródłowym daje wyobrażenie o używaniu określonego słowa i frazy w historii lub w określonym przedziale czasowym. Źródłem tego zbioru danych są dokumenty cyfrowe indeksowane przez Google.

Dane rynkowe: Financial Times

Jeśli chcesz zdobyć rzetelne i dokładne dane dotyczące globalnych i regionalnych rynków akcji, Markets Data The Financial Times jest tutaj, aby Ci pomóc. Umożliwia pracę z danymi rynkowymi z Ameryki, Azji i Pacyfiku, Europy, Afryki i rynku globalnego.

Dane Ziemi: NASA

NASA zapewnia pełny i otwarty dostęp do swoich danych naukowych za pośrednictwem programu Earth Data, który pomaga zrozumieć naszą ojczystą planetę i realizować z nią projekty. Możesz znaleźć bezpłatne zestawy danych na temat atmosfery, biosfery, kriosfer, wymiarów człowieka, powierzchni lądu, oceanu, stałej ziemi, interakcji Słońca z Ziemią i hydrosfery lądowej.

Wyszukiwanie zbioru danych: Google

Jeśli jesteś studentem, badaczem lub naukowcem poszukującym zestawów danych do obsługi swojego projektu, możesz skorzystać z pomocy portalu Dataset Search. Można go nazwać wyszukiwarką zestawów danych, ponieważ umożliwia odnajdywanie zestawów danych przechowywanych w różnych raportach w Internecie za pomocą wyszukiwania słów kluczowych.

Otwarte dane: CERN

Europejska organizacja badawcza CERN posiada portal Otwartych Danych, z którego można korzystać w celu uzyskania dostępu do danych uzyskanych w ramach badań w CERN. Ten portal zbiorów danych zawiera dwa petabajty danych związanych z fizyką cząstek elementarnych. Ponadto zawiera aplikacje i dokumentację niezbędną do analizy danych.

Eksplorator danych o przestępstwach: FBI

Crime Data Explorer (CDE) to zestaw danych o otwartym kodzie źródłowym z FBI, który ma na celu zapewnienie łatwiejszego dostępu do udostępniania danych kryminalnych, niekryminalnych i organów ścigania. Platforma ta umożliwia nie tylko odkrywanie niezbędnych danych poprzez wizualizację i filtrowanie kategorii, ale także pobieranie danych w formacie CSV.

Ostatnie słowa

Jak dotąd przeszedłeś przez naprawdę wyczerpującą listę zestawów danych wysokiej jakości. Artykuł przedstawia dane z różnych nisz, takich jak nauki fizyczne, dokumentacja medyczna, badania kosmosu, rejestry kryminalne, oceny produktów itp.

W zależności od projektu z zakresu nauki o danych lub uczenia maszynowego, do którego się wybierasz, możesz dokonać wyboru. Prawie wszystkie zestawy danych zawierają również odpowiednie instrukcje, które pomogą Ci w projekcie.

Możesz również zainteresować się tymi zasobami, aby nauczyć się nauki o danych i uczenia maszynowego.