Data Science - Co to jest, definicja i koncepcja

Spisie treści:

Anonim

Nauka o danych to dyscyplina badająca, skąd pochodzi określona baza informacji. Omówiono również, w jaki sposób te zasoby mogą być interpretowane i reprezentowane w celu produktywnego wykorzystania.

Oznacza to, że data science to nauka związana z zarządzaniem bazami danych przechowywanymi w plikach cyfrowych, z których można wydobyć wiele przydatnych informacji jako wskaźników statystycznych. Mogą one pomóc np. firmie w podejmowaniu decyzji biznesowych.

Podobnie data science dostarcza narzędzi, które pozwalają nie tylko interpretować, ale także reprezentować na przykład na obrazach dostępne dane. Mamy więc między innymi histogram, diagram słupkowy, wykres kołowy.

Jak można wywnioskować, jest to nauka interdyscyplinarna, ponieważ obejmuje głównie wiedzę z matematyki, statystyki i informatyki.

Nauka o danych i typy danych

Należy również zauważyć, że data science może pracować z dwoma typami danych:

  • Zbudowany: Są to te, które są zorganizowane, takie jak te tabele z różnymi kolumnami, każda z inną kategorią, taką jak: imię, nazwisko, wiek, numer dokumentu tożsamości itp.
  • Niestrukturalne: Te, które nie odpowiadają określonemu formatowi, na przykład swobodnie napisany tekst. W takim przypadku musisz zinterpretować treść i wyodrębnić dane, którymi można zarządzać.

Biorąc pod uwagę wszystko, co zostało wyjaśnione, specjaliści specjalizujący się w data science muszą nie tylko posiadać umiejętności analityczne, ale muszą być w stanie przekazać treść przetwarzanych informacji.

Znaczenie nauki o danych

Nauka o danych jest ważna dla firm lub instytucji, które muszą pracować z dużą ilością danych. W ten sposób mogą stać się cenną informacją.

Naukę o danych możemy powiązać z Big Data, która polega na rozwijaniu mechanizmów zdolnych do przetwarzania i zarządzania ogromnymi danymi pochodzącymi z różnych źródeł. Celem jest przekształcenie ich w informacje nadające się do interpretacji przez człowieka i pomagające mu podejmować decyzje.

Te dane do przetworzenia mogą pochodzić z transakcji między osobami fizycznymi i organizacjami (takich jak operacje bankowe), codziennych działań ludzi (takich jak wyszukiwania w Internecie), maszyn (takich jak GPS telefonu komórkowego, który rejestruje, gdzie przebywał użytkownik) lub informacji biometryczne (takie jak odcisk palca).

Historia nauki o danych

Można powiedzieć, że amerykański statystyk John Wilder Tukey był pionierem nauki o danych w latach 60. XX wieku, kładąc nacisk na znaczenie analizy danych, a nie testowania modeli statystycznych.

Jednak dopiero w 1996 roku termin data science został użyty po raz pierwszy w tytule wykładu, w referacie zatytułowanym: „Nauka o danych, klasyfikacja i metody pokrewne”. Było to w ramach spotkania członków „Międzynarodowej Federacji Towarzystw Klasyfikacyjnych” (IFCS), które odbyło się w Kobe w Japonii.

Kolejny ważny kamień milowy nastąpił w 2005 r., kiedy The National Science Board opublikowała „Długowieczne kolekcje danych cyfrowych umożliwiające badania i edukację w XXI wieku”. W tym dokumencie naukowcy zajmujący się danymi są definiowani jako eksperci komputerowi, programiści baz danych i oprogramowania oraz specjaliści z innych dyscyplin (takich jak bibliotekarze i archiwiści), którzy mają kluczowe znaczenie dla skutecznego zarządzania zbiorem danych cyfrowych.

Jest to jednak nadal kierunek studiów, który wciąż się rozwija.