Науката за данните е дисциплина, която изучава откъде идва определена информационна база. Той също така обсъжда как тези ресурси могат да бъдат интерпретирани и представени за продуктивна употреба.
Тоест науката за данните е свързана с управлението на бази данни, съхранявани в цифрови файлове, от които може да се извлече много полезна информация като статистически показатели. Те могат да помогнат, например, на компанията да взема бизнес решения.
По същия начин науката за данните предоставя инструменти, които позволяват не само да интерпретират, но и да представят, например, в изображения наличните данни. По този начин имаме хистограма, стълбовидна диаграма, кръгова диаграма, наред с други.
Както може да се заключи, тази наука е интердисциплинарна, тъй като обхваща предимно знания по математика, статистика и компютърни науки.
Наука за данните и типове данни
Трябва също да се отбележи, че науката за данните може да работи с два вида данни:
- Структуриран: Те са тези, които са организирани, като тези таблици с различни колони, всяка с различна категория като: име, фамилия, възраст, номер на документ за самоличност и т.н.
- Неструктуриран: Тези, които не отговарят на определен формат, например свободно написан текст. В този случай трябва да интерпретирате съдържанието и да извлечете данни, които могат да се управляват.
Като се вземе предвид всичко обяснено, специалистите, специализирани в науката за данни, трябва не само да имат аналитични умения, но трябва да могат да предават съдържанието на обработената от тях информация.
Значение на науката за данните
Науката за данните е важна за компании или институции, които трябва да работят с голямо количество данни. По този начин те могат да се превърнат в ценна информация.
Можем да свържем науката за данните с Big Data, която се състои от разработване на механизми, способни да обработват и управляват масивни данни, идващи от различни източници. Целта е да се превърнат в информация, която може да бъде интерпретирана от човека и която му помага да взема решения.
Тези данни за обработка могат да идват от транзакции между физически лица и организации (като банкови операции), ежедневни действия на хора (като търсения в Интернет), машини (като GPS на мобилния телефон, който записва къде е бил потребителят) или информация биометрични (като пръстови отпечатъци).
История на науката за данните
Може да се каже, че американският статистик Джон Уайлдър Тъки е пионер в науката за данните през 60-те години, подчертавайки важността на анализа на данните, вместо да тества статистически модели.
Въпреки това, едва през 1996 г. терминът наука за данни е използван за първи път в заглавието на лекция, в беседата, наречена: „Наука за данните, класификация и свързани методи“. Това, в рамките на срещата на членовете на „Международната федерация на класификационните дружества“ (IFCS), проведена в Кобе, Япония.
Друг важен крайъгълен камък е през 2005 г., когато „Националните научни съвети“ публикуват „Дълго съществуващи цифрови колекции от данни, позволяващи изследвания и образование през 21-ви век“. В този документ специалистите по данни се определят като компютърни експерти, програмисти на бази данни и софтуер и специалисти от други дисциплини (като библиотекари и архивисти), които са от решаващо значение за успешното управление на дигитално събиране на данни.
Това обаче все още е област на изследване, която все още се развива.