Великі Дані: Що Це Таке і Де Цьому Навчитися

Робота з даними, або Data Science – це наука про аналіз даних. Аналізувати дані потрібно для того, щоб з величезного масиву інформації витягувати конкретну та корисну інформацію: інсайти про поведінку споживачів, тенденції ринку, на основі яких можна робити якісні прогнози розвитку сфери, чи окремої індустрії. Data Science пов’язана з машинним навчанням (Machine Learning), наукою про мислення (Cognitive Science), а Big Data, в свою чергу є підрозділом Data Science.
Ти те, що ти лайкаєш
Big Data — це підходи та методи обробки структурованих та неструктурованих даних великих об’ємів. В свою чергу такі методи можуть бути застосовані і до невеликого об’єму даних, скажімо, до цієї статті.Впродовж існування люди згенерували величезні масиви інформації. Це дані про наші телефонні розмови, пересування, покупки в супермаркеті, візити до лікаря, пошукові запити, поведінка в соціальних мережах (лайки, публікації, репости) і так далі. Проаналізувавши усі ці дані, можна отримати чимало корисного про поведінку кожної людини.Раніше робота з даними виглядала наступним чином: людина задавала для комп’ютера алгоритми для обробки інформації, які приводили до очікуваного результату. Проте, зараз об’єми даних настільки великі, що такий метод застарів. Тому для роботи з великими даними застосовується машинне навчання: людина задає комп’ютеру певні ввідні дані, проте результат роботи такого алгоритму не визначений людиною. Людина обирає спосіб, за яким відбуватиметься машинне навчання, проте машина вчиться сама і аналізуючи масив даних власноруч приходить до тих чи інших результатів.

Illustration

Чим робота з Big Data відрізняється від традиційного data science  Традиційний Data Science Big Data Поступовий аналіз невеликих пакетів даних Аналіз всього масиву доступних даних Сортування та редагування даних перед аналізом Дані аналізують в початковому вигляді Початкове припущення і тестування відносно даних Пошук взаємозв’язків та самостійне отримання результатів Спочатку дані збирають, опрацьовують і зберігають, і лише потім аналізують Аналіз даних в реальному часі по мірі їхнього надходження
У новому підході до роботи з великими даними використовується машинне навчання, для того, щоб комп’ютер сам шукав результати опрацьованих даних. Наприклад, якщо раніше ми мали масив даних про покупки одного користувача інтернет-магазину, потрібно було самим робити припущення. Скажімо, ми вирішували, що покупець – фанат комп’ютерних ігор. Якщо ця гіпотеза підтверджувалась, на основі цих даних можна робити прогноз щодо наступних покупок і пропонувати клієнту знижки на товари цієї категорії. Але подібних гіпотез може бути безліч і така робота займала величезну кількість часу. Натомість за допомогою Machine learning алгоритмів, комп’ютер сам аналізує і видає результат з обробленої інформації. 
Таким чином американський супермаркет Target свого часу навчився прогнозувати покупки своїх клієнтів і виявив, що жінки, які купують багато паперових серветок, махрових мочалок та лосьйони без запаху, швидше за все, вагітні. Гіпотеза підтвердилась і супермаркету вдалося надсилати майбутнім мамам пропозиції товарів для немовлят ще до того, як про це дізнались їхні конкуренти. Щоправда, через такі точні прогнози компанії стався казус. Дівчина-підліток, що приховувала свою вагітність отримала від Target каталог з підгузками та коляскам і була змушена розповісти свій секрет раніше, ніж було заплановано. 
Для ІТ-індустрії Big Data – невід’ємна частина роботи, адже аналізуючи дані користувачів, можна отримати дослідити перспективи того, чи іншого продукту, прогнозувати ринок та поведінку клієнтів. Окрім ІТ, Big Data використовуються в маркетингу, фінансах, телекомунікаціях, рітейлі, енергетичній промисловості, державному секторі (все, що стосується електронного урядування) і так далі. Data Scientist – це одна з найпопулярніших професій майбутнього за рейтингами TechRepublic, Forbes, та World Economic Forum. А середня зарплата Data Science спеціаліста по світу вже зараз становить $117,000 в рік.
Де навчитись аналізувати дані?
На щастя, стати Data Scientist можливо і у Львові. Впродовж останніх кількох років у львівських університетах з’явилися інноваційні програми навчання, які відповідають вимогам ринку праці та сучасним тенденціям науки про дані. Зокрема, такі бакалаврські програми:у Львівській Політехніці (Бізнес аналітика та наука про дані)в ЛНУ ім.І.Франка (Великі дані та інтелектуальні системи,Статистистичний аналіз даних, Великі дані та Комп’ютерні науки)в УКУ (Комп’ютерні науки).Крім того, поповнити свої знання можна онлайн курсами на Prometheus, Coursera, а почати можна з базового курсу по Статистиці на Stepik
Нехай щастить у підкоренні величезних масивів даних!
За матеріалами Lviv IT Cluster