Впорядковані дані (Tidy Data) – що це?

Впорядковані дані (Tidy Data) або охайні дані – це добре структуровані дані, які не потребують додаткової очистки та маніпуляцій для їхньої обробки машиночитним способом. Такі набори даних організовані так, що кожна змінна є стовпчиком, а кожне спостереження є рядком.

Впорядковані дані (Tidy Data) — це структурований підхід до організації даних для зручності аналізу.”

Хедлі Вікхем у “Журналі статичного програмного забезпечення” зазначає: “Всі впорядковані набори даних схожі, натомість кожен брудний набір брудний по-своєму”. Автор також наводить досить популярну статистику: “80% аналізу даних – це час витрачений на їхню підготовку”. Саме тому важливо забезпечити не лише наявність інформації, але й високу якість та структурованість даних.

Безумовно усі набори даних відрізняються, бо несуть різну інформацію. Проте відомий дата-вчений Джефф Лік у своїй книзі “Елементи аналітичного стилю даних” підсумовує чотири головні характеристики будь-яких чистих даних:

Кожна змінна (variable), яку ви вимірюєте, повинна бути в одному стовпці.
Кожне окреме спостереження (observation) цієї змінної – в окремому рядку.
Для кожного “виду” змінної має бути одна таблиця.
Якщо у вас є декілька таблиць – вони повинні включати стовпець (ідентифікатор) у таблиці, завдяки якому їх можна поєднати.

Отже, що ж таке Впорядковані дані (Tidy Data)?

У простому розумінні, значна частина даних – це таблиці. Таблиця – це впорядкована сукупність стовпчиків та рядків.

Один рядок таблиці – це одна одиниця Ваших даних, мовою статистики, одне спостереження.

Один стовпчик – це одна змінна, тобто значення, яке змінюється від рядка до рядка.

Як приклад впорядкованих даних, можемо розглянути інформацію про студентів університету. Кожен студент – це окреме спостереження, яке має свої унікальні характеристики – це і є змінні. Такими змінними можуть виступати ім’я, стать, вік, колір волосся, дата народження, гастрономічні смаки тощо.

Тобто, стандарт охайних даних розроблений того, щоб полегшити початкове сприйняття даних та їхній подальший аналіз, а також для спрощення розвитку інструментів аналізу даних, які добре працюють в сукупності.

Схожі публікації

Поговоримо про формати даних

Які бувають типи даних?