Впорядковані дані або охайні дані (англ. Tidy Data) – це добре структуровані дані, які не потребують додаткової очистки та маніпуляцій для їхньої обробки машиночитним способом. Такі набори даних організовані так, що кожна змінна є стовпчиком, а кожне спостереження є рядком.
Хедлі Вікхем у “Журналі статичного програмного забезпечення” перефразовує Льва Толстого і зазначає: “Всі впорядковані набори даних схожі, натомість кожен брудний набір брудний по-своєму”. Автор також наводить досить популярну статистику: “80% аналізу даних – це час витрачений на їхню підготовку”. Саме тому важливо забезпечити не лише наявність інформації, але й високу якість та структурованість даних.
Безумовно усі набори даних відрізняються, бо несуть різну інформацію. Проте відомий дата-вчений Джефф Лік у своїй книзі “Елементи аналітичного стилю даних” підсумовує чотири головні характеристики будь-яких чистих даних:
- Кожна змінна (variable), яку ви вимірюєте, повинна бути в одному стовпці.
- Кожне окреме спостереження (observation) цієї змінної – в окремому рядку.
- Для кожного “виду” змінної має бути одна таблиця.
- Якщо у вас є декілька таблиць – вони повинні включати стовпець (ідентифікатор) у таблиці, завдяки якому їх можна поєднати.
У простому розумінні, значна частина даних – це таблиці. Таблиця – це впорядкована сукупність стовпчиків та рядків.
Один рядок таблиці – це одна одиниця Ваших даних, мовою статистики, одне спостереження.
Один стовпчик – це одна змінна, тобто значення, яке змінюється від рядка до рядка.
Як приклад впорядкованих даних, можемо розглянути інформацію про студентів університету. Кожен студент – це окреме спостереження, яке має свої унікальні характеристики – це і є змінні. Такими змінними можуть виступати ім’я, стать, вік, колір волосся, дата народження, гастрономічні смаки тощо.
Тобто, стандарт охайних даних розроблений того, щоб полегшити початкове сприйняття даних та їхній подальший аналіз, а також для спрощення розвитку інструментів аналізу даних, які добре працюють в сукупності.