Рано чи пізно будь-який бізнес-аналітик стикається з неякісними даними. Неточні, часткові, заплутані – всі вони викликають головний біль. Починаються танці з бубном у роботі з джерелами і при обробці в Excel, скриптами, конекторами і складними схемами.

Як показала практика, процес підготовки даних – основна частина роботи. Сюди входить виявлення помилок, перетворення структури та чистка. У підсумку, під ударом виявляється кінцевий споживач – бізнес – так як знижується швидкість розробки звітів, а часом і їх якість.

Компанії не тільки втрачають можливості, але й втрачають гроші. Проведені Gartner дослідження показують, що “середній фінансовий ефект низької якості даних для організацій обходиться в $ 9,7 млн. в рік”.

Звідки ж беруться брудні дані?

Чим більша організація і, відповідно, потік даних, тим більше кроків робиться для їх стандартизації. Але і відсоток неточностей вище. В чому причина?

  1. Людська помилка

Люди – найпоширеніша причина появи брудних даних, згідно з дослідженнями Experian. Варіативність методів введення, ручне внесення в електронні таблиці і навіть проста орфографічна помилка створюють купу проблем для аналітика.

  1. Розрізнені системи і джерела

Організації часто зберігають дані в декількох системах, з різними структурами, вимогами до інтеграції та агрегації. У підсумку виходять пусті або задубльовані поля і гора неузгоджених таблиць. Плюс, дані можуть використовувати різні імена або значення в різних системах.

  1. Зміна вимог

У процесі розвитку компанії адміністратори і інженери даних все частіше починають міняти деталізацію внесення, в кращому випадку створюючи нові поля, в гіршому – переписуючи всю структуру. Часто аналітики навіть не підозрюють про зміни, поки не експортують дані в BI-систему. Привіт, бардак.

Питання підготовки даних і способи їх вирішення.

Трудомісткі процеси в різних відділах

Велика частина роботи – це не аналіз даних, а їх чистка і переформатування. Добре, якщо це відбувається в ETL-системі, адже в хід можуть піти і самописні Excel-таблиці. І кожен раз, коли надходять нові дані, аналітикам необхідно вручну повторити ці етапи.

Крім розчарування аналітик і бізнес-користувачі отримують бонусом необхідність боротися за кожен “правильний” шматочок інформації.

Традиційно підготовкою даних займається IT-відділ. У них є доступ, необхідний для впровадження нових джерел в централізовані сховища. А іноді кілька команд відповідають за різні сегменти роботи з інформацією, так що аналітик в кінці може взагалі слабо представляти, скільки було етапів “переробки”.

Рішення: Розробка гнучких процесів і вибір правильних інструментів.

“Прийміть рішення довіритися фахівцеві по роботі з даними, забезпечивши його необхідними інструментами і доступами. Це дозволить не чекати своєї черги в ланцюжку, збільшить якість звітності та знизить навантаження на ІТ “

Venkatesh Shivanna, старший аналітик і архітектор даних. Розробка комп’ютерних ігор.

Підготовка вимагає глибокого знання даних компанії

Перед підготовкою даних важливо зрозуміти їх місце розташування, структуру і склад, а також деталі, наприклад, визначення полів. Фахівці називають цей процес “виявленням даних”. Це фундаментальний елемент підготовки.

Можливість самостійно готувати дані в BI-інструментах значно полегшило роботу. Але велика кількість аналітики відволікає від структури компанії, від інших відділів, які і є генераторами вихідної інформації.

Які дані існують, де вони живуть, як вони визначені іншими підрозділами? Плутанина у визначеннях може перешкоджати аналізу або, що ще гірше, привести до неточних результатів.

Рішення: створення стандартів компанії для визначення даних.

Мета стандартизації – знизити кількість деталей і визначення полів, які різняться від відділу до відділу. Виходом може стати створення єдиного словника даних. Це дасть можливість аналітикам зрозуміти, як терміни використовуються в кожному сегменті бізнесу.

Brian Davis, інженер-проектувальник енергетичної компанії, назвав такий словник “безцінним”.

Постійно моніторьте і впроваджуйте стандарти зберігання та внесення даних. Ця робота може привести до неймовірних результатів, якщо стежити за актуальністю словника. Управлінський контроль необхідний на всіх етапах: створення глосарію, його дислокація, частота оновлення і т.д. Старіння словника або його недотримання працівниками може завдати шкоди і призвести до отримання невірних даних.

Реальність підготовки даних різними відділами. Data Prep

Комплексні ETL-системи можуть бути досить складними, а це відразу відмежовує кількість досвідчених користувачів. Але! Навіть якщо аналітики і бізнес-користувачі не мають доступу до засобів підготовки даних, це не означає, що вони не можуть виконувати ці завдання в інших додатках. На сьогоднішній день є інструменти, доступні для користувачів з різним рівнем технічної підготовки. Як знайти баланс в роботі простого і IT-користувача з добре структурованими даними і не дублювати роботу? Наявність неузгоджених підрозділів підготовки даних призводить до зниження ефективності, масштабованості і керованості.

“Чим більше сховищ у нас є, тим більше інтерпретацій даних. Це викликає недовіру до результату.”

Jason harmer, операційний директор в національній страховій компанії

Рішення: Спільна робота в процесі підготовки даних.

Комбінуйте можливості різних відділів. Дослідження Business Application Research Center (BARC) показали, що самі задоволені результатом аналітики компанії ті, в яких “підготовка даних була спільною роботою між IT і відділами бізнесу.”

Даєш владу аналітикам! Оскільки в роботі з даними головна роль історично відведена IT, важливо, щоб аналітики знали про всі нюанси, включаючи деталізацію, перетворення або доповнення. Сплануйте регулярні сесії бізнесу і адміністраторів, діліться стандартизованими робочими процесами і дозвольте аналітикам швидше і ефективніше готувати дані.

Автор: Юлія Гриць

Джерела:
Tableau whitepaper
Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement. January 9, 2017
TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing. February 16, 2016