Рано или поздно любой бизнес-аналитик сталкивается с некачественными данными. Неточные, частичные, запутанные – все они вызывают головную боль. Начинаются танцы с бубном по прикручиванию источников и обработки в Excel, скриптами, коннекторами и сложными схемами.

Как показала практика, процесс подготовки данных – основная часть работы. Сюда входит обнаружение ошибок, преобразование структуры и очистка. В итоге, под ударом оказывается конечный потребитель – бизнес – так как снижается скорость разработки отчётов, а порой и их качество.

Компании не только упускают возможности, но и теряют деньги. Проведённые Gartner исследования показывают, что «средний финансовый эффект низкого качества данных для организаций обходится в $9,7 млн. в год».

Откуда же берутся грязные данные?

Чем крупнее организация и, соответственно, поток данных, тем больше шагов предпринимается для их стандартизации. Но и процент неточностей выше. В чём причина?

  1. Человеческая ошибка

Люди – самая распространенная причина появления грязных данных, согласно исследованиям Experian. Вариативность методов ввода, ручное внесение в электронные таблицы и даже простая орфографическая ошибка создают кучу проблем для аналитика.

  1. Разрозненные системы и источники

Организации часто хранят данные в нескольких системах, с разными структурами, требованиями к интеграции и агрегации. В итоге получаются дублирующиеся или отсутствующие поля и гора несогласованных таблиц. Плюс, данные могут использовать различные имена или значения в разных системах.

  1. Изменение требований

В процессе развития компании администраторы и инженеры данных всё чаще начинают менять детализацию внесения, в лучшем случая создавая новые поля, в худшем – переписывая всю структур. Часто аналитики даже не подозревают об изменениях, пока не экспортируют данные в BI-систему. Здравствуй, бардак.

Вопросы подготовки данных и способы их решения.

Трудоёмкие процессы в разных отделах

Большая часть работы – это не анализ данных, а их очистка и переформатирование. Хорошо, если это происходит в ETL-системе, а ведь в ход могут пойти и самописные Excel-таблицы. И каждый раз, когда поступают новые данные, аналитикам необходимо вручную повторить эти этапы.

Помимо разочарования аналитик и бизнес-пользователи получают бонусом необходимость бороться за каждый “правильный” кусочек информации.

Традиционно подготовка данных занимается IT-отдел. У них есть доступ, необходимый для внедрения новых источников в централизованные хранилища. А иногда несколько команд отвечают за разные сегменты работы с информацией, так что аналитик в конце может вообще слабо представлять, сколько было этапов “переработки”.

Решение: Разработка гибких процессов и выбор правильных инструментов.

“Примите решение довериться специалисту по работе с данными, обеспечив его необходимыми инструментами и доступами. Это позволит не дожидаться своей очереди в цепочке, увеличит качество отчётности и снизит нагрузку на ИТ“

Venkatesh Shivanna, старший аналитик и архитектор данных. Разработка компьютерных игр.

Подготовка требует глубокого знания данных компании

Перед подготовкой данных важно понять их местоположение, структуру и состав, а также детали, например, определения полей. Специалисты называют этот процесс «обнаружением данных». Это фундаментальный элемент подготовки.

Возможность самостоятельно подготавливать данные в BI-инструментах значительно облегчило работу. Но большое количество аналитики отвлекает от структуры компании, от других отделов, которые и являются генераторами исходной информации.

Какие данные существуют, где они живут, как они определены другими подразделениями? Путаница в определениях может препятствовать анализу или, что ещё хуже, привести к неточным результатам.

Решение: создание стандартов компании для определения данных.

Цель стандартизации – снизить количество деталей и определения полей, которые разнятся от отдела к отделу. Выходом может стать создание единого словаря данных. Это даст возможность аналитикам понять, как термины используются в каждом сегменте бизнеса.

Brian Davis, инженер-проектировщик энергетической компании, назвал такой словарь «бесценным».

Постоянно мониторьте и внедряйте стандарты хранения и внесения данных. Эта работа может привести к невероятным результатам, если следить за актуальностью словаря. Управленческий контроль необходим на всех этапах: создание глоссария, его дислокация, частота обновления и т.д. Устаревание словаря или его несоблюдение работниками может нанести ущерб и привести к получению неверных данных.

Реальность подготовки данных разными отделами. Data Prep

Комплексные ETL-системы могут быть достаточно сложными, а это сразу ограничевает количество опытных пользователей. Но! Даже если аналитики и бизнес-пользователи не имеют доступа к средствам подготовки данных, это не значит, что они не могут выполнять эти задачи в других приложениях. На сегодняшний день есть инструменты, доступные для пользователей с разным уровнем технической подготовки. Как найти баланс в работе простого и IT-пользователя с хорошо структурированными данными и не дублировать работу? Наличие несогласованных подразделений подготовки данных приводит к снижению эффективности, масштабируемости и управляемости.

“Чем больше хранилищ у нас есть, тем больше интерпретаций данных. Это вызывает недоверие к результату.”

Jason harmer, операционный директор в национальной страховой компании

Решение: Совместная работы в процессе подготовки данных.

Комбинируйте возможности разных отделов. Исследование Business Application Research Center (BARC) показали, что самые довольные результатом аналитики компании те, в которых “подготовка данных была совместной работой между IT и отделами бизнеса.”

Даёшь власть аналитикам! Поскольку в работе с данными главная роль исторически отведена IT, важно, чтобы аналитики знали о всех нюансах, включая детализацию, преобразования или дополнения. Спланируйте регулярные сессии бизнеса и админов, делитесь стандартизованными рабочими процессами и позвольте аналитикам быстрее и эффективнее готовить данные.

Автор: Юлия Гриц

Источники:
Tableau whitepaper
Gartner, Smarter with Gartner, How to Create a Business Case for Data Quality Improvement. January 9, 2017
TDWI, TDWI Upside, Five Key Elements Your Data Governance Business Glossary May Be Missing. February 16, 2016