В этой статье мы расскажем, о чем говорили спикеры кейс-конференции BY DATA 2023. Фокус сделаем на том, что из себя представляет офис данных в компаниях, которые уже интегрировали постоянный сбор и анализ информации в свою стратегию и видят положительный эффект в бизнесе. Статья будет полезна как для тех компаний, которые уже пробуют внедрять data-driven подход в свои процессы, так и для тех, кто только планирует подступиться к этой задаче.
Александр Вдовиченко, директор департамента по работе с данными Альфа-Банка (Беларусь) представил свой взгляд на концепцию построения офиса данных и метрики data-driven. Согласно его выступлению, данные — мощный инструмент, способный приносить реальный доход. А ключевая роль офиса данных — помогать поставлять ценность данных.
Первая метрика — количество проверяемых гипотез. Успешная дата-стратегия должна обеспечивать конвейерную работу с гипотезами. Например, компания Мегафон проверяет 30 000 гипотез в год, Airbnb — 700 гипотез в день. Эти гипотезы подвергаются анализу с оценкой эффекта.
Вторая метрика связана с проникновением искусственного интеллекта (AI), глубокого обучения (DL) или машинного обучения (ML) в каждый процесс и продукт банка. Стратегическая цель банка включает в себя создание 100 моделей, которые охватывают различные области.
Третья метрика касается доли сотрудников, использующих среду самообслуживания для аналитики. Александр Вдовиченко отметил, что в современном мире каждый сотрудник должен уметь работать с аналитикой, извлекать данные и создавать дашборды. Он уверен, что функция данных должна разойтись по бизнесу. Не должно быть аналитиков-энтузиастов, а дата-сайентисты должны быть частью бизнес-подразделений. И в какой-то момент CDO в банке станет просто не нужен.
Вторая метрика связана с проникновением искусственного интеллекта (AI), глубокого обучения (DL) или машинного обучения (ML) в каждый процесс и продукт банка. Стратегическая цель банка включает в себя создание 100 моделей, которые охватывают различные области.
Третья метрика касается доли сотрудников, использующих среду самообслуживания для аналитики. Александр Вдовиченко отметил, что в современном мире каждый сотрудник должен уметь работать с аналитикой, извлекать данные и создавать дашборды. Он уверен, что функция данных должна разойтись по бизнесу. Не должно быть аналитиков-энтузиастов, а дата-сайентисты должны быть частью бизнес-подразделений. И в какой-то момент CDO в банке станет просто не нужен.
Существенным прорывом в стратегическом развитии data-driven в Альфа-Банке стало решение выделить направление данных в отдельное подразделение. Это позволило более активно развивать культуру и процессы работы с данными. В 2020 году офис данных насчитывал 10 человек, сегодня — это уже более 30 сотрудников.
Следующим важным этапом в развитии дата офиса стала пересмотренная стратегия его работы, которая выделила 4 основных направления:
- DWH — офис отвечает за развитие и сопровождение хранилищ данных и ETL-процессы.
- BI и data-governance — поддерживает репорт-сервер, разрабатывает дашборды и предоставляет консультации.
- AI/DL/ML — строит модели.
- Дата-партнеры — интегрированы в бизнес-подразделения, консультируют и работают в команде над дата-продуктами. Их цель — создание понятного и востребованного дата-продукта.
Также Александр отметил, что важной особенностью стратегии Альфа-Банка стала self-service аналитика. Было решено идти в децентрализацию и давать доступ к данным каждому сотруднику. Создав юзерфрендли среду, удобные интерфейсы и приведя качество данных до необходимого уровня, удалось изменить менталитет сотрудников компании, обеспечив им прямой доступ к данным.
«Основной key point, который мы вынесли из теории диффузии инноваций: люди делятся на инноваторов и опоздавших. Не надо пытаться объять необъятное и делать всех data-driven. Надо начать с тех, кто готов к этому, и дальше это станет обязательной вещью,» — утверждает Александр Вдовченко.
Спикер показал, что их 4-компонентная система дала положительные результаты и эффективно инкорпорировала данные в бизнес-процессы компании. Опыт Альфа-Банка свидетельствует о том, что data-driven подход действительно приносит прибыль и является важной частью бизнес-стратегии.
«Основной key point, который мы вынесли из теории диффузии инноваций: люди делятся на инноваторов и опоздавших. Не надо пытаться объять необъятное и делать всех data-driven. Надо начать с тех, кто готов к этому, и дальше это станет обязательной вещью,» — утверждает Александр Вдовченко.
Спикер показал, что их 4-компонентная система дала положительные результаты и эффективно инкорпорировала данные в бизнес-процессы компании. Опыт Альфа-Банка свидетельствует о том, что data-driven подход действительно приносит прибыль и является важной частью бизнес-стратегии.
Надо ли качество 100%?
На конференции много внимания уделили вопросу качества данных, который является одним из самых важных в контексте data-driven стратегии.
Алексей Карнаухов, директор департамента управления корпоративными данными Сбер Банка рассказал о принципе GIGO (гарбаж ин, гарбаж аут). Суть принципа в том, что при неверных входящих данных будут получены неверные результаты, даже если алгоритм правильный.
Согласно исследованию Gartner компании теряют в среднем 12,9 миллионов долларов в год из-за некачественных данных. MIT Sloan Management Review указывает, что компании ежегодно тратят от 15% до 25% годового дохода на очистку данных. Например, в 2016 году в США компании потратили 3,1 триллиона долларов на очистку данных.
Процесс улучшения качества данных в Сбер Банке начинается с определения того, какие данные важны для подразделений банка. После оценки текущего состояния данных в системах банка договариваются о приемлемом уровне качества данных. Этот уровень может варьироваться от 70% до 100% в зависимости от специфики подразделений и их потребностей.
Целью улучшения качества данных является повышение доверия к ним, сокращение затрат подразделений на исправление данных, предотвращение ошибок до их появления и принятие управленческих решений на основе качественных данных.
Алексей подчеркнул, что качество данных в банке оценивается по таким меркам, как полнота, допустимость, уникальность и целостность данных. Данные метрики интегрируются для формирования общей меры качества данных. И на текущий момент они являются первоначальными, по ним выстраиваются подходы и скрипты. Но также стоит учитывать еще две немаловажные метрики — это актуальность и точность. В Сбер Банке только начинают с ними работать, и пока они не в фокусе существующего в банке подхода.
Ключевым моментом является то, что не всегда стоит стремиться к 100% качеству данных. Достижение такого уровня может быть экономически нецелесообразным. Каждый дополнительный процент увеличения качества данных при достижении определенного уровня может потребовать астрономических затрат. Поэтому важно определить, какой уровень качества данных является достаточным для бизнеса и сконцентрироваться на критичных данных, которые влияют на ключевые аспекты деятельности компании.
Алексей Карнаухов также поделился опытом организации процедур по улучшению качества данных в банке, включая профилирование данных, мониторинг, оценку, и принятие решений. Спикер подчеркнул, что это непрерывный цикл, который позволяет постоянно совершенствовать качество данных и повышать их ценность для бизнеса.
Согласно исследованию Gartner компании теряют в среднем 12,9 миллионов долларов в год из-за некачественных данных. MIT Sloan Management Review указывает, что компании ежегодно тратят от 15% до 25% годового дохода на очистку данных. Например, в 2016 году в США компании потратили 3,1 триллиона долларов на очистку данных.
Процесс улучшения качества данных в Сбер Банке начинается с определения того, какие данные важны для подразделений банка. После оценки текущего состояния данных в системах банка договариваются о приемлемом уровне качества данных. Этот уровень может варьироваться от 70% до 100% в зависимости от специфики подразделений и их потребностей.
Целью улучшения качества данных является повышение доверия к ним, сокращение затрат подразделений на исправление данных, предотвращение ошибок до их появления и принятие управленческих решений на основе качественных данных.
Алексей подчеркнул, что качество данных в банке оценивается по таким меркам, как полнота, допустимость, уникальность и целостность данных. Данные метрики интегрируются для формирования общей меры качества данных. И на текущий момент они являются первоначальными, по ним выстраиваются подходы и скрипты. Но также стоит учитывать еще две немаловажные метрики — это актуальность и точность. В Сбер Банке только начинают с ними работать, и пока они не в фокусе существующего в банке подхода.
Ключевым моментом является то, что не всегда стоит стремиться к 100% качеству данных. Достижение такого уровня может быть экономически нецелесообразным. Каждый дополнительный процент увеличения качества данных при достижении определенного уровня может потребовать астрономических затрат. Поэтому важно определить, какой уровень качества данных является достаточным для бизнеса и сконцентрироваться на критичных данных, которые влияют на ключевые аспекты деятельности компании.
Алексей Карнаухов также поделился опытом организации процедур по улучшению качества данных в банке, включая профилирование данных, мониторинг, оценку, и принятие решений. Спикер подчеркнул, что это непрерывный цикл, который позволяет постоянно совершенствовать качество данных и повышать их ценность для бизнеса.
Какие данные считать истинными?
При работе с качеством данных часто возникает сложность в определении того, какие из них считать истинными. Эта истина, или «золотая запись», представляет собой единственную версию данных, которая является достоверной и действительной.
Зачем нам нужна «золотая запись» в архитектуре управления качеством данных (КХД)? Как ее использовать? Об этом подробно рассказали Евгений Шишков, заместитель директора по работе с корпоративными клиентами и Виталий Бортняк, архитектор и лидер направления DWH/BI & Big Data компании Invento Labs.
Во-первых, без нее невозможно создать качественный аналитический или статистический отчет.
Во-вторых, она используется для анализа качества данных. Можно анализировать как саму «золотую запись», так и качество данных в исходных системах относительно тех данных, которые считаются достоверными.
В-третьих, она помогает получать достоверную информацию. Данные из «золотой записи» могут быть интегрированы обратно в системы первоисточников, обогащая или актуализируя уже имеющуюся информацию. Эта обновленная информация может использоваться в маркетинге, аналитике и также для обучения моделей.
Во-первых, без нее невозможно создать качественный аналитический или статистический отчет.
Во-вторых, она используется для анализа качества данных. Можно анализировать как саму «золотую запись», так и качество данных в исходных системах относительно тех данных, которые считаются достоверными.
В-третьих, она помогает получать достоверную информацию. Данные из «золотой записи» могут быть интегрированы обратно в системы первоисточников, обогащая или актуализируя уже имеющуюся информацию. Эта обновленная информация может использоваться в маркетинге, аналитике и также для обучения моделей.
В этой статье мы отразили лишь малую часть того, о чем говорили на конференции BY DATA 2023. И затронули, пожалуй, самые базовые принципы построения офиса данных. Однако, на на мероприятии обсуждались и другие темы, о которых стоит упомянуть:
- опыт создания системы self-service аналитики, помогающей бизнес-подразделениям формировать отчеты и решать аналитические задачи самостоятельно,
- роль клиентской аналитики в управлении организацией в современных условиях — как с помощью данных о клиентах повысить выживаемость в текущих реализаций,
- как узнать клиента, который стоит за историей транзакций, и превратить эти знания в ценность в каждой точке контакта и собрать инсайты для бизнеса
- как понять поведение клиентов через данные,
- как организовать миграцию аналитики на open source,
- текущее состояние BI в Беларуси и как сказались ограничения.
Если вам интересно разобраться в data-driven подходе или вы подумываете принять участие в конференции в следующем году — подпишитесь на наши новости уже сегодня, чтобы не пропустить анонс.
После 20 октября на официальном сайте кейс-конференции можно будет приобрести доступ к видеозаписям конференции и прослушать то, о чем мы не успели рассказать в этой статье.
Организатор Конференции: DiGital Line.
Стратегический партнер: Invento Labs.
Партнеры Конференции: ПервыйБит, Мегапьютер, Tarantool, Vizuators, Сбер Банк.
После 20 октября на официальном сайте кейс-конференции можно будет приобрести доступ к видеозаписям конференции и прослушать то, о чем мы не успели рассказать в этой статье.
Организатор Конференции: DiGital Line.
Стратегический партнер: Invento Labs.
Партнеры Конференции: ПервыйБит, Мегапьютер, Tarantool, Vizuators, Сбер Банк.