Дмитрий Кулагин
директор центра управления данными ИТ-компании «Инфосистемы Джет»
Экосистема банка дает возможность перейти от продажи отдельных банковских продуктов к комплексному удовлетворению потребностей клиента. Это большой прорыв как в объеме услуг, так и в качестве сервиса. Подробностями проекта создания глобальной экосистемы в Россельхозбанке (РСХБ) поделился директор центра управления данными ИТ-компании «Инфосистемы Джет» Дмитрий Кулагин.
«Озера» уже недостаточно. Данные выходят из «берегов»
В Россельхозбанке всё начиналось с озера данных. В последнее время этот термин используют всё реже: появилась более актуальная итерация — платформа данных. Однако суть осталась — это система, в которую данные поступают практически в неизменном виде. Она позволяет быстро собирать и хранить информацию, не углубляясь в ее структуру и природу.
Когда «Инфосистемы Джет» начали создавать в РСХБ озеро данных, перед нами в первую очередь стояла задача сформировать расширенный цифровой профиль розничных клиентов, который бы повысил качество аналитики, расширил возможности кредитного скоринга и позволил формировать индивидуальные предложения. Для этого к системе необходимо было подключить несколько десятков информационных систем в качестве источников данных. Но природа данных предполагает постоянное расширение, поэтому со временем потребность в полноценной платформе данных становилась всё более актуальной.
Любое растущее «озеро» со временем должно превратиться в полноценную платформу данных, чтобы не стать «болотом».
Как всё начиналось. Процесс создания «озера»
Во время создания «озера» мы выделили три наиболее важных требования.
Первое — доступность данных, чтобы дата-сайнтист мог брать необходимые данные и строить модель, а не ждать выгрузку дата-сетов по согласованным регламентам.
Второе — реализация недорогого хранилища, чтобы грузить все доступные данные и не задумываться об объемах.
Третье — инструмент должен быть гибким, потому что будет собираться самая разная информация. При этом нужно было интегрировать решение с внутренними ИТ-системами банка, включая системы информационной безопасности.
Первый этап, который мы начали в 2020 году, получилось завершить в рекордные сроки: за четыре месяца удалось построить инфраструктуру, развернуть на ее основе системный и прикладной софт, подключить семь первых источников данных.
В основе «озера», которое построено в Россельхозбанке, лежит передовая сборка Hadoop. Для реализации архитектуры аналитической платформы использовалась многоуровневая архитектура (LSA — Layered Scalable Architecture). За безопасность системы отвечают стандартные инструменты Hadoop: сетевой протокол Kerberos и модуль Ranger.
Первые итоги
В 2021 году к платформе данных уже подключили 80% систем, которые хранят в себе информацию о клиентах – физических лицах, и в банке запустили проект по построению цифрового профиля таких клиентов. Также к платформе данных подключили примерно столько же систем с информацией о юридических лицах: транзакции, общая деятельность, информация из открытых источников. Для них начали строить аналогичные цифровые профили. Данные берутся, в том числе и из внешних сервисов.
Также в банке на основе собранных данных строят отчетность, поведенческие модели, которые в дальнейшем перерастут в прогнозирование. Например, внутри Россельхозбанка существует проект «Обзор работника банка 360», в рамках которого компания собирает информацию о собственных сотрудниках: с какой скоростью заполняются вакансии, сколько стоит нанять и удержать человека. Данные из «озера» позволят не просто анализировать текущую ситуацию, но и делать прогнозы: чего ждать в тех или иных сценариях на рынке труда.
Эволюция «озера»
В начале 2022 года мы завершили второй этап строительства «озера». Подключили еще несколько систем (аналитические CRM-системы, система сбора оперативных данных, системы дистанционного обслуживания клиентов, платформы электронной коммерции), перенесли данные, внедрили и настроили процессы CI/CD — процессы непрерывной разработки и деплоя.
Сейчас идет третий этап работ, скорее всего, будут четвертый и пятый, поэтому говорить о том, что работа над проектом закончена, нельзя. Инструмент дорабатывают с точки зрения UI/UX, параллельно повышая защищенность «озера». С учетом масштабных инвестиций эту инфраструктуру в дальнейшем можно будет использовать и для задач дочерних организаций банка. Hadoop поддерживает широкую горизонтальную масштабируемость — если через пять лет в банке решат, что нужно собирать в 100 раз больше данных, мощности можно будет нарастить без серьезных изменений в архитектуре системы.
Главный результат, который получили уже сейчас, — дата-аналитики банка самостоятельно находят необходимую информацию в «озере», а не ждут дата-сет по несколько месяцев. Это позволило заметно ускорить процесс принятия решений, тем самым сократив время на обслуживание клиентов, и к тому же теперь банк готовит им более точные персонализированные предложения.
Новые запросы бизнеса определяют вектор и масштабы развития платформы данных
Сегодня платформа данных РСХБ — это комплекс информационных систем с ядром, которым служит «озеро». В нем хранятся структурированные и неструктурированные данные, а также описания структур хранилища, где можно регулировать доступ к данным, пользоваться инструментами продвинутой аналитики, создавать управленческие отчеты. При этом получение данных и операции с ними осуществляются мгновенно.
Мы разработали для платформы данных РСХБ гибкую архитектуру, которая масштабируется вертикально или горизонтально, позволяет легко проводить модификацию и модернизацию. Благодаря этой гибкости платформа не устареет, а будет только развиваться и трансформироваться под запросы бизнеса, при этом можно «переезжать» на новое железо без потери данных и функциональности, добавлять (интегрировать) новые системы и источники.
По мере развития «озера» в РСХБ в нем также стали развиваться дополнительные сервисы оценки качества данных, описания метаданных и полноценный бизнес-глоссарий. Эти сервисы очень полезны для дата-сайнтистов и позволяют быстрее вливаться в работу новым сотрудникам постоянно расширяющейся команды.
В настоящее время к платформе подключены департаменты крупного, среднего, розничного и микробизнеса, подразделения операционного обслуживания юридических и физических лиц. На этом процесс развития системы не останавливается — поступают запросы от разных подразделений, от HR до службы безопасности, и мы создаем для них новые инструменты.
Например, одна из недавних разработок — система для построения цифрового профиля юридического лица. Раньше данные юрлиц нужно было собирать по отдельности из CRM-систем, хранилища данных, систем дистанционного банковского обслуживания, бухгалтерской книги. Чтобы получить исчерпывающие данные о клиенте, сотрудник должен был обратиться ко всем этим источникам, потратив часы и даже дни рабочего времени. Сейчас «озеро» объединяет все эти системы — увидеть цифровой профиль клиента можно в течение нескольких секунд. Теперь можно быстро планировать и проводить маркетинговые кампании, разбивать клиентов на целевые аудитории, делать индивидуальные предложения, принимать решения по кредитной политике и т. д.
Кроме того, к «озеру» для получения данных теперь подключены различные сервисы и экосистемы, например, маркетплейсы, где можно подобрать недвижимость и оформить ипотеку, найти партнеров для бизнеса и оформить договор, — «Своё Жилье», «Своё Фермерство», «Своё Родное» (маркетплейс фермерских продуктов) и т. д. Также мы сделали подключение внешних сервисов, например, ФНС, что позволяет обогащать данные цифровых профилей клиентов.
Еще одно интересное нововведение, которое мы реализовали, — подключение системы по управлению золотой карточкой клиента класса MDM (Master Data Management), где хранятся эталонные данные клиента. Используя данные такой системы, можно строить взаимосвязи между юридическими и физическими лицами, чтобы понимать границы и/или взаимосвязи крупных корпораций, состоящих из конгломерата компаний разного масштаба, вести отчетность для центрального банка и других регуляторов, более точно распределять целевую аудиторию.
В ближайших планах — построение витрин по бизнес-областям и интеграция с платформой аналитической отчетности для визуализации данных, чтобы бизнесу было удобно оперативно принимать решения исходя из аналитических прогнозов.
Польза от работы с данными для разных целей подтверждается конкретными результатами, и бизнес ищет пути, как еще их можно использовать. Внедрив и отладив инфраструктуру и инструментарий проектирования функционала для «озера», мы добились уровня, при котором создаем и полностью подключаем новые системы, источники данных за 2-3 месяца. Таким образом, платформа данных помогает бизнесу, а бизнес создает «заказ» на дальнейшее ее развитие. Так и рождается концепция экосистемы — информационной среды, тесно связанной с бизнесом и развивающейся с ним в симбиозе.
Связаться с центром управления данных «Инфосистемы Джет» — datalake@jet.su
■ erid:2SDnjdbeqXEРекламодатель: АО “Инфосистемы Джет”ИНН/ОГРН: 7729058675/1027700121195Сайт: https://jet.su/