РСХБ построил новое озеро данных на продуктах Arenadata
«Россельхозбанк» (РСХБ) реализовал проект по импортозамещению зарубежного решения корпоративного озера данных на продукты Группы Arenadata — Arenadata Hadoop (ADH) и Picodata. Переход на отечественное программное обеспечение был выполнен в кратчайшие сроки с полным сохранением непрерывности бизнес-процессов.
Проект «Импортозамещение озера данных и создание аналитической платформы оперативных данных» стартовал в апреле 2023 г. с планирования реализации миграции: РСХБ требовалось заменить большой кластер, работавший на ПО американской компании Cloudera. Перед департаментом больших данных РСХБ стояла задача найти отечественное решение, способное полностью заместить функционал ПО Cloudera Data Platform (CDP), широко используемый в аналитическом контуре банка. После сравнительного анализа и технических апробаций различных решений РСХБ выбрал в качестве целевого кластера Arenadata Hadoop (ADH) и Picodata от Группы Arenadata. Эти продукты обеспечили необходимый на тот момент набор функциональных возможностей для импортозамещения иностранных решений.
Для перехода на отечественное ПО была разработана методика поэтапной миграции задач с постепенным снижением использования импортного ПО и итерационным добавлением ресурсов в целевой кластер без значимых остановок операционных процессов.
Проект импортозамещения был осуществлен без покупки дополнительного оборудования. Команда использовала метод поэтапной миграции, разделяя существующий кластер и перемещая данные с минимальным снижением производительности.
Поскольку миграция охватывала довольно сложный функционал, по ряду значимых сервисов (Hive, Yarn, Impala и т. д.) в ходе перехода на отечественное ПО были выявлены несоответствия в алгоритмах и особенностях работы по сравнению с тем, как эти сервисы работали в платформе CDP, ввиду того что в CDP по ряду функций программный код достаточно сильно модифицирован и закрыт. Для обхода этих блокирующих проблем был использован обширный набор инструментов, например:
- Привлечение консалтинга Arenadata позволило использовать в миграции опыт проектов из соседних отраслей.
- Изучение исходного кода как open source решений, так и решений Arenadata с целью стабилизации функций позволило в очередной раз убедиться в необходимости использования подхода с открытым исходным кодом для реализации комплексных решений такого масштаба.
- Работа с оптимизациями и форматами помогла узнать много нового о том, какие параметры за что отвечают в настройках сервисов Озера. При этом решение Arenadata Hadoop позволило это делать, не теряя стандартные функции управления и оркестрации.
- Моделирование на внутренних стендах и стендах партнеров позволило обеспечить проверку как на локальных, так и на удаленных стендах значительного количества изменений с целью стабилизации и оценки их влияния.
- Интеграционное тестирование: так как загрузки в озеро и выгрузки из него делаются весьма разнородными решениями (файлы, Airflow, IPC, DEI, Spark и т. д.), то довольно много усилий было потрачено на обеспечение совместимости интеграционных провайдеров решений со стеком Arenadata Hadoop.
Помимо непосредственно миграции в рамках проекта, РСХБ заложил основу для перехода на архитектуру Lakehouse, что позволит объединить функции озера данных и хранилища данных для ускорения всех аналитических процессов. Сразу после осуществления миграции летом 2024 г. целевой кластер был доукомплектован дополнительными вычислительными узлами для обеспечения большей отказоустойчивости и необходимых ресурсов для новых аналитических задач.
Внедрение новой платформы позволяет РСХБ уже сейчас решать комплекс бизнес-задач, а также открывает в ближайшей перспективе дополнительные возможности, такие как:
- Финансовая аналитика и управленческая отчетность: новая платформа обеспечивает доступ к контурам разработки и расчетов управленческой отчетности, а также является поставщиком данных для импортозамещенного BI-решения. Это способствует ускорению процесса принятия решений за счет высокой доступности и актуальности данных.
- Управление качеством данных: система предоставляет возможности для периодического контроля качества данных, в том числе с помощью внешних комплексных платформ управления, что повышает точность принятия решений и достоверность получаемой информации.
- Операционная аналитика: платформа поддерживает аналитические расчеты для региональных подразделений, способствуя росту продаж и увеличению доходности за счет более точных прогнозов и планирования. Это позволяет подразделениям оперативно реагировать на изменения рынка и эффективно распределять свои ресурсы.
Также на основе данных озера работает платформа искусственного интеллекта РСХБ (RAISA — RSHBAI Systemsand Applications), которой пользуются более 300 работников. Интеграция системы RAISA с озером улучшила аналитику клиентской базы, позволила ускорить маркетинговые кампании благодаря быстрому доступу к данным, повысила скорость и качество анализа и оптимизации операционных бизнес-процессов. Департамент финансов и планирования использует озеро для быстрого принятия решений и комплексных задач анализа, невыполнимых в рамках стандартных СУБД. Департаменту рисков озеро помогает лучше управлять кредитным портфелем, эффективно находить риск-баланс, работать над комплексными многофакторными риск-моделями.
Наиболее острые вопросы по реализации проекта были решены в сотрудничестве со службой поддержки, командой консалтинга, командой разработки и иными специалистами Arenadata, а все заинтересованные лица со стороны РСХБ прошли обучение работе с Arenadata Hadoop в Учебном центре Arenadata. Перемещение озера на ADH завершилось в декабре 2023 г., после чего наступил этап развития проекта. Часть решений и запросов на изменения, возникших в рамках его реализации, вошли в состав новых релизов ПО Arenadata Hadoop.
«Одна из основных задач, которую мы сейчас решаем, — построение уже импортозамещенного слоя оперативных данных для загрузки всех генерируемых РСХБ данных на следующие слои хранилища. Этот шаг поможет нам сократить время обработки данных от их возникновения до появления в оперативном хранилище, а также позволит ужесточить SLA по оперативности, предоставляя пользователям данные высокого качества в нужный момент», — отметил Александр Сабуров, директор департамента больших данных РСХБ.
«Проект, реализованный РСХБ, наглядно демонстрирует, что замена решения зарубежного вендора не завершается самим процессом импортозамещения. Это только начало, которое открывает перед финансовой организацией многочисленные возможности. Команда департамента больших данных уже сейчас превращает РСХБ в банк будущего, способный отвечать самым высоким требованиям клиентов», — считает Юлия Ильина, директор департамента Группы Arenadata по работе с финансовым сектором и международным бизнесом.