«ВТБ 24» собрался заработать на ИТ 30 миллиардов

Интеграция Бизнес-приложения ИТ в банках
мобильная версия
, Текст: Денис Воейков
Банк «ВТБ 24» поделился с CNews своими планами, касающимися цифровой трансформации. Заявленный эффект измеряется десятками миллиардов.

Миллиардная экономия

Как стало известно CNews, банк «ВТБ 24» намеревается создать хранилище на основе так называемой технологии DataLake для анализа клиентских данных. Банк заявляет, что над новым проектом будут трудиться его собственные сотрудники и внешние пользователи организации. Для работы с клиентской информацией будут использоваться средства глубинного анализа данных (data mining).

В банке рассказали CNews, что за счет этого проекта в организации рассчитывают на 1,2 млрд руб. дополнительного дохода в чистом виде и 30 млрд руб. дополнительных продаж.

«Платформа, в силу своей универсальности, позволяет применять самые разнообразные средства, нацеленные на обработку как реляционных данных, так и различных xml, логов и т.п.: SAS EG, SAS Enterprise Miner с «движком» HPDM, SAS VA, Tableau, Python с PySpark, R, Solr», -- рассказали CNews в пресс-службе банка.

Зачем это банку

Банк заявляет, что ИТ-модели, построенные на данных о поведении клиентов должны улучшить его финансовый результаты. «Риск-модели нового поколения показывают более высокие значения AR (абсолютный риск) для продуктов, AR в среднем повышается от 2% до 6%», говорят в банке. -- Построение более качественных моделей и постоянный контроль (валидация, бэк тесты и т.д.) ведет к более качественным данным, попадающим в системы принятия кредитного решения, что в свою очередь приводит к более аккуратному управлению CoR VS Продажи (стоимость риска vs продажи)».

Что такое озеро данных. Как это описывает банк

Термин DataLake (с английского «озеро данных») описывает любые крупные объемы данных, в которых не определены схема и требования к данным до тех пор, пока к ним нет запроса. Фактически это репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.

«ВТБ 24» рассчитывает заработать 30 млрд руб. на больших данных

Клиентские данные загружаются на платформу Hadoop, после чего к ним будут применяются средства глубинного анализа данных (data mining). Технология позволяет организовать регулярную загрузку «сырых данных» и их высокопроизводительную обработку средствами математической статистики (SAS, Python, R) – средствами исследовательской платформы обработки данных.

DataLake, в понимании банка, позволяет анализировать самые различные несопоставимые источники данных в их первоначальном виде, что исключает затраты на их обработку. Подобное хранилище может вмещать в себя петабайты данных. Такой репозитарий не заменяет КХД (корпоративное хранилище данных), это расширение экосистемы КХД специальной платформой для исследования данных.

Организация сообщает, что для построения DataLake в «ВТБ 24» уже развернута вся необходимая инфраструктурная часть (кластер Hadoop из 12 узлов, с тестовой средой и в ближайшей перспективе с катастрофоустойчивостью), подготовлена инструментальная среда разработки (SAS HPDM, Python) и реализована репликация данных КХД в Hadoop.

Функциональность DataResearch Platform

В банке считают, что реализация задачи в КХД нецелесообразна по причине того, что КХД включено в поддержку критичных бизнес-процессов по обслуживанию клиентов розничного бизнеса и требует контроля для стабильности функционала, Кроме того, стоимость хранения данных в КХД высока, время и сложность (стоимость) доработки КХД не удовлетворяет потребностям процесса data mining.. Data Research Platform называют в банке открытой площадкой для одновременной реализации задач разными командами разработки, Кроме того, она может выступать источником загрузки технологии «As Is», без каких-либо преобразований, описания источников,  настройки VIEW и прав доступа выполняется силами ИТ.