Проект

ВТБ внедрил Hadoop и PostgreSQL для работы с большими данными

Заказчики: Банк ВТБ

Москва; Финансовые услуги, инвестиции и аудит

Продукт: Apache Hadoop
Второй продукт: PostgreSQL СУБД

Дата проекта: 2016/11 — 2017/05
Технология: СУБД
подрядчики - 273
проекты - 775
системы - 308
вендоры - 148

Как в начале июля 2017 года стало известно CNews, в банке ВТБ завершился «пилот» по внедрению инструментов больших данных с использование свободного ПО. В организации была развернута система формирования аналитической и управленческой отчетности на открытой платформе Hadoop с применением технологий обработки данных Apache Spark и Apache Zeppelin. В качестве реляционной СУБД была задействована свободная PostgreSQL. Об этом рассказал управляющий директор департамента транзакционного бизнеса банка ВТБ Андрей Новаков. Как он пояснил, PostgreSQL непосредственной частью системы не является и в случае необходимости может быть заменен на другую базу данных. Размер инвестиций в систему не раскрывается.[1]

По информации ВТБ, вендором проекта выступила компания Luxoft. При этом права на систему после запуска в промышленную эксплуатацию по договору перейдут к банку ВТБ, лицензионные платежи не потребуются.

Проект стартовал в ноябре 2016 года, а ключевой его этап завершился в мае 2017 года. Затем было принято решение о развитии функциональности к сентябрю 2017 года.

Система получила название ГАУСС (GAUSS) — Global Transaction Business Analytic Unified Source & System, единая аналитическая система-источник для транзакционного бизнеса. ГАУСС используется для построения отчетности, но также рассматривается её применение для оценки различных рисков (кредитных, клиентских, партнерских), выявления мошеннических схем, моделирования целевых коммерческих предложений и пр. В планах ВТБ — интеграция с аналитической системой Microsoft Business Intelligence, которая уже действует в банке и будет адаптирована для ГАУССа.

ГАУСС работает на кластерах, состоящих из множества узлов, где предусмотрено дублирование системы на случай выхода из строя одного из них и осуществляется поддержка нескольких рабочих копий данных.

«Hadoop был выбран для построения системы, так как его работа основана на принципе параллельной обработки данных, — пояснили в банке. — Это позволяет увеличить скорость формирования отчетности и построения прогнозов. Система отличается отказоустойчивостью и возможностью параллельной работы и пользователей, и программистов одновременно».

Система ГАУСС впервые в группе ВТБ была реализована по методу гибкой разработки Agile scrum. Как считают в банке, при использовании традиционных подходов проект мог бы растянуться на год, заняв, таким образом, в два раза больше времени.

За время работы над ГАУССом была проведена аналитическая работа с базами данных банка, в системе уже сформированы массивы информации за 2014-2016 гг. В итоге создаются условия для запроса материалов по неограниченному сочетанию параметров и вариантов.

«Система вскоре начнет получать данные из альтернативных источников, и будут разработаны необходимые аналитические формы для целей моделирования и мониторинга продаж продуктов транзакционного бизнеса», — сообщили в банке.

Созданная в рамках проекта модель данных для одной из линий бизнеса может стать впоследствии основой для онтологии и модели данных всего банка, подчеркнули в ВТБ.

Для банка это стало первым опытом в области больших данных, хотя в целом в группе ВТБ (в частности, в ВТБ24) уже внедрены проприетарные решения Teradata, SAS и Oracle. По мнению Новакова, используемый в банке ВТБ стек технологий открытых продуктов экономически более эффективен.

Примечания