2024/06/03 08:44:56

Создание корпоративного хранилища данных на Arenadata DB. Кейс ПСБ

ПСБ реализует проект по строительству Единого хранилища данных. Одним из ключевых компонентов для него была выбрана распределенная СУБД Arenadata DB (ADB) от российского вендора Arenadata.

Содержание

О ПСБ

ПАО «Промсвязьбанк» (ПСБ) — системно значимый банк, являющийся одним из самых надежных российских банков. Он создает финансовые решения для частных клиентов и предпринимателей. ПСБ — банк с государственным участием и особой миссией: быть опорным банком для предприятий оборонно-промышленного комплекса и сопровождать государственный оборонный заказ. ПСБ первым из системно значимых банков начал работать в Республике Крым, Севастополе, а также это единственный федеральный банк в новых российских регионах. Региональная сеть банка представлена более чем 800 отделениями и единственная из российских банков охватывает все 89 субъектов страны.

Предпосылки проекта

В 2019 году ПСБ запустил пятилетнюю программу развития, основными ориентирами которой в части обеспечения стратегических целей банка стали:

  • поддержка статуса надежного и безопасного отраслевого банка страны;
  • рост клиентской базы физических и юридических лиц (в том числе предоставление клиентам максимально персонифицированных предложений);
  • обеспечение высокого уровня банковского сервиса как в коммерческом сегменте, так и для отраслевого направления;
  • поддержка госорганов необходимыми аналитическими данными.

Для того чтобы поддерживать эти инициативы банка, со стороны работы с данными была разработана концепция управления данными ПСБ, включившая в себя анализ таких стратегических и внутренних факторов, как:

  • стратегия развития ПСБ;
  • приказ Минкомсвязи РФ от 20.09.2018 №486 «Об импортозамещении»;
  • внедрение национальной программы «Цифровая экономика России»;
  • реализация задач цифровой трансформации банка;
  • определение процессов управления корпоративными данными;
  • оценка уровня управления качеством данных;
  • устаревающий технологический стек и унаследованные информационные системы;
  • постоянный рост количества данных и мощностей;
  • высокая стоимость владения данными (ТСО), требующая снижения;
  • потребность бизнеса в получении более детализированных данных:
  • ограниченный доступ к внешним данным.

Обобщив перечисленные факторы, в декабре 2020 года команда ПСБ запустила программную инициативу в области управления данными, направленную на реализацию централизованного хранилища данных (ЕХД) и систем работы с большими данными.

Выбор технологического партнера

Для реализации задачи по построению Единого хранилища данных была выбрана распределенная СУБД Arenadata DB от российского вендора Arenadata. Выбор осуществлялся в рамках сравнительного анализа, проведенного в ходе технических апробаций.

Сравнительное тестирование проводилось:

  • на испытательных стендах с сопоставимым оборудованием;
  • едином наборе исходных данных, характерном для банковского сектора (специально разработанная модель данных);
  • посредством выполнения множества аналитических запросов, имитирующих типичную нагрузку для хранилищ данных.

Специалисты ПСБ сравнивали производительность Arenadata DB и других СУБД, уже используемых в банке для аналогичных задач (Postgres Pro, Microsoft SQL Server, Oracle Database). Анализировалось поведение таких запросов, как:

  • расчет остатков в валюте счета и рублевом эквиваленте по всем счетам (100 тыс.) за два года на каждую дату;
  • расчет количества строк агрегированных финансовых показателей (суммарный остаток, кредитный лимит, сумма задолженности) на каждую календарную дату за два года в разрезе каналов поступления заявки и программ лояльности;
  • расчет агрегированных финансовых показателей (суммарный остаток, кредитный лимит, сумма задолженности) на каждую календарную дату за два года в разрезе продуктов;
  • расчет суммарного количества пересечений периода актуальности счетов с остатками;
  • суммарное количество пересечений периода актуальности счетов с остатками и изменениями счета.

По итогам тестирования Arenadata DB показала наивысшую производительность работы. Кроме того, на момент проведения тестирования Arenadata DB была единственным ПО, включенным в ЕРРП Минкомсвязи РФ и подходящим для задач построения аналитических хранилищ данных.

«

Наш проект направлен на поддержание стратегических задач банка как в части эффективности работы бизнеса, так и в части надежности и сохранности данных. При выборе технологий для создания Единого хранилища мы руководствовались в первую очередь директивой Минкомсвязи РФ по импортозамещению. СУБД Arenadata DB не только соответствует требованиям программы импортозамещения как продукт отечественной разработки, но и является современным и конкурентоспособным решением в области задач обработки и хранения больших данных. Совмещая возможности горизонтального масштабирования, построчного и поколоночного хранения данных, СУБД позволяет нам решать сложные архитектурные и технологические задачи, стоящие перед банком. Надо отметить, что ADB, наряду с другими продуктами компании Arenadata, имеет широкие перспективы для дальнейшего развития функционала, в том числе в направлениях работы с чувствительными данными, что является одним из ключевых ориентиров при выборе инструментов и проектировании архитектур информационных систем,

Екатерина Варламова, CDO, директор департамента управления данными, ПСБ.
»

В 2021 году технологии Arenadata были утверждены в ПСБ в качестве технологического стандарта для построения ЕХД.

Единое хранилище данных

К 2023 году была разработана новая архитектура управления данными, отвечающая современным потребностям ПСБ. В ней в том числе настроены различные системы безопасности и управления системами мониторинга и контроля доступов, позволяющие дополнительно разграничить доступ к нужным данным и предотвратить угрозы несанкционированной работы с данными.

В 2020–2022 гг. несколько раз значимо менялся контекст внешней среды, что оказало существенное влияние на сроки, приоритеты и объем задач программы управления данными ПСБ. Среди них:

  • пандемия коронавируса, переход на дистанционные каналы связи;
  • слияния и поглощения, объединение в контур банка новых банковских структур (СвязьБанк, РоскосмосБанк, СМПБанк, МИнБанк и пр.);
  • начало работы в Крыму и Севастополе;
  • начало работы в новых субъектах РФ: открытие банковских отделений в ЛНР, ДНР, Запорожской и Херсонской областях;
  • санкции, ужесточение требований ДИБ к архитектуре систем и ПО, запрет ДИБ на использование любых компонент и библиотек, выпущенных после 24 февраля 2022 года;
  • ужесточенная директива Минцифры по импортозамещению, использование реестрового ПО и российского оборудования, внешних ресурсов разработки. При этом сроки реализации импортозамещения не изменились;
  • новые небанковские сервисы, расширение работы с небанковскими сервисами (гостиницы, стройки, учебные платформы, маркетплейсы и пр.).

К началу 2024 года с продукционным ЕХД ПСБ уже работают более 200 аналитиков различных подразделений банка: ЦОР, ГОЗ, розничный бизнес, цифровой бизнес, операционный департамент, риски, маркетинг, взыскание задолженности и пр.

Доступ к данным регламентируется разработанной моделью безопасности и определяется ролевой моделью по заданным сегментам «чувствительности». Модель разработана и актуализируется при непосредственном и постоянном участии экспертов департамента информационной безопасности банка.

В ноябре 2023 года система ЕХД прошла регистрации в Едином реестре отечественного ПО, дальнейшее ее развитие осуществляется также с учетом разъяснений ФСТЭК и Минобороны России в части работы с чувствительной информацией.

Система включает целый ряд собственных архитектурных и технологических наработок. Так, в состав ключевых компонентов хранилища данных вошла собственная разработка банка — PSB Data Collector, обеспечивающая централизованную интеграцию данных из систем-источников и их передачу в контур хранилища. В настоящий момент она обслуживает более 20 систем банка. В дальнейшем планируется интеграция Data Collector и Arenadata Streaming (ADS) — масштабируемой отказоустойчивой системы для потоковой обработки данных в режиме реального времени, построенной на базе Apache Kafka и Apache Nifi.

Также ПСБ строит озеро данных на базе Arenadata Hadoop (ADH) — полноценного дистрибутива на базе Apache Hadoop, предназначенного для хранения и обработки слабоструктурированных и неструктурированных данных.

Все процессы, происходящие в хранилище, проходят мониторинг в еще одной собственной разработке команды ПСБ — системе мониторинга качества данных, которая включает в себя как технические, так и бизнес-проверки. Общее количество параметризированных проверок составляет 284 штуки, отдельный блок проверок клиентских данных ФЛ составляет более 200 штук. На основе мониторинга в операционный блок банка выдаются рекомендации по улучшению качества данных, непосредственно влияющие на бизнес-результаты.

«
Проект по построению Единого хранилища данных ПСБ очень непростой, но крайне интересный, который реализуется в эпоху перемен. Команда банка под руководством Екатерины Варламовой демонстрирует высокий уровень профессионализма даже в таких сложных условиях. И мы рады, что Arenadata является непосредственным участником проекта, а наши продукты помогают решать стратегические задачи ПСБ,
Павел Ишков, директор по работе с ключевыми заказчиками Arenadata.
»

Текущие результаты

В рамках создания системы «Единое хранилище данных ПСБ (ЕХД ПСБ)» разработана качественно новая архитектура решения, проведена интеграция всех ключевых ИС банка, в том числе с использованием собственной интеграционной платформы DataCollector. Развернут масштабируемый инфраструктурный комплекс, рассчитанный на обработку более 250 Тб данных и насчитывающий более 30 серверов от отечественных поставщиков. Выстраивается система «защищенных данных» на каждом слое хранения и обработки.

Использование расширенных массивов данных ЕХД уже позволило банку решать новые аналитические задачи и достигать видимых результатов. Так, ad-hoc-анализ на данных ЕХД используется аналитиками для решения задач в области управления доходностью клиентов, их привлечения и удержания, оценки банкротств, управления проблемной задолженностью, а также оценки эффективности взысканий.

Дополнительные возможности для учета в аналитических задачах бизнес-линий появились благодаря совместному использованию расширенных массивов исходных данных информационных систем банка, а также новых массивов данных из внешних реестров и агрегаторов-СМИ (более 120 методов и 50 реестров) в рамках единой базы (ЕХД). Использование данных ЕХД позволяет специалистам банка в том числе оперативно реагировать и устранять возникающие отклонения в использовании онлайн-площадок, мобильных приложениях, интернет-банке.

Для принятия эффективных решений банку потребовалось не только централизовать сбор и накопление данных, но и обеспечивать управление их качеством. На текущий момент уже достигнуто фактическое улучшение качества клиентских данных физических лиц на 56,1%.

На базе результатов ежедневной работы системы мониторинга технического и бизнес-качества данных ЕХД ведется непрерывная работа по дальнейшему улучшению качества данных в информационных системах банка.

Система ЕХД и Big Data ПСБ находится в фазе активного наращивания функционала, а технологии Arenadata являются фундаментом для ее дальнейшего эффективного развития.