Название базовой системы (платформы): | Apache Hadoop |
Разработчики: | Arenadata (Аренадата Софтвер) |
Дата последнего релиза: | 2025/02/05 |
Технологии: | СУБД |
Основная статья: Система управления базами данных (СУБД)
Arenadata Hadoop (ADH) — это полноценный дистрибутив распределенной платформы хранения на базе Apache Hadoop, адаптированный для корпоративного использования.
- Поисковые и контекстные механизмы поиска высоконагруженных веб-сайтов и интернет-магазинов
- Хранение, сортировка и обработка огромных объемов неструктурированных данных
2025: Arenadata Hadoop 3.3.6.2 с S3-совместимым хранилищем объектов
Arenadata представила обновленную версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа больших объёмов данных любого типа. Релиз 3.3.6.2 пополнили дата-сервисы: S3-совместимое хранилище объектов и инструмент для выполнения федеративных запросов. Об этом компания сообщила 5 февраля 2025 года.
В обновлённом ADH реализована поддержка распределённого объектного хранилища Apache Ozone. Сервис дополняет файловое хранилище HDFS в соответствии с потребностями современных дата-платформ и подходит для работы в средах, где необходима совместимость с S3. Он предоставляет как стандартный HDFS протокол для взаимодействия, так и S3 API.Олег Чумаков, «АРБАЙТ»: В 2024 ПК и серверы ARBYTE закупали крупнейшие компании страны
Благодаря многоуровневой архитектуре Ozone обеспечивает высокую масштабируемость. Он предназначен для хранения свыше ста миллиардов объектов в одном кластере и способен эффективно обрабатывать как маленькие, так и большие файлы. Ozone отличает высокая отказоустойчивость и лёгкость восстановления, сопоставимая с HDFS; он может использовать те же политики безопасности кластера и работать вместе с HDFS на тех же хостах.
![]() | Как HDFS, так и Ozone отвечают требованиям бизнеса к хранилищам данных, при этом у них есть различия, позволяющие подойти к построению дата-платформы максимально гибко. HDFS де-факто остаётся файловой системой для больших данных, демонстрируя высокую отказоустойчивость и производительность. В свою очередь, Ozone имеет преимущество в средах, где требуется эффективная работа с большим количеством маленьких файлов и совместимость с S3, сказал Александр Анисимов, технический руководитель продукта Arenadata Hadoop.
| ![]() |
Релиз также включает Trino — SQL-движок для параллельной обработки данных, распределённых по хранилищам разного типа (объектным хранилищам, базам данных и файловым системам). Он позволяет выполнять сложные федеративные запросы — обращаться к разрозненным источникам с помощью одного и того же SQL. Поддержка Trino позволяет снизить дублирование информации и открывает новые сценарии анализа данных без увеличения затрат на инфраструктуру.
![]() | Клиенты Arenadata могут влиять на дорожную карту развития наших продуктов, и в соответствии с ожиданиями рынка мы приняли решение включить Trino в состав дистрибутива ADH. Инструмент для выполнения федеративных запросов повысит эффективность работы с данными и расширит возможности аналитики в корпоративных хранилищах и озёрах данных, отметила Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.
| ![]() |
В релиз вошла последняя версия Smart Storage Manager (SSM) — инструмента для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др. Обновлённый сервис включает ряд улучшений и доработок и готов к использованию в продуктивной среде.
Данная версия Arenadata Hadoop совместима с операционной системой Ред ОС 7.3 (сертифицированной редакции). Поддержка сертифицированной ФСТЭК России операционной системы позволяет интегрировать продукт в более широкий спектр инфраструктур с повышенными требованиями к безопасности.
Вместе с обновлённым ADH представлен релиз подсистемы безопасности Arenadata Platform Security (ADPS). Версия 1.2.1 включает обновление сервиса Ranger, действие Add/Remove components для Knox, поддержку РЕД ОС 7.3 и другие улучшения.
2024
Arenadata Hadoop 3.3.6.1 с Smart Storage Manager (SSM)
Arenadata выпустила обновленную версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа неограниченного объёма неструктурированных и слабоструктурированных данных. Релиз 3.3.6.1 включает масштабное обновление версий компонентов, доработки в части информационной безопасности и поддержку дополнительной операционной системы. Об этом компания сообщила 9 декабря 2024 года.
В релиз вошла последняя версия Smart Storage Manager (SSM) — инструмента для оптимизации хранения и управления данными в HDFS в зависимости от их востребованности («температуры»), настройки асинхронной репликации и др. Версия SSM 2.0.0-alpha получила полностью переработанный пользовательский интерфейс и ряд улучшений, включая оптимизированную стратегию подсчёта доступов и удаление зависимости от Zeppelin — в общей сложности более 100 доработок начиная с первого релиза SSM в марте 2024.
Помимо этого, в продукте обновлены версии основных сервисов, включая компоненты Hadoop (HDFS, YARN), вычислительные движки Hive, Impala, Spark и Flink, распределённый многопользовательский SQL-шлюз Kyuubi, а также Iceberg — библиотеку поддержки открытого табличного формата данных. В дополнение к обновленной версии в сервисах реализованы багфиксы и улучшения, направленные на повышение производительности и стабильности. В поставку с дистрибутивом добавлен ряд расширения для сервиса Flink, предназначенных для интеграции с Kafka, Hive и Iceberg-таблицами.
В контексте информационной безопасности в Arenadata Hadoop появилась функция шифрования конфиденциальных данных в конфигурационных файлах сервисов HDFS, YARN, Hive, HBase, Spark, Impala, Zeppelin, Kyuubi и Solr. Шифрование реализовано с помощью провайдера Hadoop или KMS и выполняется посредством кластерного действия — Manage Credential Encryption. Кроме того, релиз включает возможность активации протокола SSL/TLS для межкомпонентной коммуникации внутри сервиса Flink и поддержку SPNEGO-аутентификации для Hue, предоставляющую удалённый защищённый доступ к веб-интерфейсу.
В обновленной версии подсистемы безопасности Arenadata Platform Security 1.2.0 обновлены сервисы Knox и Ranger, добавлен плагин Ranger для SSM и проверка на конфликты портов, которая выполняется перед запуском некоторых действий. Представленная версия Arenadata Hadoop совместима с одной из наиболее популярных open source операционных систем — Ubuntu 22.04.2 LTS. Она введена в качестве альтернативы CentOS/RHEL 7.х, поддержка которых со стороны вендора уже завершена.
Поддержка Hadoop User Experience и ACID-транзакций
Arenadata 28 августа 2024 года представила очередную версию Arenadata Hadoop (ADH) — корпоративного дистрибутива для хранения, обработки и анализа неструктурированных и слабоструктурированных данных. Релиз расширяет возможности управления данными благодаря поддержке ACID-транзакций и веб-интерфейсу HUE для удобного взаимодействия аналитиков с базами и хранилищами данных.
Обновленная версия продукта включает в поставку Apache Iceberg — библиотеку поддержки высокопроизводительного открытого табличного формата данных для управления информацией на уровне файловой системы. Apache Iceberg позволяет работать со структурированной информацией в озере данных, используя SQL-запросы, и легко интегрируется в существующую инфраструктуру благодаря совместимости с большинством технологий хранения данных (от HDFS до S3) и популярными вычислительными инструментами, такими как Spark, Impala, Hive и др.
Iceberg решает проблемы традиционных форматов таблиц и обеспечивает новые возможности, включая согласованную параллельную запись данных в разделяемые файлы в кластере, ретроспективные запросы к ранним версиям данных и откат изменений, изменение схемы хранения данных, секционирование данных и др. Использование Iceberg-таблиц позволяет существенно повысить скорость выполнения запросов за счёт инкрементальной обработки данных, быстрого сканирования и фильтрации неактуальных данных.
В представленной версии Arenadata Hadoop реализована поддержка HUE (Hadoop User Experience) — веб-интерфейса экосистемы Hadoop, предназначенного для анализа данных. Он способен подключаться к СУБД, вычислительному инструменту или хранилищу данных через нативные коннекторы и упрощает работу с источниками данных. HUE востребован широким кругом пользователей: от бизнес-аналитиков, дата-инженеров и дата-сайентистов до администраторов баз данных и SQL-разработчиков. В составе Arenadata Hadoop HUE содержит преднастроенные интерпретаторы SQL для Impala, Hive, Kyuubi и Spark SQL, а также мониторинг задач YARN и Impala и возможность просмотра файловой системы HDFS.
![]() | «На данный момент поддержка Iceberg доступна в сервисах Spark, Impala и ограниченно в Hive (только чтение). В следующем релизе мы расширим функциональность в Hive и добавим поддержку Iceberg-формата в Flink, что увеличит возможности потоковой обработки данных, — отметил Александр Анисимов, технический руководитель продукта Arenadata Hadoop. — В свою очередь, новый сервис HUE получит дополнительный функционал, связанный с безопасностью и отказоустойчивостью, также будет расширяться список преднастроенных интерпретаторов». | ![]() |
Релиз Arenadata Hadoop включил и другие изменения: обновлены версии сервисов Impala, Spark, Kyuubi и Zeppelin, добавлена LDAP-аутентификация для Impala и Kyuubi и плагин Kyuubi AuthZ в Spark3 для поддержки авторизации в Ranger, упрощено управление SSL-шифрованием для сервисов кластера. Обновлена и подсистема безопасности Arenadata Platform Security: в обновленной версии введена поддержка доменного контроллера Samba и режим высокой доступности для Ranger KMS.
Доступность в облаке MWS
МТС, цифровая экосистема, 26 июля 2024 года сообщила о заключении стратегического партнерства между MTS Web Services (MWS), входит в группу МТС, и Arenadata. В рамках договора MWS запустил пять сервисов на программных продуктах от Arenadata, в том числе и Arenadata Hadoop (ADH). Подробнее здесь.
Добавление сервиса Apache Kyuubi
Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) сервис Apache Kyuubi — распределённый многопользовательский SQL-шлюз для корпоративных хранилищ и озёр данных. Он расширяет возможности быстрой интерактивной аналитики в Arenadata Hadoop и обеспечивает простой и безопасный доступ к любому ресурсу кластера через единую точку входа. Об этом компания сообщила 25 июля 2024 года.
Kyuubi предоставляет унифицированный интерфейс для доступа к вычислительным движкам через единую систему аутентификации и авторизации. Благодаря сервису дата-сайентисты и аналитики получают возможность обрабатывать данные с помощью привычного движка, поддерживаемого продуктом. В свою очередь, администраторам баз данных предоставляется единый интерфейс для конфигурации, обеспечения безопасности и управления доступом к данным.
![]() | В контексте дистрибутива Arenadata Hadoop мы уже предоставили возможность работы Kyuubi со Spark SQL и Hive, в планах — расширить эту функциональность поддержкой Flink SQL. Кроме того, мы разработали и отдали в апстрим проекта возможность поддержки диалекта Impala для JDBC-движка, в нашем продукте она доступна, начиная с версии ADH 3.2.4.2, — сказал Александр Анисимов, технический руководитель продукта Arenadata Hadoop. | ![]() |
Данный сервис предоставляет SQL-интерфейс и поддержку JDBC/ODBC, что делает его удобным для пакетной обработки ETL/ELT, аналитики, ad-hoc-задач и интеграции с BI-системами. Kyuubi также предоставляет эффективное управление вычислительными ресурсами движка Spark SQL, давая возможность как объединять вычислительные ресурсы для группы пользователей в одной сессии, так и гарантировать изоляцию необходимых ресурсов для каждого пользователя или подключения.
Функции обеспечения безопасности и высокой доступности — фундаментальные требования для корпоративного использования. В рамках этой тенденции в Kyuubi внедрена поддержка LDAP-аутентификации для клиентов, а также добавлен плагин Kyuubi AuthZ для Spark 3, обеспечивающий управление доступом к данным, — функциональность доступна, начиная с версии ADH 3.2.4.3. В контексте улучшения высокой доступности команда Arenadata разработала и отдала в апстрим проекта возможность использовать PostgreSQL в качестве хранилища метаданных (metastore).
Помимо базового варианта использования, Kyuubi позволяет расширить возможности сервера и вычислительных движков. Для сервера доступно внедрение пользовательских функций в модули, отвечающие за аутентификацию, конфигурацию и др. Для вычислительных движков можно добавить новые возможности путём разработки собственных плагинов и применения сторонних. «Kyuubi отвечает требованиям наших заказчиков к проектам уровня enterprise. Сервис расширяет возможности Arenadata Hadoop в части интерактивного доступа, изоляции вычислительных ресурсов, поддержки нескольких рабочих нагрузок и безопасности данных», — отметила Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata.
Получение сертификата ФСТЭК на соответствие требованиям 4-го уровня доверия и технических условий
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop — получил сертификат соответствия ФСТЭК РФ №4821 от 13 июня 2024 года. Документ удостоверяет, что продукт сертифицирован по требованиям 4-го уровня доверия и технических условий.
4-й уровень доверия ФСТЭК является одним из самых высоких уровней доверия к средствам технической защиты конфиденциальной информации. Он подтверждает, что Arenadata Hadoop подходит для использования: · в значимых объектах критической информационной инфраструктуры 1-й категории; · государственных информационных системах 1-го класса защищённости; · автоматизированных системах управления производственными и технологическими процессами 1-го класса защищённости; · информационных системах персональных данных при необходимости обеспечения 1-го уровня защищённости персональных данных; · информационных системах общего пользования 2-го класса, обрабатывающих информацию ограниченного доступа, в том числе персональные данные, служебную, коммерческую и иные виды конфиденциальной информации.
![]() | Это важное событие и для нас, как для разработчика Arenadata Hadoop, и для наших клиентов и потенциальных заказчиков, специфика которых предписывает использовать программные продукты лишь со столь высоким уровнем защищённости, — отметил Александр Ермаков, технический директор Arenadata. | ![]() |
Сертификат ФСТЭК подтверждает, что Arenadata Hadoop является программным обеспечением со встроенными средствами защиты от несанкционированного доступа к информации, не содержащей сведений, составляющих государственную тайну, реализующим функции идентификации и аутентификации, управления доступом и регистрации событий безопасности. Дистрибутив соответствует требованиям по безопасности информации, установленным в документе «Требования по безопасности информации, устанавливающие уровни доверия к средствам технической защиты информации и средствам обеспечения безопасности информационных технологий».
На основе технических заключений Arenadata Hadoop внесён в государственный реестр системы сертификации средств защиты информации по требованиям безопасности информации от 13 июня 2024 года. Полученный сертификат ФСТЭК действителен до 13 июня 2029 года.
Совместимость Apache Impala с Arenadata Catalog
16 мая 2024 года компания Arenadata сообщила о том, что «ДатаКаталог» (входит в Группу Arenadata) протестировала коннектор, обеспечивающий совместимость продукта Arenadata Catalog (ADC) и сервиса Apache Impala, являющегося частью корпоративного дистрибутива Arenadata Hadoop (ADH). Подробнее здесь.
Добавление сервиса Smart Storage Manager
Компания Arenadata включила в состав корпоративного дистрибутива Arenadata Hadoop (ADH) сервис Smart Storage Manager (SSM) — инструмент для оптимизации хранения и управления данными. Сервис расширяет возможности распределённой файловой системы HDFS и позволяет выбрать наиболее эффективный способ работы с данными, снижая накладные расходы на их хранение и повышая производительность запросов. Об этом копания сообщила 2 апреля 2024 года.
В типичной инсталляции Hadoop 80% вычислительных нагрузок приходится на обработку 20% данных. Для оптимизации управления данными в зависимости от их востребованности Smart Storage Manager анализирует частоту обращений к файлам, а далее автоматически, на основе установленных администраторами правил, перемещает горячие данные в кеш, тёплые — на носители, оптимальные по производительности (SSD), холодные — в архив на носители, оптимизированные по объёму хранения (HDD). Это позволяет снизить стоимость хранения редко используемых данных, повысить производительность чтения горячих данных, а также оптимизировать использование оборудования.
Smart Storage Manager обеспечивает возможность настроить асинхронную репликацию данных между разными Hadoop-кластерами или между Hadoop-кластером и облачным хранилищем. Сервис отслеживает операции изменения данных, такие как создание, удаление, добавление и переименование, чтобы обеспечить синхронизацию в реальном времени и избежать вычислительных затрат MapReduce. Предусмотрена простая настройка и управление репликацией для реализации сценариев аварийного восстановления (DR).
![]() | Стандартный инструмент для репликации данных между разными Hadoop-кластерами — команда distcp (Distributed Copy) — подходит для пакетной репликации большого объёма данных и неприменима в ряде других сценариев. С появлением SSM мы расширили возможности Arenadata Hadoop новым функционалом Data Sync, позволяющим реализовать асинхронную репликацию с наименьшей задержкой и влиянием на кластер-источник, — отметил Александр Анисимов, технический руководитель продукта Arenadata Hadoop. | ![]() |
Политики и правила Smart Storage Manager позволяют гибко настраивать включение Erasure Coding — технологии отказоустойчивого распределения данных. Технология поддерживает сжатие данных в HDFS без ограничения доступа к ним для внешних приложений, что способствует экономии места в подсистеме хранения.
![]() | Ввиду роста объёмов неструктурированных данных и их неравноценности с точки зрения частоты запросов, нет смысла оптимизировать весь массив. SSM позволяет собирать и анализировать исторические показатели, на их основе выявлять и прогнозировать шаблоны доступа к данным, чтобы автоматически корректировать варианты хранения, оптимизируя расходы и повышая производительность, — отметила Екатерина Ульяшова, менеджер по продуктовому маркетингу Arenadata. | ![]() |
Сервис также включает решение для оптимизации потребления памяти при работе с небольшими файлами — их можно сжать в один файл-контейнер, который хранится в HDFS и данные в нём доступны для приложений верхнего уровня. Это позволяет снизить накладные расходы и повысить производительность записи и чтения небольших файлов.
Для удобства администраторов кластеров Smart Storage Manager предоставляет веб-интерфейс, с помощью которого можно создавать правила, запускать действия, проверять статус их выполнения и следить за статистикой кластера.
Доступность из облака «Крок»
Крок Облачные сервисы и Arenadata заключили соглашение о партнёрстве, по которому продукты Arenadata стали частью услуг, предоставляемых заказчикам на базе Облака КРОК. В частности, клиентам облачного провайдера теперь доступно решение Arenadata Hadoop (ADH)). Об этом Крок сообщил 17 января 2024 года. Подробнее здесь.
2023
Arenadata Hadoop 3.1.2.1.b1 с сервисом Apache Impala
Arenadata 25 октября 2023 года представила релиз Arenadata Hadoop (ADH) 3.1.2.1.b1, в который вошёл сервис Apache Impala — распределённая система исполнения SQL-запросов в экосистеме Hadoop. Сервис предназначен для интерактивной обработки данных на сверхбольших объёмах данных, он открывает доступ к новым сценариям использования, требующим высокой скорости исполнения запросов.
Можно выделить следующие преимущества нового функционала ADH для пользователей:
- Скорость обработки запросов в озере данных. Impala обеспечивает низкую задержку и высокий уровень параллелизма в экосистеме Hadoop. Это позволит эффективнее решать задачи self-service аналитики и ad-hoc запросов.
- Простота внедрения в текущую инфраструктуру. Заказчикам, у которых уже был установлен Hive, не придётся переносить данные и таблицы, так как Impala использует те же метаданные, форматы файлов и драйверы подключения.
- Масштабирование, независимое от основного кластера Hadoop. Arenadata Hadoop предоставляет возможность развёртывания Impala вне основного кластера. Это позволяет исключить конкуренцию за аппаратные ресурсы и отдельно масштабировать аналитическую нагрузку даже в существующих инсталляциях ADH.
- Оптимизация использования оборудования. Сервис поможет сократить стоимость обработки данных за счёт оптимального использования аппаратного обеспечения. Помимо этого, больше не требуется тратить ресурсы на адаптацию SQL-кода и дополнительное обучение аналитиков при миграции с Cloudera Data Platform.
- Оптимизация ландшафта заказчика. Отдельные сценарии ad-hoc и self-service аналитики, требующие массивно-параллельной обработки, теперь возможно реализовывать локально, не нагружая ими основное хранилище данных.
![]() | Включение еще одного сервиса в Arenadata Hadoop существенно повысило производительность продукта для ряда бизнес-сценариев. Он в значительной мере отвечает требованиям заказчиков в части скорости исполнения запросов, что позволяет внедрять новые сценарии использования. В грядущих релизах ADH мы планируем расширять функциональность данного сервиса: его безопасность, доступность и интеграцию с другими компонентами, например, такими, как Arenadata Platform Security (ADPS), — прокомментировал Александр Ермаков, технический директор Arenadata. | ![]() |
Обновленный релиз Arenadata Hadoop включил и другие изменения: представлено автоматическое управление высокой доступностью сервисов Hadoop, добавлен ADB Spark Connector с поддержкой Spark3, улучшен функционал керберизации кластера, позволяющий производить более детальную настройку.
Доступность в облаке Cloud.ru
Провайдер облачных и AI-технологий Cloud.ru стал стратегическим партнёром российского вендора ПО для хранения и обработки данных Arenadata. Теперь продукты Arenadata можно использовать в облаке Cloud.ru. Об этом Arenadata сообщила 29 августа 2023 года.
Как уточнили TAdviser представители Arenadata, в облаке Cloud.ru доступны следующие продукты компании: ADB - Arenadata DB, ADH (Arenadata Hadoop), ADQM (Arenadata QuickMarts) и ADS (Arenadata Streaming). Подробнее здесь.
Доступность в beeline cloud
Экосистема продуктов Arenadata теперь доступна клиентам облачного провайдера beeline cloud. Об этом компания Arenadata сообщила 3 августа 2023 года. Как уточнили TAdviser представители Arenadata, в числе продуктов, доступных через beeline cloud: Arenadata DB, Arenadata Hadoop, Arenadata Streaming, Arenadata Postgres, Arenadata QuickMarts и Arenadata Cluster Manager. Подробнее здесь.
Совместимость с платформой Rubbles MLOps Suite
ИТ-компании Rubbles и Arenadata обеспечили совместимость своих программных продуктов. Теперь платформа Rubbles MLOps Suite и решения для хранения и обработки данных Arenadata могут работать бесшовно в едином программном комплексе. Об этом компания Arenadata сообщила 19 июля 2023 года.
Единый программный комплекс объединяет MLOps-решения Rubbles и продукты Arenadata, в том числе и Arenadata Hadoop. Подробнее здесь.
Arenadata Hadoop 2.1.7_b1 с компонентами Hbase, Flink и Zookeeper
24 января 2023 года компания Arenadata сообщила о выпуске версии дистрибутива на базе Apache Hadoop, адаптированного для корпоративного использования, — Arenadata Hadoop (ADH) 2.1.7_b1. Релиз включил обновление версий компонент Hbase, Flink и Zookeeper. Также в него добавлен сервис Airflow2 и компонент Livy версии 0.7.1 c поддержкой работы со Spark версии 3.3.0 на Scala 2.13.
Arenadata Hadoop 2.1.7_b1 включил следующие улучшения и обновленный функционал:
- возможность установить версию сервиса Flink 1.15.1, а также «по кнопке» обновиться с предыдущей версии. Пользователи смогут воспользоваться функционалом данной версии и исправить проблемы предыдущей;
- возможность установить данную версию сервиса Hbase 2.0.4 и «по кнопке» обновиться с предыдущей версии, исправив проблемы старой версии;
- возможность установить данную версию сервиса Zookeeper 3.5.10, а также «по кнопке» обновиться с предыдущей версии. Данная версия позволит исправить проблемы предыдущей;
- возможность установить новый компонент сервиса Spark3 — Livy 0.7.1 c поддержкой Spark 3.3.0 на Scala 2.13 в качестве отдельного компонента параллельно Livy для Spark версии 2.3.2. В компонент добавлена возможность поддержки Spark 3.3.0 и Scala 2.13;
- обновленный сервис Airflow версии 2.3.3. Он устанавливается параллельно Airflow версии 1.10.11. Это даёт возможность перенести настройки и задания с предыдущей версии;
- поддержка кастомизации krb5.conf и ldap.conf через интерфейс Arenadata Cluster Manager (ADCM). Это даёт возможность пользователю самостоятельно средствами ADCM изменить содержимое конфигурационных файлов krb5.conf и ldap.conf. Этот функционал позволит настраивать более сложные и тонкие конфигурации керберизации и авторизации в зависимости от сложности инфраструктуры;
- добавлена возможность принудительно отключить политики доступа HDFS ACL, если включен плагин Ranger. Это позволит использовать единую «точку правды» для организации доступа пользователей.
![]() | Arenadata стремится предоставить заказчикам возможность получать последние версии компонентов Hadoop. Важно, чтобы у пользователей была возможность обновить их автоматически "по кнопке". Специалисты, работая над обновленными версиями Arenadata Hadoop, заботятся о том, чтобы продукт был безопасен, а его компоненты совместимы друг с другом и стабильно работали в рамках всей платформы, рассказал Александр Большаков, директор по продуктам Arenadata.
| ![]() |
2022
Тестирование на совместимость с серверами и дисковыми массивами Gagar>n
Производитель серверного оборудования GAGAR>N совместно с российским разработчиком платформы для работы с данными Arenadata и ИТ-компанией "Т1 Консалтинг" провели тестирование оборудования для работы с Big Data и подтвердили эффективность его использования для создания отечественных комплексов хранения и обработки больших данных. Об этом 26 июля 2022 года сообщили представители "Т1 Консалтинг".
В связи с возросшей потребностью заказчиков в построении ИТ-инфраструктуры на базе российских программно-аппаратных комплексов "T1 Консалтинг" выступил организатором разработки ПАК с использованием ПО Arenadata DB и Arenadata Hadoop на серверной платформе х86 и дисковых массивах GAGAR>N. Перед формированием готового предложения специалисты провели тестирование с целью проверки совместимости вычислительного оборудования с программными решениями. Подробнее здесь.
Kerberos-авторизация для предотвращения несанкционированного доступа
24 февраля 2022 года компания Arenadata сообщила, что предоставила пользователям трёх своих продуктов - Arenadata Hadoop (ADH), Arenadata Streaming (ADS) и Arenadata Platform Security (ADPS) - возможность предотвращать несанкционированный доступ к сервисам и данным кластеров. Теперь достаточно включить Kerberos-авторизацию для всех компонентов, которая позволит хранить авторизационные данные в Active Directory. Подробнее здесь.
2021
Доступность на платформе Mail.ru Cloud Solutions
Mail.ru Cloud Solutions 21 июля 2021 года сообщила о запуске Hadoop 3.0 как сервис на базе решения Arenadata. Подробнее здесь.
Arenadata Hadoop 2.1 с модулем Platform Security
18 января 2021 года компания Arenadata сообщила о завершении финального тестирования обновленного компонента для обеспечения централизованного управления политиками безопасности кластера — модуля Arenadata Platform Security.
По информации компании, сервис позволит бизнесу обеспечить комплексный подход к организации безопасности в следующих ключевых областях: безопасность периметра, аутентификация и авторизация пользователей, аудит действий пользователя, защита данных. Даст возможность создать единую систему обеспечения безопасности данных одновременно для нескольких инсталляций, кластеров и гетерогенных инфраструктур.
Первый релиз Platform Security (1.0.) поставляется как бесплатное дополнение к Enterprise-редакции последних версий дистрибутива Arenadata Hadoop 2.1 (на базе Hadoop 3.x). Начиная с текущего релиза все компоненты необходимые для организации и настройки безопасности будут поставляться в рамках отдельного модуля ADPS.
Arenadata Hadoop — дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования в рамках единой корпоративной платформы Arenadata EDP. Является дистрибутивом Hadoop с открытым кодом, начиная с ADH 2.1.2.3 доступен в Enterprise-редакции.
В корпоративную версию Arenadata Hadoop 2.1 включены все обновленные релизы компонентов Apache Ranger — компонента для мониторинга и управления комплексной безопасностью данных на платформе Arenadata Hadoop. Этот сервис отвечает за администрирование задач, связанных с безопасностью, мониторинг запросов доступа к системе и различные методы авторизации для всех компонентов и инструментов Hadoop.
В функционале Arenadata Hadoop 2.1 с модулем Platform Security появится ряд обновлений:
- Обновление Ranger для поддержки Apache Hadoop 3.1.
- Обновление Ranger для поддержки Hive 3.0.
- Обновление Ranger для поддержки Hbase 2.0.
- Поддержка Ranger для Apache Kafka 2.0.0.
- Поддержка плагина для включения, мониторинга и управления Elasticsearch.
- Зоны безопасности в Apache Ranger.
- Поддержка доверенного прокси.
- Обновление Ranger для поддержки Ozone.
- Интеграция KeySecure HSM.
- Поддержка пользовательских условий на уровне политики.
- Улучшения для поддержки ролей в политиках Ranger.
- Улучшения плагина Hive для поддержки команд SQL.
![]() | Первый релиз Arenadata Platform Security позволит нашим пользователям централизованно управлять безопасностью данных при работе с множеством сервисов и кластеров Arenadata Hadoop последних версий. Данное решение позволит снизить эксплуатационные издержки и будет особенно актуально в работе с большими массивами чувствительных данных, а именно в таких отраслях, как банки, финтех, телеком, медицина, страхование и ритейл. рассказал Александр Ермаков, технический директор Arenadata | ![]() |
Функциональными возможностями любого продукта на базе платформы Arenadata EDP являются нативная интеграция с другими решениями Arenadata и полностью автоматизированный процесс инсталляции других продуктов. В случае Platform Security у владельцев появится отдельный бандл, в поставку которого входят все решения для безопасности. С помощью стандартного визуального интерфейса в оркестраторе Arenadata Cluster Manager клиент разворачивает его в своей системе. Полностью автоматизированы любые процессы, связанные с инсталляцией, конфигурацией и другими действиями, необходимыми для интегрирования продуктов в корпоративную платформу.
В ближайших планах развития продукта — подключение других компонентов платформы Arenadata EDP, в частности, реализация поддержки Apache Ranger для кластеров Arenadata Streaming. В перспективе Arenadata Platform Security станет отдельной зонтичной надстройкой для управления безопасностью всех компонентов корпоративной платформы сбора и хранения данных Arenadata Enterprise Data Platform (EDP).
2020
Arenadata Hadoop 2.1.2.4
26 октября 2020 года компания Arenadata сообщила о том, что корпоративный дистрибутив Arenadata Hadoop (ADH) теперь доступен в разных версиях — бесплатной для свободного скачивания и корпоративной версии c функционалом высокой доступности ключевого компонента системы Namenode High Availability для повышения отказоустойчивости HDFS.
Arenadata Hadoop — это полноценный open-source дистрибутив на базе Apache Hadoop, адаптированный для корпоративного использования и предназначенный для хранения и обработки как структурированных, так и неструктурированных данных.
В октябре вышел релиз ADH 2.1.2.4:
- разделение версий — для свободного скачивания и платного продвинутого корпоративного варианта (с рядом собственных разработок и дополнительных преимуществ);
- добавлен функционал высокой доступности ключевого компонента системы Namenode High Availability. Это повысит отказоустойчивость ключевого компонента решения — HDFS. Доступно в версии релиза Enterprise.
Начиная с версии ADH 2.1.2.3 свежий дистрибутив Arenadata Hadoop доступен в 2 версиях — Community и Enterprise: Community — полностью функциональная версия, которую можно свободно использовать как для разработки и тестов, так и для промышленной эксплуатации. Community-версия Arenadata Hadoop открыта для свободного скачивания. Enterprise — содержит продвинутую функциональность высокой доступности и, в скором будущем, информационной безопасности.
Ранее в случае падения мастер-сервера с NameNode требовалось вручную восстановить файловую систему с SecondaryNamenode, чтобы вернуть доступ к кластеру и сервисам. Теперь все действия по фейловеру производятся автоматически, а обслуживание не прерывается. Во время, пока производятся эти действия, кластер и сервисы были недоступны.
![]() | HighAvaliability для HDFS Namenode — важное требование для многих наших заказчиков. Наличие высокой доступности ключевого компонента системы позволит им перейти на более современную версию Hadoop 3.x, которая снижает накладные расходы на хранилище на 50–200% и предоставляет хранение с использованием кодов избыточности для обеспечения отказоустойчивости. Именно на версии Hadoop 3.x — сконцентрировано внимание сообщества, и все большие разработки от глобальных IT-вендоров идут в этой версии экосистемы. При этом сам продукт Arenadata Hadoop стал удобнее в обслуживании — для восстановления работоспособности в случае сбоев срочное вмешательство администратора больше не требуется, — комментирует продакт менеджер Arenadata Hadoop Алексей Белозерский | ![]() |
До конца 2020 года планируется внедрение компонента Apache Ranger, который будет отвечать за импорт пользователей и групп из внешних источников и авторизацию во всех компонентах дистрибутива Hadoop. Это позволит создать единую точку авторизации пользователей, контролировать доступ к данным и проводить аудит доступа.
Где скачать
Arenadata Hadoop (ADH) — это полностью open-source дистрибутив Hadoop. Вы можете самостоятельно скачать Community-версию Arenadata Hadoop ADH 2.1.2.4, в том числе изучить исходные коды продукта.
Arenadata Hadoop 2.1.2
25 февраля 2020 года Arenadata представила минорную версию Arenadata Hadoop 2.1.2 (ADH 2.1.2), включающую два дополнительных сервиса Airflow и Solr, а также поддержку YARN on GPU с целью использования видеокарт для вычислений.
Благодаря этому пользователи Arenadata Hadoop получат возможность запускать задачи внутри Hadoop с использованием GPU-машин. Классический пример — это Spark. Внутри него можно писать код, который будет использовать CUDA ядра и быструю память GPU-машин.
![]() | Версия Arenadata Hadoop 2.1.2 позволит ускорить работу Spark с использованием аппаратного обеспечения видеокарт. При этом вся функциональность нашего продукта сохранится. Также мы внесли в обновленную версию несколько исправлений и изменений функционирования сервисов, добавили более глубокие чеки сервисов проверки работоспособности, их интеграционные проверки взаимодействия между собой, рассказал Александр Ермаков, технический директор Arenadata
| ![]() |
2019: Дистрибутив Arenadata Hadoop 2.1 на базе Hadoop 3
Компания Arenadata презентовала рынку в октябре 2019 года обновление дистрибутива распределённой платформы хранения Arenadata Hadoop (ADH) - Arenadata Hadoop 2.1, включающую такие компоненты, как Hadoop 3, Spark 2, Hive 3, YARN 3, HBase 2 и Phoenix 5.
Arenadata Hadoop 2.1 наполнена рядом новых функциональностей. Среди них:
- новая система управления, развёртывания и мониторинга Arenadata Cluster Manager, позволяющая устанавливать и управлять сервисами Hadoop как on-premise, так и в облаке;
- алгоритм восстановления данных Erasure Coding, способный до 40% снизить over-утилизацию дисковой системы в сравнении с классической репликацией HDFS;
- СУБД Hive 3, позволяющая создавать реляционные таблицы, записывать в них данные, использовать транзакции и материализации представлений;
- новая версия менеджера ресурсов YARN 3, позволяющая в данной версии контролировать распределение ресурсов нескольких кластеров между конкурирующими приложениями (YARN Federation);
- использование статичного диапазона портов для сервисов Hadoop;
- реляционная база данных Phoenix, позволяющая решить проблемы с потоковой загрузкой данных и их чтением.
2018
Доступность в Казахстане
14 ноября 2018 года компания Arenadata, российский разработчик многоцелевой платформы данных, сообщила о доступности на рынке Казахстана российского дистрибутива Arenadata Hadoop (ADH), а также аналитической массивно-параллельной СУБД Arenadata DB.
![]() | Техническую поддержку решений Arenadata будут обеспечивать специалисты DIS Group, — уточнил Канат Абиров, генеральный директор DIS Group KZ. — В России наши специалисты уже успели приобрести опыт работы с продуктами Arenadata. При этом мы работаем на рынке Казахстана в течение многих лет и хорошо знаем специфику региона. | ![]() |
Приобрести Arenadata Hadoop и Arenadata BD казахские компании смогут через офис DIS Group в Алматы — DIS Group KZ. Также стали доступны промышленные модули для расширения функционала платформы Arenadata в области интеграции данных, обеспечения их качества, каталогизации и самостоятельной работы бизнес-пользователе. Модули — на базе инструментов компании Informatica.
Дистрибутив Arenadata Hadoop 1.5.2
Во втором квартале 2018 года вышел релиз версии 1.5.2 Arenadata Hadoop.
Данная версия дистрибутив включает следующий состав компонентов:
В отличие от других корпоративных дистрибутивов, представленных на рынке, Arenadata Hadoop обладает рядом особенностей:
- вся поддержка и непосредственно экспертиза доступна в России и на русском языке;
- есть пакет утилит для полной оффлайн-установки (без доступа к сети интернет);
- вся сборка выполнена на базе открытых проектов Apache, нет проприетарных компонентов;
- российское программное обеспечение;
- поддержка доступна как удаленно, так и on-site;
- есть набор доступных типовых пакетных сервисов по планированию, установке и аудиту системы.
Arenadata Hadoop обеспечивает полный набор возможностей и инструментов для автоматического развертывания компонентов как на «голом железе», так и на виртуальных машинах (в облаке). Средства мониторинга и управления конфигурацией кластера позволяют оптимизировать производительность для всех компонентов системы. Apache Ambari обеспечивает интерфейсы для интеграции с существующими системами управления, например, Microsoft System Center и Teradata ViewPoint.
Оригинальная документация на русском языке позволяет облегчить процесс планирования и разворачивания кластера Hadoop.
В состав дистрибутива Arenadata Hadoop входят последние актуальные версии всех наиболее популярных инструментов, некоторые из которых были существенно доработаны, что гарантирует минимальное количество ошибок ПО, полный существующий функционал каждого инструмента и корректную интеграцию инструментов между собой. Кроме того, в состав Arenadata Hadoop включены инструменты для реализации корпоративных моделей безопасности (Apache Knox, Apache Ranger), управления данными и метаданными кластера (Apache Atlas), реализации ETL\ELT-потоков данных (Apache Flink, Apache NiFi).
Состав и версии компонентов ADH 1.5.2:
- Apache Ambari 2.6.1
- Apache HDFS 2.8.1
- Apache YARN 2.8.1
- Apache MapReduce 2.8.1
- Apache Zookeeper 3.4.10
- Apache Tez 0.9.0
- Apache Hive 2.3.0
- Apache HBase 1.3.1
- Apache Phoenix 4.11.0
- Apache Pig 0.17.0
- Apache Sqoop 1.4.6
- Apache Flume 1.8.0
- Apache Oozie 4.3.0
- Apache Atlas 0.8.1
- Apache NiFi 1.3.0
- Apache Apex 3.6.0
- Apache Flink 1.3.2
- Apache Kafka 1.0.0
- Apache Knox 0.12.0
- Apache Mahout 0.13.0
- Apache Ranger 0.7.1
- Apache Ranger KMS 0.7.1
- Apache Solr 6.6.0
- Apache Spark 2.2.0
- Apache Zeppelin 0.7.3
- Apache Giraph 1.1.0
- Apache Slider 0.92.0
Дополнительные компоненты, включенные в состав дистрибутива:
- Hue 3.11.0
- Bigtop-groovy 2.4.10
- Bigtop-jsvc 1.10.15
- Bigtop-tomcat 6.0.45
- Bigtop-utils 1.3.0
- extjs 2.2
- fping 3.10
- grafana 4.3.1
- libconfuse 2.7
- lzo 2.06
- lzo-devel 2.06
- lzo-minilzo 2.06
- mysql-connector-java 5.1.25
- net-tools 2.0
- numactl-libs 2.0.9
- pdsh 2.3.1
- perl-Crypt-DES 2.05
- perl-Net-SNMP 6.0.1
- rrdtool 1.4.8
- rrdtool-devel 1.4.8
- snappy 1.1.0
- snappy-devel 1.1.0
2016: Сертификация по стандартам Open Data Platform Initiative
В 2016 году дистрибутив Arenadata Hadoop 1.3.2 прошел сертификацию и получил подтверждение о полном соответствии стандартам Open Data Platform Initiative (ODPi). ODPi – мировое сообщество разработчиков проектов хранения больших данных с открытым кодом под эгидой Linux Foundation.
Подрядчики-лидеры по количеству проектов
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
Распределение систем по количеству проектов, не включая партнерские решения
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)
![](/skins/ta/img/0.gif)