Разработчики: | Databricks |
Технологии: | BI, СУБД |
Главный управляющий: Йон Стоика (Ion Stoica)
Одним из самых значительных успехов на арене «больших данных» был выпуск Apache Spark в мае 2014 года. Это механизм обработки-в-памяти с открытым кодом, превосходящий платформу Hadoop по производительности аналитики данных[1].
Компания Databricks была создана несколькими разработчиками Spark и в июне 2014 года предложила платформу Databricks Cloud, построенную на данной технологии. Эта хостинговая платформа, которая проходит бета-тестирование, упрощает развертывание и предоставление Spark и поставляется с набором встроенных приложений для сбора и анализа данных. Организация может, к примеру, использовать Databricks Cloud, чтобы быстро обрабатывать и анализировать данные, хранимые в Amazon S3.
Databricks имеет отношение к Apache Spark, однако компания в значительной степени модифицировала фреймворк, снабдив его более высоким уровнем абстракции API и более быстрой обработкой данных в памяти (in-memory processing), поэтому он не только дополняет возможности «традиционного» Hadoop, но и может выступать его заменой. Модификация Databricks — Delta Lake — это полностью управляемая Open Source-версия Spark, которая работает в облаке и поставляется с несколькими проприетарными расширениями[2].
Delta Lake — чисто облачный проект, который применяется рядом крупных клиентов по всему миру. По словам одного из создателей Apache Spark и технического директора Databricks Матея Захарии, клиенты мигрируют со Spark на платформу Databricks по разным причинам, но часто это продиктовано требованиями бизнеса, который все чаше ориентируется на работу с облачными сервисами. Желание клиентов связать озера данных, которые находятся как в облачном, так и в локальном хранилище, и стало для компании побудительным мотивом к созданию решения для обеспечения их надежности.
«Озеро данных сегодня есть почти у каждой компании. Они пытаются добыть из него информацию, но ее ценность и надежность часто вызывает сомнения. Delta Lake устраняет эти проблемы — об этом говорит интерес к этому решению сотен предприятий. Учитывая, что Delta Lake обладает открытым кодом, разработчики смогут беспрепятственно создавать надежные озера данных», — сказал соучредитель и генеральный директор Databricks Али Годси. |
Он также пояснил, что из себя представляют «Delta-озера данных» и какие типы файловых систем и данных они поддерживают. «Delta Lake располагается поверх вашей СХД (но не заменяет ее) и предлагает транзакционный уровень хранения как в формате HDFS, так и в формате BLOB-объектов Azure, хранящихся в облачном хранилище, к примеру, S3. Пользователи могут скачать Delta Lake и совмещать его с HDFS в онпремис-варианте. Они также могут считывать данные из любой системы хранения, которая поддерживает источники данных Apache Spark, и записывать в Parquet — формат хранения, который понимает Delta Lake», — сказал Годси.Метавселенная ВДНХ
Databricks отдала предпочтение Apache Parquet, потому что этот колоночно-ориентированный (столбцовый) формат хранения данных изначально создавался для экосистемы Hadoop и не зависит от выбора среды обработки данных. Delta Lake выступает в качестве слоя поверх поддерживаемых форматов хранения данных.
Примечания
Подрядчики-лидеры по количеству проектов
Прогноз (250)
Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
RBC Group Украина (124)
БизнесАвтоматика НПЦ (117)
Консультационная группа АТК (100)
Другие (2515)
Сапиенс солюшнс (Sapiens solutions) (9)
Форсайт (8)
Navicon (Навикон) (7)
Корус Консалтинг (6)
Доверенная среда (5)
Другие (101)
БизнесАвтоматика НПЦ (13)
Форсайт (8)
ФТО (5)
Manzana Group (М Софт) (4)
Optimacros (Оптимакрос) (3)
Другие (74)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Qlik (QlikTech) (59, 464)
Форсайт (19, 332)
SAP SE (70, 302)
Oracle (65, 267)
Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
Другие (1111, 1628)
SAP SE (6, 13)
Qlik (QlikTech) (2, 8)
Форсайт (2, 8)
Microsoft (2, 6)
Доверенная среда (1, 5)
Другие (50, 78)
БизнесАвтоматика НПЦ (1, 13)
Форсайт (3, 8)
Optimacros (Оптимакрос) (1, 6)
Microsoft (1, 5)
Manzana Group (М Софт) (3, 4)
Другие (40, 50)
Optimacros (Оптимакрос) (1, 10)
Форсайт (2, 8)
БизнесАвтоматика НПЦ (1, 7)
Manzana Group (М Софт) (2, 5)
Analytic Workspace (ОСТ) (2, 5)
Другие (37, 59)
Simetra (ранее А+С Транспроект) (1, 9)
Полиматика (Polymatica) (5, 6)
SL Soft (СЛ Софт) (5, 6)
VMware (2, 6)
Optimacros (Оптимакрос) (1, 6)
Другие (27, 43)
Распределение систем по количеству проектов, не включая партнерские решения
QlikView - 370
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 318
Deductor - 226
Visary BI Платформа бизнес-аналитики - 117
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 102
Другие 1995
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 7
Qlik Sense - 6
Доверенная среда: Триафлай BI-платформа - 5
Microsoft Power BI - 5
Другие 85
Visary BI Платформа бизнес-аналитики - 13
Optimacros Платформа для оптимизационного и консолидационного планирования - 6
Microsoft Power BI - 5
Форсайт. Аналитическая платформа (ранее Prognoz Platform) - 5
Qlik Sense - 4
Другие 51
Подрядчики-лидеры по количеству проектов
SAP CIS (САП СНГ) (38)
Softline (Софтлайн) (35)
РДТЕХ (33)
BeringPro (БерингПойнт) ранее BearingPoint Russia (28)
ФОРС - Центр разработки (25)
Другие (729)
Сапиенс солюшнс (Sapiens solutions) (7)
Navicon (Навикон) (3)
BeringPro (БерингПойнт) ранее BearingPoint Russia (3)
GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (2)
IFellow (АйФэлл) (2)
Другие (35)
Ред Софт (Red Soft) (1)
InnoSTage (Инностейдж) (1)
Сбербанк-Технологии (СберТех) (1)
Netrika (Нетрика) (1)
Синимекс (Cinimex) (1)
Другие (20)
Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров
Oracle (44, 179)
SAP SE (6, 177)
Microsoft (23, 142)
PostgreSQL Global Development Group (14, 125)
Постгрес профессиональный (ППГ, Postgres Professional) (6, 40)
Другие (263, 242)
SAP SE (3, 11)
Microsoft (3, 11)
PostgreSQL Global Development Group (3, 10)
Oracle (2, 4)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 3)
Другие (10, 13)
PostgreSQL Global Development Group (4, 9)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 6)
VK Tech (ранее VK Цифровые технологии, ВК Цифровые технологии и Mail.ru Цифровые технологии) (2, 3)
Arenadata (Аренадата Софтвер) (3, 2)
Apache Software Foundation (ASF) (2, 2)
Другие (9, 9)
PostgreSQL Global Development Group (3, 13)
Постгрес профессиональный (ППГ, Postgres Professional) (1, 6)
Arenadata (Аренадата Софтвер) (3, 5)
Apache Software Foundation (ASF) (3, 4)
Тантор Лабс (Tantor Labs) (2, 3)
Другие (8, 10)
PostgreSQL Global Development Group (4, 10)
Arenadata (Аренадата Софтвер) (3, 6)
VMware (2, 6)
Постгрес профессиональный (ППГ, Postgres Professional) (2, 5)
Сбербанк-Технологии (СберТех) (2, 2)
Другие (4, 6)
Распределение систем по количеству проектов, не включая партнерские решения
Oracle Database - 106
Microsoft SQL Server - 104
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 102
PostgreSQL СУБД - 79
SAP HANA (High Performance Analytic Appliance) - 72
Другие 374
Microsoft SQL Server - 9
SAP NetWeaver Business Warehouse (SAP BW/4HANA) - 8
PostgreSQL СУБД - 7
Oracle Database - 3
SAP HANA (High Performance Analytic Appliance) - 3
Другие 21
Postgres Pro СУБД - 5
ADB - Arenadata DB - 2
PostgreSQL СУБД - 2
Tarantool Платформа in‑memory вычислений - 2
Oracle Database - 2
Другие 13
Postgres Pro СУБД - 6
PostgreSQL СУБД - 4
ADB - Arenadata DB - 3
Tantor СУБД - 3
Apache Kafka - 2
Другие 10
ADB - Arenadata DB - 5
PostgreSQL СУБД - 4
Postgres Pro СУБД - 3
ADH - Arenadata Hadoop - 2
Сбер Platform V Pangolin - 2
Другие 8