Yambda (Yandex Music Billion-interactions Dataset)

Продукт
Разработчики: Яндекс (Yandex)
Дата премьеры системы: 2025/05/28
Технологии: Big Data

Основная статья: Большие данные (Big Data)

2025: Представление Yambda

Учёные Яндекса разработали и выложили в опенсорс Yambda - один из крупных датасетов для развития рекомендательных систем. Об этом Яндекс сообщил 28 мая 2025 года.

С помощью датасета учёные, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы.

Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам.

Коммерческие компании редко публикуют датасеты для рекомендательных систем, поэтому в общем доступе мало актуальных и качественных данных для исследований в этой сфере. Доступ к качественным большим данным открывает возможности для научных исследований и привлекает к области внимание молодых ученых.

Yambda создан на основе обезличенных данных Яндекс Музыки, но использовать его можно для оценки качества любых рекомендательных систем. Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы.



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (612)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  Marketing Logic (Маркетинг Лоджик) (2)
  Инфосистемы Джет (2)
  Яндекс.Облако (Yandex Cloud) (2)
  Другие (60)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Сбербанк (2)
  Синимекс (Cinimex) (2)
  Arenadata (Аренадата Софтвер) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Ростелеком (3)
  Цифровые технологии и платформы (ЦТиП) (3)
  Luxms (2)
  Другие (92)

  Т1 (1)
  Триафлай (1)
  Napoleon IT (Наполеон Айти) (1)
  Лаборатория измерительных систем (1)
  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (322, 168)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Цифра (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  Ростелеком (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Цифра (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (11, 12)

  Триафлай (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 14
  ZIIoT Платформа для работы с промышленными данными - 12
  Luxms BI - 11
  Другие 161

  Visary BI Платформа бизнес-аналитики - 4
  Arenadata Catalog - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Росатом Цифровое теплоснабжение - 2
  CM.Expert Data Mining платформа - 2
  Другие 17

  Visary BI Платформа бизнес-аналитики - 5
  Arenadata Catalog - 3
  Luxms BI - 3
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Arenadata Catalog - 2
  Data Ocean Nova Платформа данных - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 11

  Триафлай BI-платформа - 1
  Другие 0