Визуализация данных
Развитые средства визуализации данных стали неотъемлемой частью корпоративных BI-платформ. Некоторые вендоры, такие, например, как Tableau, именно визуализацию сделали краеугольным камнем своих аналитических систем. Тренд пронизывает рынок систем аналитики полностью: сегодня даже простейшие аналитические инструменты для конечных пользователей зачастую опираются именно на визуальное представление данных.
Каталог BI-решений и проектов доступен на TAdviser.
Содержание |
Один из экспертов в области визуализации данных Эдвард Тафт (Edward Tufte) однажды сказал: «Мир является сложным, динамичным, многомерным, а бумага статичной и плоской. Как мы можем передать все богатство визуального представления об этом мире на этой равнине?». В действительности, развитые средства визуализации сегодня являются обязательным компонентов как промышленных BI-платформ, так и небольших аналитических решений для конечных пользователей.
Визуализация данных, по мнению экспертов Forrester[1], необходима компании в тех случаях, когда:
- Невозможно увидеть паттерн, не прибегая к визуализации данных. Все потому, что традиционные отчеты, строки, колонки и таблицы не дают понимание общей картины в целом, что может привести к неверной интерпретации данных.
- Когда значительные массивы данных невозможно разместить на одном экране. Как бы ни был мелок шрифт, сотни и тысячи строк данных на одном экране будут абсолютно не информативны в сравнении с визуальных представлением этой же самой информации. В своей книге The Visual Display of Quantitative Information[2] Эдвард Тафт приводит пример отображения 21 тыс. значений данных на карте США, поместившейся на одном экране.
- Невозможно передать глубину данных посредством информации, представленной на одном экране. Например, в фармацевтике при анализе свойств тех или иных препаратов используются сотни различных психофизических параметров человека, охватить которые в линейном виде не представляется возможным. Однако медицинские эксперты присваивают каждому параметру разноцветные пиксели и помещают их в динамические модели, где любой участок при необходимости может быть увеличен и проанализирован детально.
Пример визуализации "Симфонии №5" Людвига Ван Бетховена
Многие компании на протяжении долгих лет эффективно используют такие простейшие средства визуализации данных как диаграммы и гистограммы, в дальнейшем развитие технологий визуального представления информации позволило сделать работу с ними более динамичной и обрабатывать сведения фактически в режиме реального времени. Развитая бизнес-графика включает в себя различные дэшборды и чарты, которые могут обновляться автоматически согласно заданным настройкам.
Пример визуализации: связи между темами докладов разных стран в рамках Всемирного экономического форума
Пример представления данных в виде дэшборда
Среди многообразия отдельных инструментов и систем с функциями визуализации данных Forrester Research также выделяет отдельно платформы продвинутой дата визуализации или ADV (advanced data visualization). Такие платформы обладают более развитыми средствами и обеспечивают более комплексное представление информации. Вот их главные определяющие отличия:
- Динамический контент. Это означает, что визуальное представление информации изменяется по мере апдейта данных в базе. Статическая визуализация, которую можно создать в большинстве офисных программ, такой возможности не предоставляет.
- Визуальные запросы. Это возможность запрашивать и перезапрашивать данные путем простого манипулирования частями графики или диаграмм (нажатием на кнопки, например, можно развернуть подробности) или специальных визуальных компонентов (выпадающих списков, владок и прочего).
- Мультиданные. Типичные статические средства визуализации не могут связать и отобразить между собой более чем несколько параметров данных. В продвинутых платформах визуализации, напротив, учитываются множественные данные различных типов, прочно завязанные друг с другом, так что при обновлении какой-то части информация автоматически меняется на всех других панелях.
- Анимированная визуализация. Некоторые параметры, например, время, могут иметь сотни и сотни значений, так что отслеживание общей картины для каждого параметра в отдельности может стать достаточно трудоемким заданием. В таких случаях на помощь приходит анимация, позволяющая запустить переход от параметра к параметру в автоматическом режиме.
- Персонализация. То, что интуитивно понятно и необходимо одному пользователю, может совершенно не подойти другому. Кроме того, в большинстве компаний для защиты информации и минимизации рисков предусмотрены различные уровни доступа к корпоративным данным. Платформы ADV позволяют автоматически применять персональные настройки и предпочтения.
- Использование оповещений. Мощные ADV платформы могут подавать сигнал, когда не в состоянии корректно обработать большие массивы данных. Или, например, сигнал подается в тот момент, когда найдено какое-то критическое значение, причем оповещение может подаваться в том числе с помощью электронной почты и текстовых сообщений.
Лидеры рынка платформ продвинутой визуалиации данных
Forrester Research, 2012
По данным Forrester Research, к лидерам на рынке ADV платформ относятся такие компании как Tableau, IBM, Information Builders, SAS, SAP, Tibco, и Oracle. Решения этих вендоров предоставляют значительные возможности для визуализации, хорошо сбалансированные для создания различных запросов. Витрина данных НОТА ВИЗОР для налогового мониторинга
Сильными игроками на этом рынке также являются Microsoft, MicroStrategy, Actuate Software, Qlik (QlikTech), SpagoBI и Panorama Software. Альтернативой мега вендорам также являются Jaspersoft и Pentaho, чьи решения можно использовать по подписке.
Как рассказал TAdviser эксперт Георгий Нанеишвили, директор по развитию партнерской сети Qlik, российские компании в качестве средств визуализации предпочитают традиционно таблицы – простые и сводные.«Красивые графики хорошо показывать на презентациях, но в реальной работе для аналитиков критически важно моментально работать с огромным объемом информации, динамически накладывая фильтры и получая отчеты в табличной форме. Никак мы не уйдем от технологии анализа данных методом пристального взгляда. Да и чувствуется острый недостаток квалифицированных инфографов», - пояснил он.
Так что позволить себе действительно эффективное решение, которое одним взглядом позволят оценить сложившуюся ситуацию и исторические тренды, провести сравнительный анализ, геоанализ – могут позволить себе не так много российских компаний, полагает он.
Причем дело не том, что подобных решений нет: наоборот, на это ориентированы все современные BI-инструменты, а особо продвинутые позволяют это делать даже рядовым пользователям. Эксперт полагает, что пока еще нет понимания и достаточной квалификации у самих пользователей.
Прогноз по тенденциям в медицинской визуализации
В декабре 2017 года генеральный директор Ambra Health Моррис Паннер (Morris Panner) представил прогноз по технологическим тенденциям, которые, по его мнению, изменят медицинскую визуализацию в 2018 году. Подробнее здесь.
Визуализация больших данных
Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.
- Облако тегов
Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.
- Кластерграмма
Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.
- Исторический поток
Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.
- Пространственный поток
Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.
Обработка операционных баз данных и многомерных хранилищ
- Транзакционные тяжелонагруженные базы данных
- Реляционные и многомерные хранилища
- Прямые обращения к API систем
- Работа с коннекторами
- Обработка плоских файлов (CSV, Excel, XML и т.п.)
Построение аналитических моделей в памяти
- Классические BI-решения
- Гибридный подход (Exalytics, HANA, Teradata и т.п.)
- In-memory системы
- •Принципиально другой подход
- •Нереляционные базы данных
- •Компрессия
- •Скорость доступа
- •Индексация и поиск
- •Средства визуализации
Типичные проблемы визуализации и расчеты «на лету»
- Попытка сформировать перегруженный элементами интерфейс
- Избыточность данных (миллионы строк в табличных и графических элементах)
- Динамический расчет показателей
- Сложные вычисления
- Условное форматирование
- Неоптимальные выражения, приводящие к полному сканированию таблиц
- Расчеты по большим объемам первичных данных
Инструментарий, комбинирующий ETL-инструменты и средства визуализации
Задачи
- SQL запросы
- Работа с хранимыми процедурами
- Работа с плоскими файлами как с таблицами базы
- Скрипты преобразования, обогащения и очистки данных
- Работа с функциями
- Формирование новых измерений и значений
- Подготовка реляционных связей между сущностями
Прогнозная и статистическая аналитика
- Обработка данных, формирование локальной прогнозной модели, реализация математических алгоритмов
- Передача данных и использование внешних инструментов
- Работа с СУБД и использование функций обработки больших массивов данных
- Многопоточная обработка
- Сравнительная аналитика
- What-If анализ и параметризация отчетов
См.также
Business Intelligence, BI (мировой рынок)
Тенденции развития мирового рынка BI
Business Intelligence (рынок России)
Большие данные (Big Data) мировой рынок
Предикативная аналитика (предиктивная, прогнозная, прогностическая) Predictive analytics