2011/06/20 00:30:41

Дедупликация данных

Почти на протяжении трех лет дедупликация была одной из самых обсуждаемых технологий в индустрии систем хранения данных (СХД). В течение этого времени она вызывала маркетинговые войны, становилась причиной отраслевого объединения, и порождала критику и споры со стороны поставщиков. Как правило, ИТ-администраторы большинства дата-центров среднего уровня имеют в своем подчинении ограниченный персонал и мало специалистов в облаaсти резервного копирования, и трудно представить, как в такой ситуа-ции можно было бы использовать технологию дедупликации. Ниже приведены некоторые важные вопросы, на которые ИТ-администраторам необходимо получить ответ, прежде чем развертывать технологию дедуп-ликации в дата-центре среднего уровня.

Содержание

Что такое дедупликация данных?

Дедупликация – это технология поиска повторяющихся данных на уровне файла, и замена их соответст-вующим указателем. Его можно использовать для уменьшения дискового пространства, а также полосы про-пускания, необходимой для передачи данных.

Существует несколько различных и приемлемых методов выполнения дедупликации — и хотя она, в боль-шинстве случаев, выполняется на уровне блоков данных, некоторые решения в состоянии обнаруживать различия между файлами на уровне даже одного байта. Разные методы могут иметь ограничения по произ-водительности, размеру оперативной памяти, поддержке программного обеспечения (ПО), а также простоте настройки репликации.

Является ли дедупликация общераспространенной технологией?

Дедупликация окончательно перешла из категории экспериментальных в категорию общераспространенных технологий. По словам аналитиков, сегодня на западе более 30% ИТ-подразделений применяют ее, по край-ней мере, к части своих данных. Сейчас на рынке предлагаются продукты и решения, имеющие за собой уже пару поколений, которые уже оптимизированы для упрощенной установки, без нарушения работы других приложений.

Тем не менее, это не означает, что все решения у различных производителей одинаковы. Большинство по-ставщиков технологий дедупликации проходят этап накопления технического опыта, поэтому желательно при оценке решений узнавать уровень квалификации компании, требовать рекомендации и узнавать о тех-нической поддержке.

Для решения каких проблем лучше всего подходит дедупликация?

Наиболее распространенной сферой применения дедупликации является резервное копирование данных. Это естественно, потому что в резервных копиях может содержаться больше повторений, чем в любых дру-гих массивах данных, и к тому же, они дольше хранятся. Высокие скорости дедупликации выгодны в случае большинства общих типов офисных данных — в том числе почтовые сообщения, базы данных и плоские файлы.

Недавно компания Quantum провела опрос пользователей своих устройств DXi-Series для получения коли-чественных данных по эффективности включения дедупликации в пользовательские стратегии резервного копирования. В сравнении со стандартными СХД, скорость резервного копирования в среднем увеличилась на 125%, число неудачных случаев резервного копирования уменьшилось на 87%, а также отмечены огром-ные изменения профилей восстановления — процедуры восстановления, на которые до применения дедуп-ликации требовалось несколько часов или дней, обычно удавалось сократить до минут. Затраты также за-частую существенно уменьшались. По сообщениям пользователей, общие расходы на съемные носители упали в среднем на половину, расходы на носители с использованием магнитных лент сократились на 97%, а время, требуемое для управления резервными копиями, сократилось на 63%.Бизнес уходит в облако: стратегии и подходы

Пользователи, которые используют удаленную репликацию для защиты от потери данных во время аварий и стихийных бедствий, наблюдают рост количества точек восстановления одной системой, которые автомати-зируют удаленную репликацию и устраняют необходимость в использовании магнитных лент и их админи-стрировании в небольших офисах.

Имеет ли значение, какое ПО резервного копирования используется?

Большинство поставщиков технологий дедупликации тестировали свои системы на разных программах ре-зервного копирования и добились неплохих результатов. Некоторые поставщики даже могут включать в систему хранения данных поддержку более чем одного ПО резервного копирования. Поэтому стоит узна-вать у поставщика технологии дедупликации, какое ПО резервного копирования поддерживается. Обязательно удостоверьтесь в том, что поддерживаются специализированные интерфейсы ПО резервного копирования. Например, Symantec, разработала интерфейс OpenStorage, который дает системам резервного копирования дополнительные рабочие преимущества, такие как повышенная производительность, улуч-шенное управление репликацией, и даже прямое, автономное создание резервных копий. Узнавайте у по-ставщиков систем дедупликации об их стратегических взаимоотношениях с поставщиками систем резервно-го копирования. Вы должны понять, насколько тесно они сотрудничают, а также узнать их планы по взаи-модействию и интеграции в будущем.

Какой самый простой способ внедрения дедупликации?

Большинство ИТ-подразделений стоят перед выбором – либо устанавливать специализированные устройст-ва дедупликации, либо выполнять дедупликацию с помощью программного обеспечения для резервного копирования. На вопрос о том, какой подход проще нет однозначного ответа. Тем не менее, можно дать не-сколько рекомендаций.

При использовании специализированных устройств дедупликации, сейчас это наиболее распространенный метод дедупликации, все резервные копии данных отправляются специализированный сервер, и там выпол-няется дедупликация. В этом случае, пользователи могут заменять или дополнять установленные целевые системы резервного копирования с минимальными изменениями общей методологии резервного копирова-ния. Поскольку дедупликация выполняется на специализированном устройстве, она не приводит к увеличе-нию нагрузки на клиенты резервного копирования или медиа серверы, и это упрощает выполнение таких операций как репликация. Этот метод является не только самым распространенным, но и самым разрабо-танным. Его использование подразумевает более быструю установку и меньшие требования к сервисному обслуживанию.

При использовании программ, система резервного копирования включает дедупликацию в список других задач, которые выполняются либо на клиентах резервного копирования, либо на медиа серверах. Выполне-ние дедупликации данных перед их отправкой на целевую систему позволяет уменьшать объем данных, ко-торые необходимо передавать по сети. Эта идея аналогична выполнению сжатия данных в программе, и, между прочим, дедупликация данных почти всегда включает сжатие данных. Поскольку дедупликация яв-ляется относительно ресурсоемкой операцией, есть вероятность замедления операций резервного копирова-ния, поэтому может потребоваться добавление новых серверов или специализированных СХД. Это может увеличивать стоимость системы и сложность интеграции.

В определенных обстоятельствах может подходить любой из описанных выше подходов. Для того чтобы решить, какой из них лучше подходит в вашей ситуации, определите критические элементы своей системы, коэффициент использования своих медиа серверов, а также уровень интеграции, который будет оправдан в данной ситуации.

Стоит ли вообще отказываться от использования накопителей на магнитных лентах

Хотя большинство конечных пользователей, которые применяют технологии дедупликации, уменьшают коэффициент использования своих съемных носителей, очень немногие из них отказываются от них полно-стью. И для этого есть вполне серьезная причина. Обычно, потребности пользователей в резервном копиро-вании можно разделить на три уровня: ежедневное резервное копирование и восстановление, краткосрочная защита от потери данных на случай аварий или стихийных бедствий, и долгосрочное хранение данных. Имеет смысл использовать разные технологии на каждом уровне.

Ежедневное резервное копирование и восстановление: у многих пользователей профили чтения и записи дисков позволяют им выполнять ежедневное резервное копирование и восстановление. Технология дедупликации позволяет им дольше хранить данные на диске, тем самым давая возможность несколько раз использовать эти профили для восстановления данных.

Краткосрочная защита от потери данных на случай аварий или стихийных бедствий: функции репликации, включаемая в технологию дедупликации, позволяет пользователям, имеющим несколько площадок, заменять съемные носители технологией удаленной репликации на случай аварий или стихийных бедствий. В результате, они получают больше точек восстановления, уменьшают затраты, и автоматизируют опера-ции, которые большинство вынуждено делать вручную.

Долгосрочное хранение данных: съемные носители продолжают оставаться экономически выгодным и без-опасным решением. Они потребляют меньше электрической энергии, занимают меньше места, и требуют меньше охлаждения в любой СХД, что делает их предпочтительным средством долгосрочного хранения данных. Новые технологии с использованием накопителей на магнитных лентах (НМЛ), в том числе шиф-рование и анализ целостности информации, сделали их более безопасными и надежными.

Источник