Устраняя избыточные блоки в наборе данных, предприятия могут уменьшить размер резервных копий на 90-99% используя дедупликация данных это.
Дедупликация, возможно, является самым большим достижением в технологии резервного копирования за последние два десятилетия. Он единолично отвечает за перенос с ленты на диск большей части данных резервного копирования, и его популярность только растет с каждым днем. Понимание различных видов дедупликации, также известной как дедупликация, важно для любого, кто изучает технологию резервного копирования.
Что такое дедупликация данных?
Дедупликация — это идентификация и устранение повторяющихся блоков в наборе данных. Это похоже на сжатие, которое идентифицирует только избыточные блоки в одном файле. Дедупликация может находить избыточные блоки данных между файлами из разных каталогов, разными типами данных и даже разными серверами в разных местах.
Например, система дедупликации может идентифицировать уникальные блоки в электронной таблице и создавать их резервные копии. Если вы обновите его и создадите резервную копию снова, он сможет идентифицировать сегменты, которые изменились, и создать только их резервную копию. Затем, если вы отправите его по электронной почте коллеге, он сможет идентифицировать те же блоки в папке «Отправленные», их папке «Входящие» и даже на жестком диске их ноутбука, если они сохранят его локально. Не нужно будет создавать резервные копии этих дополнительных копий тех же сегментов; это только определит их местоположение.
Как работает дедупликация?
Обычный способ работы дедупликации состоит в том, что данные, подлежащие дедупликации, разбиваются на то, что большинство называет фрагментами . Чанк — это один или несколько смежных блоков данных. Где и как фрагменты разделяются, является предметом многих патентов, но достаточно сказать, что каждый продукт создает ряд фрагментов, которые затем будут сравниваться со всеми предыдущими фрагментами, видимыми данной системой дедупликации.
Принцип сравнения заключается в том, что каждый фрагмент обрабатывается детерминированным криптографическим алгоритмом хэширования, таким как SHA-1, SHA-2 или SHA-256, который создает так называемый хэш . Например, если ввести «Быстрая коричневая лиса перепрыгивает через ленивую собаку» в хэш-калькулятор SHA-1, вы получите следующее хэш-значение: 9ADBA48EE9BE2E6CAE695D64A760D125C5D65690. Вы можете попробовать это сами здесь: https://passwordsgenerator.net/sha1-hash-generator/
Если хэши двух чанков совпадают, они считаются идентичными, потому что даже самое маленькое изменение приводит к изменению хэша чанка. Хэш SHA-1 составляет 160 бит. Если вы создаете 160-битный хэш для фрагмента размером 8 МБ, вы экономите почти 8 МБ каждый раз, когда создаете резервную копию того же фрагмента. Вот почему дедупликация так экономит место.
Целевая дедупликация
Целевая дедупликация — наиболее распространенный тип дедупликации, продаваемый сегодня на рынке. Идея состоит в том, что вы покупаете целевое дисковое устройство для дедупликации и отправляете свои резервные копии на его сетевой ресурс или на виртуальные ленточные накопители, если продукт представляет собой виртуальную ленточную библиотеку (VTL). Все шаги разделения и сравнения выполняются на цели; ничего из этого не делается в источнике. Это позволяет использовать преимущества дедупликации без изменения программного обеспечения для резервного копирования.
Этот поэтапный подход позволил многим компаниям перейти с ленты на диск в качестве основного объекта резервного копирования. Большинство клиентов копировали резервные копии на ленту для удаленных целей. Некоторые опытные клиенты с большими бюджетами использовали возможности репликации этих целевых устройств дедупликации для репликации своих резервных копий за пределами площадки. Хорошая система дедупликации уменьшит размер обычного файла на 99 % и размер инкрементной резервной копии на 90 %, что сделает возможной репликацию всех резервных копий. (Конечно, в разумных пределах. Не у всех есть достаточная пропускная способность для обработки такого уровня репликации.)
Исходная дедупликация
Дедупликация источника происходит на клиенте резервного копирования — в источнике — отсюда и название « источник» или дедупликация на стороне клиента . Процесс фрагментации происходит на клиенте, а затем он передает хеш-значение серверу резервного копирования для процесса поиска. Если сервер резервного копирования сообщает, что данный фрагмент уникален, этот фрагмент будет передан на сервер резервного копирования и записан на диск. Если сервер резервного копирования сообщает, что данный фрагмент уже был просмотрен ранее, его даже не нужно передавать. Это экономит пропускную способность и место для хранения.
Одним из критических замечаний по поводу дедупликации источника является то, что процесс создания хэша является ресурсоемкой операцией, требующей большой мощности ЦП. Хотя это и правда, обычно это компенсируется значительным сокращением ресурсов ЦП, необходимых для передачи резервной копии, поскольку более 90% всех фрагментов будут дублироваться в любой данной резервной копии.
Экономия полосы пропускания также позволяет выполнять дедупликацию источника там, где не может выполняться дедупликация целевого объекта. Например, это позволяет компаниям создавать резервные копии своих ноутбуков или мобильных устройств, все из которых используют Интернет в качестве пропускной способности. Для резервного копирования таких устройств с помощью целевой системы дедупликации потребуется устройство, локальное для каждого резервируемого устройства. Вот почему дедупликация источника является предпочтительным методом удаленного резервного копирования.
В полевых условиях не так много установок дедупликации источника, как дедупликации цели, по нескольким причинам. Одна из причин заключается в том, что целевые продукты дедупликации существуют дольше, чем большинство исходных продуктов дедупликации. Но, возможно, главная причина заключается в том, что целевая дедупликация может быть реализована постепенно (т. е. с использованием того же программного обеспечения для резервного копирования и просто изменением цели), в то время как исходная дедупликация обычно требует полной замены вашей системы резервного копирования. Наконец, не все реализации дедупликации исходного кода созданы одинаковыми, и у некоторых на этом пути был тернистый путь.
Плюсы и минусы дедупликации
Основное преимущество целевой дедупликации заключается в том, что вы можете использовать ее практически с любым программным обеспечением для резервного копирования, если оно поддерживается устройством. Недостатком является то, что вам нужно устройство везде, где вы собираетесь создавать резервные копии, даже если это просто виртуальное устройство. Основное преимущество дедупликации источника противоположно; вы можете сделать резервную копию буквально из любого места. Такая гибкость может привести к ситуациям, когда резервное копирование соответствует вашим потребностям, а скорость восстановления — нет, поэтому обязательно примите это во внимание.