Главная / Windows / Windows 8 / Дедупликация данных в Windows 8 для улучшения хранения.

Дедупликация данных в Windows 8 для улучшения хранения.

Дедупликация данных нет ничего нового. Сторонние производители в течение многих лет использовали её для таких вещей, как резервное хранение данных и оптимизации глобальной сети. Даже так, там никогда не было родной функции дедупликации в операционной системе Windows. Это скоро изменится с выходом Windows 8 сервер. Так как продукты сторонних производителей, которые существовали так долго, цель сервера Windows 8 создать свою функцию дедупликации, которая позволяет вмещать больше данных на меньшем пространстве. Заметьте, что я не говорил, что функция дедупликации позволяет хранить больше данных в меньшем пространстве. Хотя на сервере Windows 8 будет поддержка на уровне хранения дедупликации, он также поддерживает дедупликацию данных, которые находятся в пути.

Хранение дедупликации

Хотя дедупликация и новая функция для операционной системы Windows 8, продукты Microsoft используют различные методы увеличения емкости хранения в течение достаточно долгого времени. Например, операционная система Windows уже давно поддерживает файловую систему (NTFS) на уровне сжатия. Кроме того, в некоторых предыдущих версиях сервера Exchange стремились максимизировать доступное пространство хранения за счет использования хранилища единственных копий (sis). Хотя такие технологии помогают снизить затраты на хранение, ни сжатие NTFS ни один экземпляр для хранения, столь же эффективны, как эта функция дедупликации в Windows 8 сервере. По оценкам компании Microsoft, сервера Windows 8 с функцией дедупликации должны быть в состоянии сделать оптимизацию в соотношении 2:1 для общего хранения данных. Это соотношение может возрасти до 20:1 в виртуальных серверных средах.

Как работает хранение дедупликации

Причина, почему на сервере Windows 8 эта функция дедупликации будет эффективнее, чем один экземпляр для хранения, потому что она работает на файловом уровне. Иными словами, если две одинаковых копии файла должны существовать на сервере, затем один экземпляр хранится в хранилище только одну копию файла, но использует указатели для достижения иллюзии того, что существует несколько копий файла. Хотя этот метод работает очень хорошо для серверов, содержащих много одинаковых файлов, он ничего не делает для файлов, схожих, но не идентичных.

Чтобы далее проиллюстрировать этот момент, рассмотрим счета, которые я посылаю своим клиентам каждый месяц. Счета-фактуры существуют как Microsoft Word документы, и каждый документ идентичен за исключением даты и номера счета-фактуры. Даже так, хранилище не будет ничего делать, чтобы уменьшить пространство, занимаемое этими документами.

Работает дедупликация на блочном уровне, а не на файловом уровне. Каждый файл делится на небольшие фрагменты. Эти блоки имеют разные размеры, но в диапазоне от 32 КБ до 128 кб. Таким образом, один файл может состоять из множества фрагментов.

Операционная система будет вычислять хэш для каждого блока. Хэш-значения сравниваются как способ определения того, какие блоки идентичны. Когда идентичные куски встречаются, то один экземпляр куска удаляется. Файловая система использует указатели которые ссылаются на какие куски идут и с которого файлы. Вот один из примеров этого процесса заключается в том, что традиционные файловые системы, как правило, воспринимают файлы как потоки данных. Однако, файловая система сервера Windows 8  (с поддержкой дедупликации) будет определять файлы больше как набор кусков.

Кстати, в пре-бета версии сервера Windows 8 использует сжатие файловой системы. По возможности, отдельные блоки данных будут сжаты для экономии места.

Целостность данных

Одна из основных проблем часто выражается в отношении дедупликации к целостности файлов. Хотя вероятность ничтожна, теоретически возможно для двух разнородных блоков данных, что они будут иметь одинаковые хэши. Некоторые продукты сторонних разработчиков решают эту проблему путем пересчета хэша, используя различные и более сложные формулы перед удалением повторяющихся кусков в качестве способа проверки того, что блоки действительно одинаковые.

Хотя Microsoft не указала точный метод, который она будет использовать, чтобы сохранить целостность данных, сервер Windows 8 для разработчиков указывает на то, что Операционная система “использует контрольные суммы, проверку согласованности и удостоверений для обеспечения целостности данных.” Кроме того, в качестве операционной системы используется резервирование для определенных типов блоков данных в качестве средства предотвращения потери данных.

Оптимизации пропускной способности

Как уже упоминалось ранее, сервер Windows 8 позволит дедупликации сохранить как принимаемые данные, так и данные в процессе передачи. Технология дедупликации, аналогична той, о которой ранее шла речь, и будет интегрирована с branchcache, как способ минимизации объема данных, которые должны передаваться по WAN-каналам. Эти ранние билды предполагают, что родная функция дедупликации сможет сэкономить значительный объем дискового пространства без ущерба для производительности файловой системы.

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*