Мика Корто
Долгосрочное архивирование было актуальным еще в Древнем Египте. Причем примененная стратегия оказалась настолько эффективной, что выдолбленную в камне информацию люди в состоянии разобрать даже две тысячи лет спустя. В наше время общество столкнулось с тем, что сохраненные сведения вряд ли удастся использовать уже через несколько лет. Как бы то ни было, ширящаяся цифровизация ведет к сохранению все большего объема данных, и выбор стратегии архивирования сегодня важен как никогда.
Компании должны быть заинтересованы в применении успешных стратегий архивирования, если они хотят обеспечить доступность своих документов и возможность прочитать их через 10, 15 и даже 50 лет.
По примеру предприятий и государственных учреждений, которые хранят и архивируют важные для работы материалы, библиотеки и музеи тоже начали создавать электронные копии своих культурных богатств с целью их долговременного хранения и защиты от катастроф, подобных пожару в Веймарской библиотеке герцогини Анны-Амалии, случившемуся в 2004 г. Постепенно появляется осознание «летучести» цифровых данных и размера опасности стать «обществом без прошлого», поэтому в долгосрочном архивировании особенно заинтересованы библиотеки. В Библиотеке герцогини Анны-Амалии сканируют свои фонды и предлагают их в различной форме для использования в частных и научных целях, а также в качестве оригиналов для переизданий. Цель проекта заключается в том, чтобы сделать крупнейшие произведения доступными пользователям Internet и одновременно оградить ценные оригиналы от чрезмерного использования (см. Рисунок 1).
Долгосрочное архивирование цифрового контента само по себе является наукой. Информацию, хранимую в электронной форме, нельзя отобразить без специального устройства. В отличие от отпечатанных материалов, которые подвержены лишь разрушению с течением времени, в случае цифровых документов необходимо учитывать и развитие технологий.
Появляющиеся приложения или очередные версии программ, а также новации в области носителей информации требуют постоянного внимания. Следовательно, необходима выработка стратегии миграции или хотя бы эмуляции, а также использование открытых форматов. Разработчики приложений и инфраструктуры хранения должны предпринимать совместные усилия по созданию унифицированных технических средств, интерфейсов, методов и способов предоставления данных с целью удовлетворения потребности в долгосрочном архивировании цифрового контента.
Долговременное хранение цифрового контента — крайне динамичный процесс, который начинается с правильного учета битов и байтов и включает в себя их структуризацию, хранение и распределение — вплоть до архивирования. Поэтому без специализированных систем управления документами, т. е. без систем управления корпоративным контентом (Enterprise Content Management, ЕСМ), не обойтись.
В соответствии с требованиями сегодняшнего дня необходимо консолидировать разнообразные носители информации, имеющиеся на предприятиях, и масштабировать их вместе с развитием перспективных технологий. Открытые системы и стандартные форматы — лишь одно из условий для обеспечения возможности чтения важных сведений на протяжении длительного периода времени. При этом следует, однако, обеспечить, чтобы данные можно было найти и в комплексных средах. Кроме того, следует управлять версиями программ и разными поколениями операционных систем.
Но если нахождение подходящего программного решения крайне редко вызывает затруднения, то при выборе аппаратного обеспечения, в особенности для библиотек, приходится сталкиваться со значительными трудностями. Ограниченный срок службы современных носителей вынуждает лиц, принимающих решения, прибегать к сложным методам, результаты применения которых они и сами ставят под сомнение. Доктор Михаэль Кнохе, директор Библиотеки герцогини Анны-Амалии, рассказывает о том, как организовано архивирование в его учреждении: «Мы переснимаем оцифрованные данные вместе с метаданными на микропленку, обладающую длительным сроком хранения, так что в будущем они смогут быть прочитаны и восстановлены вне зависимости от вида аппаратного обеспечения». В соответствии с Законом о гражданской обороне эти микрофильмы хранятся в Центральном архиве ФРГ в Шварцвальде.
Однако такой метод применим лишь к статичным документам, например книгам. В случае интерактивных приложений, к примеру страниц Web с подключенными базами данных, он помочь не в силах. Поэтому производителям следует разработать универсальные платформы хранилищ данных, которые бы, с одной стороны, обеспечили целостность информации на долгие годы, а с другой — простую миграцию данных на новые технологии хранения.
Не меньшее значение при архивировании информации имеет вопрос формата, в котором должны храниться оцифрованные данные. В этом случае решающую роль играет независимость от производителя. Лишь таким образом удастся избежать ситуации, когда в какой-то момент документ уже невозможно прочитать из-за того, что производитель перестал поддерживать какой-либо формат.
Процесс архивирования начинается с создания неструктурированных документов самим автором либо путем сканирования текстов, обработки изображений или бланков (см. Рисунок 2). Конечно, имеет смысл сохранять и архивировать все документы в стандартных форматах — XML, TIFF (компрессия CCITT Group 4), Adobe PDF или JPEG. Одновременно следует проверить на многообразие форматов ранее созданные информационные массивы. Если документы и без того должны быть подвергнуты архивации, то нужно как можно раньше произвести своевременное конвертирование в сертифицированный ISO стандарт архивирования PDF/A, ведущий происхождение от широко известного формата PDF компании Adobe Systems.
Неважно, на предприятии или в библиотечном архиве, весь контент, который ранее был переведен в цифровую форму, необходимо правильно упорядочить, чтобы обеспечить простой поиск информации. Обработанные документы надо классифицировать и распределить по категориям на основе метаданных. Такие сведения, как тип документа, автор, права доступа или длительность хранения, помогают структурировать поток данных и позволяют найти требуемые материалы с помощью соответствующих приложений.
На крупных предприятиях, где ежедневно обрабатываются большие объемы информации, рассматриваемый этап работы может стать затруднительным. Огромную помощь в подобной ситуации способны оказать программные модули, автоматизирующие классификацию данных. В дальнейшем результаты классификации используются при распределении по категориям или рассматриваются как ключевые слова, входящие в метаданные контента.
Вместе с тем, многие пользователи испытывают затруднения с формированием непротиворечивых метаданных при генерации контента. Это в значительной степени ограничивает возможности дальнейшего поиска и программной обработки информации. При поступлении данных соответствующая программа автоматически предлагает метаданные, которые пользователь может принять или отклонить.
Количество носителей должно быть как можно меньшим, чтобы упростить их администрирование и сделать системы пригодными для будущих потребностей. Магнитные ленты все еще пользуются популярностью, а с введением технологии адресации хранения по содержимому (Content Addressed Storage, CAS) на рынок архивирования стали выходить и производители жестких дисков.
Дисковые хранилища на базе технологии CAS позволяют архивировать информацию, предназначенную для длительного хранения и не подлежащую изменениям. В сочетании с системами управления контентом такой способ хранения обеспечивает быстрый интерактивный доступ к архивным данным. Однако по сравнению с классическими ленточными массивами архивы CAS потребляют гораздо больше электроэнергии и из-за своего программного интеллекта требуют более тщательного обслуживания. Разумеется, благодаря таким преимуществам, как защита архивных данных при помощи массивов RAID, автоматическая миграция на новые поколения аппаратного обеспечения, программируемое удаление информации, интегрированное управление правами, а также более высокая производительность, архивы CAS быстро вытесняют ленточные библиотеки. К тому же пользователям, которые располагают незначительным свободным пространством или вообще вынуждены его арендовать, при размещении дисковых архивов придется потратиться самое большее на два 19-дюймовых корпуса, которые устанавливаются в вычислительном центре.
Кто собирается долго пользоваться сохраненными документами, должен поддерживать свою систему управления информацией на современном уровне. В противном случае потеря цифровой памяти неизбежна: поиск данных будет слишком продолжительным, или их вообще не удастся отыскать по причине недостаточной индексации.
Упомянутый в самом начале египетский метод долгосрочного архивирования, к сожалению, не применим для хранения энергозависимой цифровой информации. Поэтому предприятиям следует обращать особое внимание на масштабируемость форматов, приложений и систем, поскольку с регулярным перевооружением и постоянной модернизацией имеющихся носителей и инфраструктуры ни один отдел ИТ не справится собственными силами.
Список литературы
Журнал сетевых решений, февраль 2007