Чем отличается формат PDF от PDF/A и какой формат лучше использовать для сохранения отсканированных образов документов?
PDF (аббр. «portable document format») — это универсальный формат электронных документов, которому, кстати, скоро исполнится 20 лет. Он создан по инициативе компании Adobe, и исходное его предназначение — электронное представление печатных материалов. Отсюда следует задача данного формата – сохранить информацию о цветовой схеме и расположении элементов исходного материала и обеспечить ее идентичный вывод на разных мониторах и принтерах.
За время своего существования формат электронных документов, PDF значительно прибавил в возможностях.
Читайте также: Защита целостности электронного документа
В первой же редакции формата появилась возможность вставлять в текст документа гиперссылки, шифровать документ паролем и тем самым защищать его от модификации. В версии PDF 1.4 появилась возможность поверх изображения наносить текстовый слой, в том числе невидимый, давая пользователю возможность, видя «картинку», тем не менее, копировать с нее текст. Кроме того, в этой же версии появилась возможность вставлять метаданные в виде пар «ключ-значение», каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или со всем документом целиком. Это важные нововведения с точки зрения архивного хранения, и они поддерживаются форматом по сей день.
PDF/A — это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Данный формат электронных документов, является стандартом ISO и предназначен для долгосрочного хранения электронных документов. Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. Такой информацией, в частности, являются шрифты — те из них, которые использованы в документе, включены в него.
Документооборот в электронном бизнесе
К слову, это влияет на размер документа: документ в формате PDF/A не меньше, а даже иногда больше по размеру, чем документ с аналогичным содержимым, сохраненный в формате PDF.
Считается, что документ, хранимый в формате PDF/A, ввиду полного отсутствия связи с такими изменчивыми компонентами, как гиперссылки и мультимедийный контент, можно будет открыть в любой операционной системе через длительное время с помощью приложения, поддерживающего соответствующий формат. Поскольку PDF/A обеспечен статусом международного стандарта, его поддержка со стороны разработчиков ПО в долгосрочной перспективе оправдана, а использование целесообразно по сравнению с другими доступными форматами хранения, которые могут измениться в любой момент времени.
Читайте также: Электронные документы: грядет ужесточение требований к их сохранности
Вспомним недавнюю историю с отказом от поддержки документов Word старого образца до версии 2003 года в Google Drive — старт умерщвлению формата Word 97–2003 дан.
При этом целостность и неизменность неподписанного документа в формате PDF/A не может быть гарантирована и не заявляется как особенность формата. Другими словами, несмотря на то что данный формат электронных документов позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа возможно и не является отклонением от нормы, если оно не зашифровано. Однако есть еще один нюанс: для каждого конкретного документа, формат которого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так.
Необходима верификация на соответствие требованиям формата для каждого конкретного документа, и если на этапе размещения в архиве или после очередного изменения она не будет проведена, можно считать миссию обеспечения долгосрочного хранения потенциально проваленной (с некоторыми оговорками, но все же).
Исходя из описанных выше различий между форматами PDF и его потомком PDF/A, вполне можно предположить, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, тогда как PDF/A, несмотря на потенциально большой размер единичного документа (в него внедрены все использованные шрифты, а это для краткосрочного использования избыточный и ощутимый балласт), имея статус международного стандарта, гарантирует, что даже через достаточно продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая приложением-просмотрщиком. Этот факт укладывается в концепцию архива электронных документов и должен учитываться при сохранении каждого документа в нем.
Как максимально быстро перевести все бумажные документы в электронный вид?
Теперь необходимо определиться с тем, что такое отсканированный образ документа. В подавляющем большинстве случаев это растровое изображение. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр — изображение, текст, который непонятен компьютеру, а понятен только человеку. В исключительных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный либо вручную человеком, либо с помощью системы распознавания текста. Можно предположить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это счет-фактура, метаданные могут содержать информацию о поставщике, дате выставления, сумме и т.д.).
Очевидно, что отсканированный образ документа допускает, но не подразумевает долгосрочного хранения. Но все-таки в большинстве случаев образ должен храниться не меньше бумажного оригинала, а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда держится выше нулевой отметки. Кроме того, образ снят с бумажного документа, а это значит, что его изменение не подразумевается, хотя и возможно.
Читайте также: Организация хранения электронных документов
На основании перечисленных особенностей, которыми обладает отсканированный образ документа, можно смело заявлять, что одинаково пригодны оба формата, поскольку для каждого конкретного документа не будут использованы такие возможности формата, которые не поддерживаются стандартом PDF/A. Последний допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модификации, а необходимостью внедрения шрифтов в каждый документ можно пренебречь, поскольку речь идет об образах, где текста нет, соответственно, нет и шрифтов, так что добавочный вес в этом отношении будет мал.
Мухаметшин Ришат, ИТ-аналитик DIRECTUM
![]() |
"Современные технологии документооборота и делопроизводства"- журнал для руководителей служб ДОУ, начальников делопроизводственных подразделений, заведующих канцеляриями, общими отделами и архивами о практике управления документами в электронном и бумажном видах. |