Home : Aktuelles : Magazin : Reine Formsache
Reine Formsache
So einfach wäre es. Zumindest in der Was-Frage. Spätestens bei der Wie-Frage wird es komplizierter. Die Selbstverständlichkeit, mit der wir im täglichen Leben mit Papier umgehen, ist bei der Umsetzung von transformierten Informationen nicht zu erkennen. Es fehlen in der digitalisierten Welt letztlich die klaren physischen Grenzen eines Blatts Papier, das uns die Handlungen vorgibt. Es gibt viele, manchmal zu viele Möglichkeiten, wie Informationen von traditionellen Medien digitalisiert und weiter verarbeitet werden können. Grund genug für uns, etwas Licht in das Dunkel zu bringen und Ihnen die Handlungsoptionen aufzuzeigen. Wahrlich ein Thema mit Format.
Es fängt schon bei der Terminologie an. Wie oft verwenden wir Begriffe wie Akte, Dokument, Beleg und Seite, ohne dass wir genau reflektieren, was wir damit bezeichnen. Für den täglichen Umgang mit den traditionellen, physischen Medien genügt diese Unschärfe, da im Kontext meist ersichtlich wird, was gemeint ist. Beim Übergang in die digitale Welt können diese Grenzen jedoch nicht ignoriert werden. Aber hier ist einfach Abhilfe zu schaffen, indem die tatsächlichen physischen und logischen Grenzen des Mediums Papier nach klaren Regeln beschrieben werden:
Eine Akte hat 1 bis n Dokumente
Ein Dokument hat 1 bis n Blätter
Ein Blatt hat zwei Seiten: Vor- und Rückseite
Die Verwendung weiterer Untergruppen lässt sich einfach in diese Struktur einbetten.
Aber wie kann man diese einfach erkennbare Struktur auf gescannte Dokumente abbilden? Was bestimmt die Form beziehungsweise das Dokumentformat oder die Funktion, die wir vom digitalisierten Papier erwarten? Ist alles möglich oder nur Weniges? Was ist nachhaltig, was ist praktisch? Was ist das Richtige?
Um es vorweg zu nehmen, es ist einiges möglich aber nicht alles. Es gibt nicht das eine Format, das alle Vorteile vereint. Es gilt abzuwägen und den richtigen Kompromiss zu finden. Und wie immer, wenn es um elektronische Informationsverarbeitung geht, ist die genaue Planung die halbe Miete. Es lohnt sich darum, die Abhängigkeiten von Form und Funktion genauer zu beleuchten.
Formenvielfalt
Was aus dem Scanner kommt, beschränkt sich auf ein paar wenige grundlegende Dokumentformate. Am weitesten verbreitet sind im Bereich des Scannens und der Archivierung folgende Formate:
TIFF (Tagged Image File Format)
JPEG (Joint Photographic Experts Group)
PDF (Portable Document Format)
Neben diesen traditionellen Formaten sind auch modernere Formate mit einem fortschriftlichen Eigenschaftenkatalog verfügbar. Die in sich liegenden Vorteile der Formate überzeugen, aber sie sind nur wenig im Einsatz. Dazu gehören Formate wie:
PDF/A und PDF/A-2
JPEG2000
JBIG2
Alle aufgeführten Dateiformate haben spezifische Vor- und Nachteile, die es zu beachten gilt. Wir geben Ihnen hier einen komprimierten Überblick der wichtigsten Formate, was deren Vor- und Nachteile sind und was beim Einsatz dieser Dateiformate weiter zu beachten ist.

TIFF - Tagged Image File Format
Das gebräuchlichste Format für gescannte Bilder ist das TIFF-Format, das ursprünglich von der Firma Aldus (1994 von Adobe übernommen) entwickelt wurde. Jedoch ist TIFF nicht gleich TIFF. Und das macht dieses Dateiformat zu einem der komplexesten verfügbaren Formate. Im Bereich der gescannten Dokumente wird von allen TIFF-Definitionen zur Hauptsache das Format G4 eingesetzt, das seinen Ursprung aus dem Format G3 in der Definition der Bilddaten für Faxgeräte hatte. Die Bilddaten werden bei TIFF G3 verlustfrei mittels eines modifizierten Huffman Algorithmus kodiert. Beim TIFF G3 spricht man von einer eindimensionalen Komprimierung. Mit TIFF G4, das für die Übermittlung
von Faxbildern zwischen ISDN-Geräten entwickelt wurde, modifizierte man den Algorithmus noch einmal, so dass hier von einer zweidimensionalen Komprimierung gesprochen wird. Die erreichten Komprimierungsdaten von G3 und G4 sind abhängig von den Bilddaten, in der Regel liefert das G4-Verfahren jedoch eine höhere Kompression, so dass dieses Verfahren auch für Scannanwendungen am häufigsten eingesetzt wird.
TIFF kann aber erheblich mehr als schwarzweise Bilder komprimieren. Es ist ein Sammelbehälter aller möglichen Formate und hat vor allem wegen der Unterstützung des CMYK-Farbraums in der grafischen Industrie weite Verbreitung. Das TIFF-Format unterscheidet Grundformate (Baseline TIFF), das von allen TIFF-fähigen Anwendungen unterstützt werden sollte und sogenannte Extensions, die nur von spezifischen Anwendungen unterstützt werden. TIFF G3 und G4 gehören zu den Extensions, so dass deren richtige Erzeugung und Darstellung nicht ohne weiteres von jeder TIFF-fähigen Anwendung erwartet werden kann.
Eine besondere Eigenschaft von TIFF G4 ist, dass gescannte Bilder als einzelne Seiten in einer TIFF-Datei gespeichert, aber auch als mehrere Seiten in einer Datei abgelegt werden können (Multipage TIFF). Für das Format TIFF G4 spricht die weite Verbreitung im Bereich der Archivierung gescannter Seiten, die hohe Datenkomprimierung und die Möglichkeit, auch mehrseitige Dokumente in einer Datei abzuspeichern. Wenn es um die Umsetzung erweiterter Funktionen geht, wie zum Beispiel Farbdarstellung, Volltexthinterlegung, eingebettete elektronische Signaturen und so weiter, muss TIFF G4 passen.
TIFF G4 gilt als ein Dokumentformat, das verlustfrei komprimiert. Darum ist es für Anwendungen der Texterkennung (OCR) das ideale Ausgangsformat. Unsere reale Welt ist jedoch nicht schwarzweiss sondern in Farbe. Verlustfrei bedeutet darum, dass die Erfassungsgeräte bei jedem Bildpunkt beziehungsweise Pixel entscheiden müssen, ob dieser als schwarzer oder weisser Pixel gespeichert werden soll. So einfach diese Frage vordergründig erscheint, so schwierig ist es diese Entscheidung in der Praxis zu fällen. Viele gescannte Seiten sind nicht per se schwarzweiss sondern haben farbige Hintergründe, Text in Farbe oder Graustufen und so weiter. Den richtigen Schwellwert (Threshold) für jedes Pixel zu finden, ob dieser nun schwarz oder weiss ist, ist darum eine Wissenschaft für sich. Firmen wie Kofax haben darum Techniken wie Virtual Rescan (VRS) entwickelt, die aufgrund von Grauwertanalysen versuchen, die richtige Mischung zu finden. Kodak wiederum verbaut direkt in ihren Scannern eine Technik namens iThresholding, die mit Hilfe komplexer Algorithmen versucht, die unterschiedlichen Kontrastübergänge in den verschiedenen Bildbereichen für die Berechnung des schwarzweissen Bildes zu adaptieren.
Wie auch immer, die Umrechnung von farbigen Informationen in schwarzweisse Bilder bedeutet den Verlust der Farbe, die in sich auch schon Information sein kann (zum Beispiel rot geschriebene Wörter und Buchstaben). Bilder vollständig verlustfrei in Farbe zu speichern, scheitert an den mehrfach so grossen Bilddateien, die entstehen, da jeder Pixel zusätzlich mit Farbinformationen versehen werden muss. Die zu speichernde Datenmenge vervielfacht sich somit je nach gewünschter Farbtiefe pro Farbkanal (8 Bit, 12 Bit und so weiter). Die Farbkanäle sind die Grundfarben des Farbraums, der zur Speicherung eines digitalen Farbbildes verwendet wird, oder die Wellenlängen, in denen das Bild aufgenommen wurde. Je nach gewähltem Farbmodus erhöht sich so die Datenmenge drastisch. Im CMYK-Modus (Cyan, Magenta, Yellow und Schwarz) werden vier Farbkanäle gespeichert, im RGB-Modus (Rot, Grün, Blau) jedoch nur drei. Farbbilder wirtschaftlich zu speichern (Dateigrösse) bedeutet darum den Informationsgehalt zu reduzieren, also von einem verlustfreien zu einem verlustbehafteten Verfahren zu wechseln. Eine bereits 1994 verabschiedete Norm für die Farbbildkomprimierung ist das Format JPEG. Das Mass des Verlustes richtet sich dabei schwergewichtig nach der optischen Wahrnehmung durch den Menschen oder der vorgesehenen Anwendung. Jegliche Verlustbehaftung für Anwendungen der optischen Zeichenerkennung führt jedoch unweigerlich zu schlechteren Leseergebnissen, was beim alleinigen Einsatz von JPEG in der Posteingangsverarbeitung zu beachten ist.

JPEG - Joint Photographic Experts Group
JPEG ist die Bezeichnung für die Norm ISO/IEC 10918-1 und beschreibt verschiedene Methoden der Bildkompression. Ursprünglich entwickelt wurde die Norm von der Joint Photographic Experts Group, einem Komitee der ISO, dass die JPEG- und JPEG2000-Standards entwickelt hat. Als Untergruppe dieses Komitees arbeitet die Joint Bi-Level Image Experts Group (JBIG), die die Normen für schwarzweisse Bilder erstellt (vgl. weiter unten). Die ISO/IEC Joint Technical Committee 1, Subcommittee 29, Working Group 1, wie das JPEG-Komitee genau heisst, hat bis heute insgesamt drei wesentliche Standards veröffentlicht:
JPEG (ISO/IEC 10918-1) - Digital Compression and Coding of Continuous-Tone still Images Requirements and Guidelines
JPEG2000 (ISO/IEC 15444-1) - JPEG2000 Image Coding System: Core Coding System und ISO/IEC 15444-2 - JPEG2000 Image Coding System: Extensions
JBIG (ISO/IEC 11544-1) - Coded Representation of Picture and Audio Information: Progressive Bi-Level Image Compression und JBIG2 (ISO/IEC 14492-1) - Information Technology: Lossy/lossless Coding of Bi-Level Images
Die ISO-Norm JPEG beschreibt verschiedene Komprimierungs- und Kodierungsmethoden, darunter verlustbehaftete und verlustfreie Komprimierung, verschiedene Farbtiefen sowie sequenzielle oder progressive Modi (normaler Bildaufbau oder allmähliche Verfeinerung). Im praktischen Einsatz ist die JPEG-Norm für die verlustbehaftete Komprimierung bei 8-Bit-Farbkanälen anzutreffen. Die JPEG-Norm beschreibt dabei lediglich die Bildkompressionsverfahren, legt aber nicht fest, wie die Daten gespeichert werden. Wenn wir JPEG-Dateien antreffen, sind diese in der Regel im Grafikformat JPEG File Interchange Format (JFIF) gespeichert.
JPEG unterscheidet sequentielle und progressive Komprimierungsmodi. Bei sequentiellem Bildaufbau wird die Datei als Ganzes aufgebaut, wohingegen im progressiven Modus das Bild allmählich verfeinert dargestellt wird, was vor allem dem Bildaufbau in Web-Browsern zugutekommt. JPEG ermöglicht grundsätzlich im sequentiellen und progressiven Modus verschiedene Farbtiefen (8-Bit und 12-Bit) sowie verschiedene Kodierungsverfahren der Komprimierung (Huffman und Arithmetisch). Daneben kann ein Bild verlustfrei und hierarchisch aufgebaut sein. Die weithin gebräuchlichsten Arten JPEG-Dateien zu erzeugen, sind aber sequentielle oder progressive Modi mit 8-Bit Farbtiefe mittels Huffman-Kodierung. Dies ist durch das Dateiformat JFIF vorgegeben. JFIF schränkt das verwendete Farbmodell auf YCbCr im RGB-Farbraum ein und lässt nur eine Entropiekodierung nach Huffman zu. Zusätzlich ist die Bildgrösse einzelner Seiten bei JFIF auf 65 535×65 535 Pixel beschränkt.
Die eigentliche Kompression der Farbbilder in JPEG erfolgt in mehreren verlustbehafteten Verarbeitungsschritten:
Farbraumumrechnung vom RGB-Farbraum ins YCbCr-Farbmodell
Tiefpassfilterung und Unterabtastung der Farbabweichungssignale Cb und Cr
Einteilung in 8×8-Blöcke und diskrete Kosinustransformation dieser Blöcke
Die eigentliche Datenreduktion wird anschliessend durch die Quantisierung erreicht
Zusätzlich zum verlustbehafteten Modus besteht noch die verbesserte, verlustfreie Komprimierungsmethode JPEG-LS (LS=lossless). Diese ist jedoch in einer anderen Norm festgelegt. JPEG-LS wird im Bereich der medizinischen Bildverarbeitung eingesetzt und von einigen Digitalkameras zur Ausgabe von so genannten raw images und digitalen Negativen (DNG) eingesetzt. Das Format wurde sonst aber nicht breiter adaptiert. Die JPEG-Norm dient auch als Basis für die Speicherung von bewegten Bildern (MPEG-1 und MPEG-2).
Für den Profi-Bereich, zum Beispiel in der Fotografie, ist JPEG als Dateiformat wegen der verlustbehafteten Datenreduktion eher ungeeignet. Aktuelle Scanner erfassen intern 12 und mehr Bit pro Farbpixel, erlauben aber bei Verwendung des gebräuchlichen JPEG-Formates nur die Speicherung von 8 Bit pro Farbpixel.
Der Einsatz von JPEG ist darum ambivalent. Auf der einen Seite ermöglich das JPEG-Verfahren ohne grossen Aufwand farbige Dateien aus dem Scanner zu erzeugen. Diese Dateien sind aber entweder bezüglich der Dateigrösse sehr gross, wenn aus Qualitätsgründen nur beschränkt komprimiert wird. Oder sie sind von eher schlechter Qualität, kleiner, aber im Vergleich zu bitonalen TIFF G4-Dateien immer noch recht gross.
JPEG wurde von der ISO 1992 als Norm vorgestellt. Um die Nachteile und Einschränkungen von JPEG aufzuheben, hat das gleiche ISO-Komitee die Norm JPEG2000 entwickelt.

JPEG2000
JPEG2000 wurde als Norm erstmals im Jahre 2004 publiziert. Die Norm definiert ein Set von verlustfreien und verlustbehafteten Kompressionsmethoden für schwarzweisse, farbige und Graustufenbilder. Gegenüber der alten Norm JPEG hat das Format JPEG2000 einige Vorteile:
Bessere Komprimierungsrate bei gegebener Qualität
Entfall der Beschränkung auf 8 oder 12 Bits pro Farbkanal
Aufhebung der Bildgrössenbeschränkung von 64k x 64k
Möglichkeit, bestimmte Bildregionen in höherer Qualität zu komprimieren und zu dekomprimieren
Bis zu 256 Farbkanäle und damit die Möglichkeit verschiedener Farbprofile wie RGB und CMYK in einem Bild, sowie weitere ICC-Profile (International Color Consortium) abzubilden
Diverse Progressionsmodi, Bilder können nach diversen Qualitätsfunktionen optimiert werden
Raum für beliebige Metadaten in der Extensible Markup Language (XML-Format)
Vorgeschriebener inkrementeller, dass heisst schrittweiser, Bildaufbau (in JPEG optional), wodurch die Darstellung in geringerer Qualität durch einfaches Verwenden nur eines Teils der Originaldatei ohne Neuberechnungen möglich ist
JPEG2000 unterstützt Alphakanäle zur Darstellung von Transparenzen, der Alphakanal ist ein Kanal, der zusätzlich zu den Farbinformationen die Durchsichtigkeit der einzelnen Pixel speichert
Gegenüber der bestehenden JPEG-Norm hat JPEG2000 den Nachteil, dass ein erheblich höherer Rechenaufwand nötig ist, was beim Einsatz in Erfassungsgeräten wie Scannern und digitalen Kameras zu Geschwindigkeitsproblemen führen kann. JPEG2000 hat sich als Bildformat trotz seiner Vorteile nicht breit durchgesetzt. Erfolg hatte das Format im Medizinbereich (der DICOM-Standard für medizinische Daten kann JPEG2000-Bilder aufnehmen). Auch für die Verteilung und Präsentation von digitalem Filmmaterial wurde es als Basis von der Digital Cinema Initiatives (DCI) adaptiert. So genannte 2K und 4K Filme basieren auf Motion JPEG2000 (MJPEG), bei dem jedes einzelne Bild als JPEG2000-Bild komprimiert wird.
Der JPEG2000-Standard gliedert sich in 13 Unterstandards. Interessant für den Bereich der Dokumentverarbeitung sind die beiden folgenden:
15444-2: Erweiterte Codierungsoptionen, etwa zusätzliche Farbräume, ein erweitertes Dateiformat (.jpx), das animierte JPEG2000 oder die Überlagerung von mehreren Codeströmen zu einem gemeinsamen Bild erlaubt
15444-6: Ein Dateiformat, das mehrere Codierungsverfahren miteinander kombiniert, um eingescannte Dokumente mit Bild- und Textanteilen zu codieren (.jpm)
Insbesondere das Letztere, JPEG2000 Part 6, aus dem Jahre 2003 ist ein äusserst interessantes Format, über das wir schon mehrmals berichtet haben. Es ist eine sehr breite Norm, die es ermöglicht, alles Mögliche im Bereich der Dokumentverarbeitung in einem einheitlichen Dateiformat zu hinterlegen. Interact Consulting setzt JPEG2000 Part 6 darum in vielen Installation ein, um eine durchgängige Dokumentverarbeitung in Farbe und mit sehr kleine Dateigrössen (ähnlich TIFF G4) umzusetzen. Mit JPEG2000 Part 6 lassen sich ein- und mehrseitige Dokumente in einer Datei speichern. Diese können durch geeignete Algorithmen in verschiedene Ebenen aufgeteilt werden. Ein farbig gescanntes Dokument kann so in den Hintergrundfarbbereich (komprimiert nach JPEG2000), in einen so genannten Strukturbereich (Texte, Logos und so weiter schwarzweiss komprimiert nach TIFF G4 oder JBIG2) und einen Bereich mit den unterschiedlichen Farbinformationen des Strukturbereichs (komprimiert nach JPEG2000) aufgeteilt werden. In der Anzeige können, dank der Möglichkeit transparente Bereiche zu definieren, diese Ebenen einzeln oder überlagert dargestellt werden. So erhält man die Kombination eines schwarzweissen Bildes mit einem vollständig farbigen in nur einer Datei. Wird für die Strukturebene das Komprimierungsverfahren nach JBIG2 angewendet, ist es mit diesem Dateiformat möglich, Dokumente vollständig in Farbe zu scannen und zu speichern und dabei Dateigrössen zu erlangen, die vergleichbar sind mit traditionellen TIFF G4-Dateien. Zeit also, sich auch das Dokumentformat JBIG2 für die Komprimierung schwarzweisser Bilder noch kurz anzuschauen.
JBIG - Joint Bi-Level Image Experts Group
Wie bei der Beschreibung des Datenformates JPEG aufgeführt, arbeitete eine Untergruppe dieses Komitees, die Joint Bi-Level Image Experts Group, an Standards für bi-tonale oder eben schwarzweisse Formate.
JBIG hat den ISO-Standard 11544 für die verlustfreie Komprimierung von schwarzweissen Bildern entwickelt (JBIG1) und schon 1993 veröffentlicht. Der Standard kann daneben auch für die Komprimierung von Graustufen- und farbigen Bilder eingesetzt werden, sofern die Farbtiefe pro Pixel limitiert ist. JBIG operiert darum in einem ähnlichen Bereich wie TIFF G3 und G4, wobei im Vergleich zu TIFF G4 eine um 20 bis 50 Prozent verbesserte Kompressionsrate erreicht wird.
Im Jahre 2004 wurden die Spezifikationen für JBIG2 von der ISO als Standard 14492 publiziert. Die wesentlichsten Vorteile von JBIG2 sind:
Starke Erhöhung der Kompressionsrate (das JBIG-Komitee spricht von drei- bis fünfmal kleineren Dateien als bei TIFF G4 und zwei bis viermal kleinere Dateien im Vergleich zu JBIG1)
Spezielle Kompressionsmethoden für Text, Halbtöne und andere Inhaltsbereiche
Verlustfreie und verlustbehaftete Komprimierung wählbar
Unterstützung mehrseitiger Dokumente
Flexible Einbindung anderer Formate wie beispielsweise TIFF
Möglichkeit schneller Dekomprimierung: gemäss Angaben des JBIG-Komitees können unter Verwendung bestimmter Codierungsmethoden in der Software über 250 Millionen Pixel pro Sekunde dekomprimiert werden
Warum doch - oder warum nicht?
Wer ohne vorbelastetes Wissen die obige Beschreibung der Dateiformate gelesen hat, wird wohl kaum verstehen, warum auch heute noch so viele gescannte Bilder im TIFF G4-Format gespeichert werden oder warum überhaupt noch schwarzweise Bilder die Mehrheit aller gescannten Seiten bilden. Technisch gesehen spricht alles dafür, dass für schwarzweisse Bilder der Standard JBIG2 und für farbige Bilder JPEG2000 oder JPEG2000 Part 6 (JPM) eingesetzt wird. Dass die Realität anders aussieht, obwohl diese Standards nun schon vor etlichen Jahren publiziert wurden, verlangt Erklärungen. Die wesentlichsten Gründe, die gegen die Nutzung der neueren ISO-JPEG-Standards JBIG2 und JPEG2000 sprechen sind die Folgenden:
Hohe Rechenleistung erforderlich, um die Bilder zu komprimieren:
Dies schlägt bei kleinen zu verarbeitenden Volumen nicht so ins Gewicht. Werden jedoch Millionen von Seiten gescannt, so bedingt zum Beispiel der Einsatz des Formates JPM eine seriöse Planung des Verarbeitungsprozesses. Leistungsfähige Scannstrassen, die eine Lastenverteilung nach dem Client-/Serverprinzip zulassen, können diese Anforderung jedoch problemlos umsetzen. Aufgrund des Preisverfalls bei der Rechenleistung, steht diese heute kostengünstig zu Verfügung.
Erkennungssysteme fehlen:
Moderne Verarbeitungssysteme für die Posteingangsverarbeitung erzeugen nicht nur Bilder für die Archivierung. Sie nutzen Zeichenerkennungsverfahren (OCR), um Dokumente automatisch zu klassifizieren, Inhalte zu extrahieren oder um zumindest einen Barcode zu lesen. Solche Erkennungssysteme sind auf das Dokumentformat TIFF G4 ausgerichtet oder sie akzeptieren auch farbige Dokumente nach der älteren JPEG-Komprimierung. Die Farbbildkomprimierung nach JPEG ist jedoch wie oben erläutert verlustbehaftet und die erneute Umwandlung der farbigen in schwarzweisse Bilder für die Texterkennung hat schlechtere Erkennungsqualitäten zur Konsequenz. Dieses Problem lässt sich elegant mit modernen, so genannten Dualstream-Verfahren lösen, bei denen vom Scanner synchron erzeugte farbige und schwarzweisse Bilder parallel verarbeitet werden. Die schwarzweissen Bilder werden für die OCR-Verfahren eingesetzt, wohingegen die farbigen Bilder hoch komprimiert im Format JPM den Anwendungen und dem Archivsystem übergeben werden. Solche Verarbeitungsverfahren werden beispielsweise von Scannsystemen wie InputAccel von EMC und xBound von Foxray unterstützt. Interact Consulting hat dazu entsprechende Module für die Farbbildverarbeitung entwickelt.
DMS-/Archivlösungen für diese neuen Formate fehlen:
Sind die farbigen Bilder im Format JPEG2000 Part 6 einmal erzeugt, so können sie auch gespeichert werden. Was gespeichert ist, muss auch zur Anzeige gelangen. Und hier haben es die neuen Formate schwer. In den meisten DMS-Archivsystemen bestehen keine integrierten Betrachter für die neuen fortschrittlichen Bildformate. Die Systeme beschränken sich auf die Visualisierung von TIFF und traditionellen JPEG-Formaten. Bei der Frage nach der Unterstützung anderer Bildformate wird auf die Möglichkeit verwiesen, externe Bildbetrachter einzubinden. Damit werden aber entscheidenden Vorteile der Systeme ausgeschlossen, wie zum Beispiel die Verwaltung und Anzeige kleiner Voransichten (Thumbnails) oder die dynamische Generierung übergeordneter Dokumenten- und Aktenstrukturen aus Einzelseiten. Die Formate sind zwar offene ISO-Standards, aber es existieren nur wenige lizenzpflichtige und noch keine quellenoffenen Viewer, die die schnelle und kostengünstige Implementierung der Standards in DMS-Archivsysteme und andere Anwendungen ermöglichen. Systeme, wie das DMS- und Archivsystem ARTS der Firma Uptime Services, sind löbliche Ausnahmen und letztlich dadurch auch erfolgreich. Solange sie aber Ausnahmen bleiben, können sich die neuen ISO-Standards nicht auf breiter Front durchsetzen.

Heisst die Lösung PDF oder PDF/A?
Ja und Nein: dies die Kurzfassung. Das Ziel des offenen Standards PDF/A (ISO 19005-1) ist es, Inhalte statisch zu erhalten, so dass sie visuell exakt reproduzierbar sind. PDF/A-Dateien sollen unabhängig von bestimmten Geräten oder Betriebssystemen visualisiert werden können. Es ist ein komplett lizenzfreier Standard, der allen Herstellern offen steht. PDF/A-Dateien sind im Gegensatz zu normalen PDF-Dateien zwingend self contained, was bedeutet, dass alles, was zu ihrer Visualisierung benötigt wird, in der Datei selber vorhanden sein muss (Schriften, Zeichensätze, Bilder, eindeutig gekennzeichnete Farben und anderes).
Die erste PDF/A-Norm beruht auf der PDF-Spezifikation 1.4, bewegt sich also innerhalb der technischen Grenzen von Acrobat 5. Kompressionen sind grundsätzlich erlaubt, bis auf LZW oder JPEG2000. Sowohl transparente Objekte als auch Ebenen sind in der ersten Version von PDF/A nicht erlaubt, was eine Einschränkung im Vergleich zum Standard JPEG2000 darstellt.
Am 20. Juni dieses Jahres wurde PDF/A in der zweiten Version als Ergänzung zur ersten Version als Standard publiziert. Er basiert auf dem mittelweile ebenfalls offenen ISO-Standard 32000 für das Format PDF, der wiederum auf der von Adobe entwickelten PDF-Version 1.7 basiert, die mit dem Acrobat Reader Version 8 eingeführt wurde. Als wichtige Erweiterungen zum PDF/A-1 Standard erlaubt PDF/A-2 die Komprimierung nach JPEG2000, die Darstellung von Transparenzen und Ebenen (vgl. JPEG2000 Part 6) und es können OpenType-Zeichensätze eingebettet werden. Zudem bestehen Erweiterungen in der Einbindung von elektronischen Signaturen (was aber im Grundsatz schon bei PDF/A-1 möglich war).
Somit erweitert das PDF/A-2-Format die Vorteile des oben beschrieben Formates JPEG2000 und JBIG2 um entscheidende Faktoren. Es erlaubt die nahtlose Einbettung von elektronischen Signaturen und es stehen auf beinahe allen Plattformen (meistens) abgabefreie Betrachtungsanwendungen zur Verfügung, die PDF/A-2 anzeigen können.
Die Anforderungen an die Rechenleistung, zumindest dann wenn man die Komprimierungsmöglichkeiten von JPEG2000 und JBIG2 nutzen möchte, bleiben bestehen. Auch bestehen im Wesentlichen die gleichen Beschränkungen bezüglich der Erkennungssysteme, die vor allem bei der Verarbeitung von hoch komprimierten Bildinhalten in PDF an ihre Grenzen stossen. Bis die Hersteller der Erkennungssysteme die fortschrittlichen Bildformate nicht direkt unterstützen (und da ist uns keiner bekannt, der dies hat oder auch nur plant) führt kein Weg am Einsatz von Dualstream-Verfahren vorbei.
Verbleiben die Anwendungen wie DMS- und Archivsysteme als letzte Bastion. Die Anzeige von PDF-Dateien unterstützen heute beinahe alle Systeme, wobei zwischen voll integrierten Betrachtern basierend auf entsprechenden Entwicklungswerkzeugen (zum Beispiel PDF Tools) und eingebundenen externen Dateibetrachtern (zum Beispiel Adobe Acrobat) zu unterscheiden ist. Auch kann PDF die Grundfragen der Art der Speicherung von Akten, Dokumenten, Blättern und Seiten nicht beantworten. Diese Frage wird von der gewünschten Dokumentorganisation im Ablagesystem und den Möglichkeiten der Visualisierung der Seitenzugehörigkeit zu komplexeren Strukturen (Blatt, Dokument, Akte) bestimmt. Das Format folgt hier den Anforderungen an die erforderliche Funktion, was Grundlage einer jeden gut gestalteten Lösung sein sollte.
Was tun?
Der Untertitel dieses Beitrages "Rein in den Scanner - raus ins Archiv" ist verlockend, ohne seriöse Planung jedoch nicht ohne Weiteres umsetzbar. Die Wahl des richtigen Vorgehens ist abhängig von den Zielen, die mit der angestrebten Lösung erreicht werden sollen, von den vorhandenen Rahmenbedingungen (bestehende Infrastruktur wie Scanner und Archivsystem) und von den Mitteln, die man für die Ziellösung investieren möchte. Im Kräftefeld dieser Faktoren muss die beste Lösung gesucht werden.
Dem Einsatz von fortschriftlichen Bildformaten wie JPEG2000 und JBIG2 gehört sicher die Zukunft, unabhängig davon ob sie in PDF/A eingebunden sind oder im Ursprungsformat verwendet werden. Die Vorteile der vollständigen Verarbeitung in Farbe bei gleichzeitig kleinen Dateigrössen sind bestechend. Beim Einsatz von PDF/A-2 können diese fortschrittlichen Bildformate mit hinterlegtem erkanntem Volltext und mit eingebetteten Signaturen versehen werden, was zusätzliche Vorteile darstellt.
Die Abwägung aller Faktoren bei der Planung eines modernen Scann- und Erfassungssystems, die Wahl der richtigen Produkte und die Berücksichtigung aller Rahmenbedingungen ist eine schwierige Aufgabe, die professionelles Wissen und entsprechende Erfahrung voraussetzt. Interact Consulting löst solche Aufgaben seit etlichen Jahren, mit dem Resultat, dass unsere Kunden bereits heute jährlich über 50 Millionen Seiten in den fortschriftlichen Bildformaten erzeugen und speichern. Profitieren Sie von unserem Wissen und unserer Erfahrung bei der Realisierung Ihres Verarbeitungssystems.

