Eingabeformat "Pdf"

xSuite Interface Windows Prism 5.x – Online-Hilfe

Eingabeformat "Pdf"

Dieses Eingabeformat ermöglicht die Auftrennung einer mehrseitigen PDF-Datei in mehrere Einzeldateien. Die Auftrennung erfolgt anhand bestimmter Merkmale des seitenweise ausgewerteten Textinhalts der PDF-Datei. Bei der Auftrennung werden nur native Inhalte der PDF-Datei berücksichtigt. Texte aus eingebundenen Bilddaten, für die eine OCR-Verarbeitung erforderlich ist, werden nicht berücksichtigt.

Eigenschaft	Beschreibung
InputFormat[].SplitMode	Definition des Trennmodus Der Trennmodus legt fest, wie die Seiten zu identifizieren sind, bei denen eine Auftrennung in eine neue Teildatei erfolgt. Beim Trennen wird das Ursprungsdokument verworfen und stattdessen für jede Teildatei eine Kopie von diesem generiert. Dieser Kopie wird die Teildatei als weitere Anlage hinzugefügt. Das Dokument und die Anlage erhalten den Namenszusatz `.splitN`, wobei `N` eine laufende Nummer darstellt. Folgende Modi sind verfügbar: `None`: keine Trennung (Standardwert) `FixedPageNo`: Trennung in Dateien fester Seitenzahl `StartKey`: Start einer neuen Datei bei jeder Seite, die einen Schlüsselbegriff enthält `EndKey`: Start einer neuen Datei hinter jeder Seite, die einen Schlüsselbegriff enthält, d.h. der Begriff befindet sich auf der jeweils letzten Seite `RepeatKey`: Zusammenfassung aller aufeinanderfolgender Seiten, die einen identischen Schlüsselbegriff enthalten, zu jeweils einer Datei Für den Modus `FixedPageNo` ist die gewünschte Seitenanzahl in der Eigenschaft `.SplitValue[]` als Textwert anzugeben. Für die Modi `StartKey` und `EndKey` sind in der Eigenschaft `.SplitValue[]` ein oder mehrere alternative Schlüsselbegriffe zu definieren, die auf einer Seite enthalten sein müssen, um die Trennbedingung zu erfüllen. Im Modus `RepeatKey` hat die Eigenschaft `.SplitValue[]` keine Relevanz, weil nicht nach festen Begriffen gesucht wird. Stattdessen wird dynamisch ein Begriff extrahiert, der an einer bestimmten Position steht, und mit dem gleichen Begriff auf der vorigen Seite verglichen. Wenn sich der Begriff verändert hat, beginnt eine neue Datei. Ein Begriff, der auf einer Seite nicht gefunden wird, wird dabei nicht als gültiges Trennkriterium betrachtet. Zur Definition des zu extrahierenden Wertes im Modus `RepeatKey` wird die Eigenschaft `.SplitFieldDef` genutzt. Optional kann diese Eigenschaft auch für `StartKey` und `EndKey` verwendet werden, um die Suche nach dem `.SplitValue[]` auf eine bestimmte Seitenposition oder einen Seitenbereich einzugrenzen, anstatt standardmäßig über die gesamte Seite zu suchen.
InputFormat[].SplitFieldDef(*)	Definition des Extraktionsbereiches im Modus `RepeatKey` und optional in den Modi `StartKey` und `EndKey` Hier muss die gleiche Syntax verwendet werden wie für den PDF-Indexdatenleser (siehe Indexdatenleser "Pdf"). Ein Seitenbereich muss nicht angegeben werden, weil die Auswertung im vorliegenden Kontext implizit für jede Seite durchgeführt wird.
InputFormat[].SplitValue[](*)	Definition eine oder mehrerer Suchbegriffe im Modus `StartKey` und `EndKey` sowie Definition der numerischen Seitenanzahl im Modus `FixedPageNo` Achtung: Die Seitenzahl für den Modus `FixedPageNo` muss hier als Textwert in Anführungszeichen angegeben werden. Wenn die Seitenzahl nicht als Textwert angegeben wird, ist die Definition nicht gültig. Die Suchbegriffe können Wildcard-Ausdrücke (mit Platzhaltern ``, `?` und `#`) oder reguläre Ausdrücke (in `/`-Zeichen eingebettet) sein. Die Suche nach einem solchen Ausdruck findet über den gesamten zusammengesetzten Seiteninhalt statt, d.h. nicht pro Textfragment, aus denen sich eine PDF-Seite aufbaut. Dadurch kann mit einem Ausdruck über mehrere Fragmente zugleich gesucht werden. Somit kann jedoch z. B. nicht nach dem Wert `Rechnung` eines Einzelfragments gesucht werden, sondern nur nach `Rechnung*`, weil dieser Begriff im Kontext der Gesamtseite in vorangehenden und nachfolgenden Text eingebettet ist.
InputFormat[].Tolerance	Toleranzbereich in Millimetern Der Toleranzbereich legt fest, wie weit die Koordinaten eines Textfragments von einem gegebenen Wert abweichen dürfen, um dennoch mit diesem Wert als übereinstimmend betrachtet zu werden. Standardwert: `1`

In diesem Abschnitt:

xSuite Interface Windows Prism 5.x – Online-Hilfe

Eingabeformat "Pdf"

Suchresultat