Eingabeformat "Pdf"
Dieses Eingabeformat ermöglicht die Auftrennung einer mehrseitigen PDF-Datei in mehrere Einzeldateien. Die Auftrennung erfolgt anhand bestimmter Merkmale des seitenweise ausgewerteten Textinhalts der PDF-Datei. Bei der Auftrennung werden nur native Inhalte der PDF-Datei berücksichtigt. Texte aus eingebundenen Bilddaten, für die eine OCR-Verarbeitung erforderlich ist, werden nicht berücksichtigt.
Eigenschaft | Beschreibung |
|---|---|
InputFormat[].SplitMode | Definition des Trennmodus Der Trennmodus legt fest, wie die Seiten zu identifizieren sind, bei denen eine Auftrennung in eine neue Teildatei erfolgt. Beim Trennen wird das Ursprungsdokument verworfen und stattdessen für jede Teildatei eine Kopie von diesem generiert. Dieser Kopie wird die Teildatei als weitere Anlage hinzugefügt. Das Dokument und die Anlage erhalten den Namenszusatz Folgende Modi sind verfügbar:
Für den Modus Im Modus Zur Definition des zu extrahierenden Wertes im Modus |
InputFormat[].SplitFieldDef(*) | Definition des Extraktionsbereiches im Modus Hier muss die gleiche Syntax verwendet werden wie für den PDF-Indexdatenleser (siehe Indexdatenleser "Pdf"). Ein Seitenbereich muss nicht angegeben werden, weil die Auswertung im vorliegenden Kontext implizit für jede Seite durchgeführt wird. |
InputFormat[].SplitValue[](*) | Definition eine oder mehrerer Suchbegriffe im Modus Achtung: Die Seitenzahl für den Modus Die Suchbegriffe können Wildcard-Ausdrücke (mit Platzhaltern |
InputFormat[].Tolerance | Toleranzbereich in Millimetern Der Toleranzbereich legt fest, wie weit die Koordinaten eines Textfragments von einem gegebenen Wert abweichen dürfen, um dennoch mit diesem Wert als übereinstimmend betrachtet zu werden. Standardwert: |