Seite 1 von 1

Daten Extraction aus PDF in Excel/CSV

Verfasst: 11. Mai 2023 08:45
von dipling
Da es in Zusammenhang mit der Leadgenerierung fürs Marketing steht, stelle ich die Frage mal hier rein:

Gibt es ein (zumindest erstmal kostenlos und leicht testbares) Webtool, mit dem ich aus vielen PDF ähnlicher Struktur (alte Bestellungen/Rechnungen) bestimmte Daten (idealerweise einfach per Markierung/Klick und Zuordnung zu welchem Feld es später in der CSV gehört) extrahieren und eben in eine CSV-Tabelle exportieren kann? Das ganze als Batch/Stapelverarbeitung.

Ich habe schon einige Tools gefunden, aber entweder ging das nur über eine direkte Kontaktanfrage für eine Live-Vorführung oder der gratis-test war nicht zufriedenstellend, weil zu unflexibel was die Datenfelder angeht.

Keine Sorge, die Daten sind für die Kontaktaufnahme von Bestandskunden aus dem sortimentsgleichen B2B-Bereich. Da die Daten aber aus verschiedenen Quellen kommen, müssen wir den Weg über die Rechnungen gehen um alles einheitlich zu erfassen.

Evtl. arbeitet ja jemand damit und kann etwas empfehlen.

Re: Daten Extraction aus PDF in Excel/CSV

Verfasst: 11. Mai 2023 09:11
von hissenit
Excel soll ein KI-Tool integriert haben, welches Tabellen aus PDFs extrahiert. Ich weiß nicht, ob es hier helfen würde, habe es selber auch noch nicht probiert.

Die Frage ist, wie "ähnlich" die Struktur wirklich ist. Denn PDFs enthalten ja nur Druckinformationen, Strukturen muss man daraus wiederherstellen. Das habe ich als Projektauftrag in Form individueller Scripte schon öfter gemacht, weil meine Kunden eben kein passendes Tool gefunden haben. Ist aber kein befriedigendes Thema, ehrlich gesagt.

Re: Daten Extraction aus PDF in Excel/CSV

Verfasst: 11. Mai 2023 09:40
von dipling
Ja reine Tabellen sind kein Problem. Es geht aber um bestimmte Felder. Es gibt bereits sehr viele „data extracting Tools“ für PDF/Excel, bei denen man die PDFs hochlädt und dann die CSV ausgespuckt bekommt.

Re: Daten Extraction aus PDF in Excel/CSV

Verfasst: 11. Mai 2023 11:29
von hissenit
Ja da gibt es vieles, aber wie Du ja auch schon festgestellt hast, ist es schwer da was Passendes für den eigenen Anwendungsfall zu finden.
Texte kriege ich aus einem PDF mit Leichtigkeit - richtige Struktur ist das Problem.

Re: Daten Extraction aus PDF in Excel/CSV

Verfasst: 7. Jun 2023 13:28
von dipling
Melde mich mal zurück. Hatte im Betriebsurlaub mal Lust mich nochmal mit dem Thema zu beschäftigen. Die Möglichkeiten für den Vertrieb sind einfach zu groß.

Habe jetzt mal mit einem Testkonto bei Parseur.com etwas herumprobiert. Da lädst du ein paar PDFs hoch, die alle ähnlich aufgebaut sind von der Struktur her und aus denen du die gewünschten Daten übersichtlich z.B. in CSV extrahieren willst.
Du kannst dann Templates erzeugen für bestimmte Dokumentstrukturen, die du mit weiteren Dokumenten anlernen kannst und ganz einfach per Dag&Drop immer wieder "beibringen" (ist ja KI-gestützt) kannst, welches Feld bzw. Wert später welchem Feld in der CSV zugeordnet werden soll. Das hat für den 1. Test recht gut funktioniert, muss aber noch verfeinert werden.

Was ich auch gut finde: Mann kann sogar die Dokumente an eine eigens eingerichtete E-Mail Adresse senden (z.B. wenn man diese sowieso an Datev für seine Buchhaltung hochläd einfach als CC auch dort hin) und dort sammeln sich automatisch die Dokumente. Wenn man dann wieder mal Daten extrahieren will, braucht man nur noch auf "Extract" klicken und hat das File "in der Hand".

Zu den Kosten:
Das geht per Credits. 1 Credit entspricht ca. 1 Seite erstmalig gescrapten Dokuments. Wenn du etwas angepasst hast bzgl. des Templates oder so, zählt das beim erneuten Extrahieren nicht noch einmal.
Angenommen man extrahiert 1000 Dokumentseiten pro Monat, kostet das 100€. Also 10 Cent pro Dokument. Wird natürlich günstiger je mehr Credits man kauft bzw. im Jahresabo.

Wenn ich jetzt rechne, dass ich auf diese Weise bei teils vorsortierten Rechnungen (z.B. nur die B2B-Kunden aus vertrieblichen und rechtlichen Gründen) z.B. vom Amazon-Marktplatz (wir nutzen die Fakturierung durch Amazon) pro Monat 10 Cent für einen Lead bezahle, der bereits gekauft hat und pot. interessiert ist an weiteren Sortimentsähnlichen Produkten, ist das im Vergleich zu Adresskäufen, SocialAds, SEA, usw. im Prinzip geschenkt und der Vertrieb freut sich für den Anruf über einen guten Einstieg "Sie haben bei uns ja bereits den Artikel XY gekauft".

Ich werde das jetzt mal verfeinern und weiter testen. Dann auf die Rückmeldung aus der Warmakquise warten ;)