Data Engineering

Die Herausforderung

Eine deutsche Landesbibliothek benötigte ein zuverlässiges Verfahren, um Daten zu Open-Access-Journals unterschiedlicher Verlage – insbesondere Publikationsgebühren – automatisiert zu erfassen und strukturiert bereitzustellen. Die relevanten Informationen waren auf verschiedenen Unterseiten verteilt, oft im Fließtext verborgen und aufgrund individueller Preismodelle schwer vergleichbar.
Die bestehende Python-Pipeline erwies sich als unzureichend: Bot-Schutzmechanismen verhinderten eine vollständige Datenerfassung, programmatische Fehler führten zu fehlerhaften oder unvollständigen Ergebnissen, und Abstürze traten auf, da nicht alle Exceptions berücksichtigt waren. Zudem war die Transformation mittels LLMs (RAG-Ansatz) instabil – viele Felder blieben unvollständig, da die Implementierung nur Teilmengen der Daten verarbeiten konnte. Mechanismen zur Qualitäts- und Vollständigkeitsprüfung fehlten gänzlich, wodurch die Datenbasis weder konsistent noch nachvollziehbar war.

öffentliche Verwaltung

Erweiterung und Stabilisierung einer KI-gestützten Webscraping-Pipeline mit RAG zur Extraktion von Open-Access-Journal-Daten mit Fokus auf Publikationsgebühren

Der Lösungsweg

TIQ optimierte den gesamten Prozess anhand zweier Verlage als Pilotbeispiel. Zunächst wurde der Web-Scraping-Prozess technisch stabilisiert: Fehlerhafte Routinen wurden behoben, Mechanismen zur Umgehung von Bot-Schutzmaßnahmen und zur Simulation menschlichen Nutzerverhaltens implementiert sowie Retry-Strategien eingeführt. Zusätzlich wurden Validierungen zur Datenvollständigkeit integriert, sodass nur konsistente Datensätze weiterverarbeitet werden.
Für die Transformation der unstrukturierten Daten in strukturierte JSON-Formate wurde ein robuster RAG-Ansatz entwickelt, der Retrieval und Augmentation klar trennt. Durch optimierte Chunk-Größen und präzise Promptgestaltung konnte die Extraktion signifikant verbessert werden. Ergänzend wurden Fehler-Logs integriert, die transparent auf unvollständige Datenquellen oder Prozessfehler hinweisen und so die Nachvollziehbarkeit gewährleisten.

Das Ergebnis

Die Pipeline ist nun stabil, performant und liefert vollständige Datensätze mit deutlich verbesserter Qualität. Während die alte Lösung wie eine „Black Box“ wirkte, sind die Prozesse und Ergebnisse jetzt transparent und nachvollziehbar: Quellen, Chunks und potenziell fehlende Informationen werden direkt ausgewiesen. Unvollständige Daten oder Prozessfehler lassen sich schnell identifizieren und beheben.
Für den Kunden bedeutet dies eine deutlich gesteigerte Datenqualität, eine spürbar geringere Fehlerquote, schnellere Verarbeitung und ein hohes Maß an Transparenz in der gesamten Pipeline. Damit wurde eine zukunftsfähige Grundlage für die Analyse und Bereitstellung von Open-Access-Daten geschaffen.

Das sagen unsere Kunden

Wie wir Sie unterstützen können

Unsere Data Services

Business Intelligence & Data Analytics

Data Engineering

Webscraping

Wertvolle News in Ihrem Postfach!

Unser Newsletter

Erhalten Sie mit unserem Newsletter die neuesten Informationen rund um das Thema Data Analytics.

Logo TIQ Solutions

Wir setzen uns ein, dass Sie mit Ihren Daten & KI die besseren Entscheidungen für Ihr Unternehmen treffen und Ihren Geschäftserfolg nachhaltig steigern. Nutzen Sie das Potential von KI und Daten für mehr Profitabilität, Innovation und Wachstum. Wir sind Ihre Daten- und KI-Experten!

Mehr erfahren

Kontakt
 
Deutschland
 
Leipzig
Weißenfelser Str. 84
04229 Leipzig
 

Dresden
Fetscherstraße 24
01307 Dresden

Hamburg
Ludwig-Erhard-Straße 37
20459 Hamburg

München
Hofmannstraße 54
81379 München

Österreich

Wien
Eduardgasse 1/306
1180 Wien

Mit 🧡 TIQ Solutions 2026