Data Engineering
Die Herausforderung
Eine deutsche Landesbibliothek benötigte ein zuverlässiges Verfahren, um Daten zu Open-Access-Journals unterschiedlicher Verlage – insbesondere Publikationsgebühren – automatisiert zu erfassen und strukturiert bereitzustellen. Die relevanten Informationen waren auf verschiedenen Unterseiten verteilt, oft im Fließtext verborgen und aufgrund individueller Preismodelle schwer vergleichbar.
Die bestehende Python-Pipeline erwies sich als unzureichend: Bot-Schutzmechanismen verhinderten eine vollständige Datenerfassung, programmatische Fehler führten zu fehlerhaften oder unvollständigen Ergebnissen, und Abstürze traten auf, da nicht alle Exceptions berücksichtigt waren. Zudem war die Transformation mittels LLMs (RAG-Ansatz) instabil – viele Felder blieben unvollständig, da die Implementierung nur Teilmengen der Daten verarbeiten konnte. Mechanismen zur Qualitäts- und Vollständigkeitsprüfung fehlten gänzlich, wodurch die Datenbasis weder konsistent noch nachvollziehbar war.
- Anwendungsfall
öffentliche Verwaltung
Erweiterung und Stabilisierung einer KI-gestützten Webscraping-Pipeline mit RAG zur Extraktion von Open-Access-Journal-Daten mit Fokus auf Publikationsgebühren
- Zielsetzung
- Vollständige und konsistente Erfassung von Journal-Daten trotz Bot-Schutzmechanismen
- Transformation unstrukturierter Texte in ein einheitliches JSON-Format
- Sicherstellung hoher Datenqualität und Transparenz durch Nachvollziehbarkeit der Ergebnisse
- Aufbau einer stabilen, skalierbaren Pipeline für die Verarbeitung tausender Journals
- Technologie
- Python
- Playwright
- Selenium
- MongoDB
- Docker
- LLM
- RAG
Der Lösungsweg
TIQ optimierte den gesamten Prozess anhand zweier Verlage als Pilotbeispiel. Zunächst wurde der Web-Scraping-Prozess technisch stabilisiert: Fehlerhafte Routinen wurden behoben, Mechanismen zur Umgehung von Bot-Schutzmaßnahmen und zur Simulation menschlichen Nutzerverhaltens implementiert sowie Retry-Strategien eingeführt. Zusätzlich wurden Validierungen zur Datenvollständigkeit integriert, sodass nur konsistente Datensätze weiterverarbeitet werden.
Für die Transformation der unstrukturierten Daten in strukturierte JSON-Formate wurde ein robuster RAG-Ansatz entwickelt, der Retrieval und Augmentation klar trennt. Durch optimierte Chunk-Größen und präzise Promptgestaltung konnte die Extraktion signifikant verbessert werden. Ergänzend wurden Fehler-Logs integriert, die transparent auf unvollständige Datenquellen oder Prozessfehler hinweisen und so die Nachvollziehbarkeit gewährleisten.
Das Ergebnis
Die Pipeline ist nun stabil, performant und liefert vollständige Datensätze mit deutlich verbesserter Qualität. Während die alte Lösung wie eine „Black Box“ wirkte, sind die Prozesse und Ergebnisse jetzt transparent und nachvollziehbar: Quellen, Chunks und potenziell fehlende Informationen werden direkt ausgewiesen. Unvollständige Daten oder Prozessfehler lassen sich schnell identifizieren und beheben.
Für den Kunden bedeutet dies eine deutlich gesteigerte Datenqualität, eine spürbar geringere Fehlerquote, schnellere Verarbeitung und ein hohes Maß an Transparenz in der gesamten Pipeline. Damit wurde eine zukunftsfähige Grundlage für die Analyse und Bereitstellung von Open-Access-Daten geschaffen.
- Kundenvorteile
- Vollständige und strukturierte Erfassung komplexer Journal-Daten
- Stabile und skalierbare Webscraping-Pipeline trotz Bot-Schutzmechanismen
- Deutlich verbesserte Datenqualität und reduzierte Fehlerquote
- Transparente und nachvollziehbare Prozesse durch Validierungen und Logging
- Schnellere Verarbeitung großer Datenmengen
- Nachhaltige Optimierung der Datenbasis für Forschung und Bibliotheksservices