Data Engineering
Die Herausforderung
Ein führendes Unternehmen wollte aus einer großen Menge extern bezogener Online-Daten gezielt relevante Geschäftskontakte identifizieren und für die weitere Bearbeitung nutzbar machen. Diese Informationen lagen intern nicht strukturiert vor. Als geeignete Grundlage wurden eingekaufte Daten aus öffentlich zugänglichen Quellen identifiziert, aus denen anschließend ein konkreter fachlicher Mehrwert erzeugt werden sollte.
Die Aufgabe bestand darin, aus einer großen Menge an Profilen, Metadaten und verlinkten Webseiten automatisiert relevante Kandidaten zu erkennen, zu priorisieren und mit verwertbaren Unternehmensinformationen anzureichern. Die Herausforderungen lagen dabei auf mehreren Ebenen: Die zugrunde liegenden Datenquellen folgten unterschiedlichen Strukturen. Viele Einträge enthielten weiterführende Verlinkungen, die eine deutlich größere Anzahl an zu verarbeitenden URLs erzeugten als ursprünglich erwartet. Über alledem stand die Frage, wie sich aus dieser Datenmasse belastbare, priorisierbare Ergebnisse ableiten lassen – und wie sich deren Qualität systematisch sicherstellen lässt.
- Anwendungsfall
Logistikunternehmen
Automatisiertes Scraping und Auswertung großer Datenmengen aus öffentlich zugänglichen Online-Quellen zur systematischen Identifikation und Qualifizierung relevanter Geschäftskontakte.
- Zielsetzung
- Extern bezogene Daten automatisiert verarbeiten und fachlich nutzbar machen
- Relevante Kandidaten anhand definierter Kriterien erkennen und priorisieren
- Verwertbare Unternehmensinformationen direkt aus öffentlich zugänglichen Quellen extrahieren
- Eigenständige Weiterverarbeitung, Filterung und Analyse der Ergebnisse ermöglichen
- Wiederverwendbares technisches Muster für vergleichbare datengetriebene Use Cases schaffen
- Technologien
- LLM
- Python
- ETL-/ELT-Pipelines
- Analytics-Tools
Der Lösungsweg
Wir entwickelten eine automatisierte und wiederverwendbare Datenpipeline, die Onlineprofile und Links strukturiert verarbeitet und daraus priorisierbare Kandidaten erzeugt.
Die Lösung bestand aus vier zentralen Bausteinen: Zunächst lasen wir alle verfügbaren Profile und Metadaten automatisiert über API-Abrufe ein. Im zweiten Schritt verarbeiteten wir alle verlinkten URLs inklusive weiterführender Verlinkungsstrukturen. Dabei kam eine regelbasierte Erkennungslogik zum Einsatz, die auf definierte Signale und Merkmale prüft.
Die Extraktion und Klassifikation von Unternehmensinformationen setzten wir mithilfe eines lokal betriebenen Large Language Models um. So konnten wir Firma, Adresse und weitere relevante Angaben direkt aus den verlinkten Seiten gewinnen – ohne externe Abhängigkeiten und mit hoher Datensouveränität. Die Ergebnisqualität haben wir mehrstufig validiert: durch Abfragen- und Ergebniszählung, die Speicherung von Zwischenresultaten und gezielte Stichprobenprüfungen.
Statt eines statischen Berichts lieferten wir einen strukturierten Datenexport in mehreren auswertbaren Tabellen: Profilübersichten mit Metadaten, Ergebnisse auf Link-Ebene sowie eine deduplizierte Übersicht aller untersuchten Quellen mit Erkennungsmerkmalen und Unternehmensinformationen. Die technische Steuerung erfolgte in kurzen, iterativen Zyklen.
Das Ergebnis
Das Unternehmen verfügt nun über eine strukturierte Datenbasis, auf deren Grundlage relevante Kandidaten eigenständig gefiltert, priorisiert und weiterbearbeitet werden können. Insgesamt wurden mehrere zehntausend Profile sowie hunderttausende Link-Einträge verarbeitet. Ein Großteil davon ließ sich eindeutig definierten Erkennungsmerkmalen zuordnen. Die Extraktion von Unternehmensinformationen lieferte für einen Großteil der untersuchten Quellen verwertbare Firmen- und Adressinformationen.
Die Ergebnisdaten lassen sich vielseitig nutzen: Kandidaten können nach Häufigkeit relevanter Signale priorisiert, Profile und ihre Reichweite ausgewertet sowie geeignete Kontakte für eine gezielte Weiterbearbeitung identifiziert werden. Aus dem einmaligen Projektauftrag ist ein technisch robustes, wiederverwendbares Muster entstanden, das sich für ähnliche datengetriebene Use Cases direkt adaptieren lässt.
Der Mehrwert liegt dabei nicht allein in den gelieferten Daten selbst: Aus extern bezogenen Rohdaten wurden strukturierte, angereicherte Business-Insights – eine saubere Grundlage, auf der sich weiterführende Analysen und perspektivisch auch automatisierte Prozesse aufbauen lassen.
- Kundenvorteile
- Zielgenaue Priorisierung relevanter Kandidaten anhand mehrerer kombinierter Signale
- Verwertbare Unternehmensinformationen direkt aus öffentlich zugänglichen Quellen
- Eigenständige Weiterverarbeitung, Filterung und Analyse der Ergebnisse möglich
- Vollständige Auswertung von Profilen, Links, Reichweiten und Erkennungsmerkmalen
- Robuste Ergebnislogik durch Kombination mehrerer Qualifizierungssignale
- Wiederverwendbares technisches Muster für vergleichbare datengetriebene Use Cases