Data Engineering

Die Herausforderung

Das Ziel des Projekts war die Entwicklung eines Online-Marktplatzes, der die Suche nach passenden Angeboten erheblich vereinfachte. Dies wurde durch ein KI-Modell ermöglicht, das online verfügbare Inserate auf einer zentralen Plattform aggregierte und dafür automatisierte Webdatenextraktion nutzte. Hierzu zählten sowohl die Identifikation passender Angebote aus zuvor definierten Quellen als auch die KI-gestützte Extraktion der Attribute dieser Angebote.

Anschließend erhielten alle Angebote Scores, um sie leichter vergleichbar zu machen. Diese verständlichen Bewertungen wurden mithilfe von maschinellem Lernen erstellt und basierten auf öffentlich zugänglichen Daten sowie den extrahierten Attributen der Inserate.

Der Lösungsweg

Für die Lösung der Aufgabe entstand eine mehrstufige Pipeline. Zunächst erfolgte die Identifikation und der Download aller relevanten Inserate von den zuvor definierten Quellseiten. Diese Quellen wurden einmalig parametrisiert und in das System integriert. Anschließend stand die Extraktion der Attribute im Fokus, wobei trainierte Modelle zum Einsatz kamen. Diese Modelle basierten auf manuell gelabelten Beispielen, die als Grundlage dienten, um die Ergebnisse zu optimieren. Eine größere Vielfalt an Beispielen führte dabei zu einer besseren Performance.

Nach der Datensammlung lag der Schwerpunkt auf der automatisierten Bereinigung und der Entfernung von Duplikaten. Hierbei brachte das System die Attribute in ein einheitliches Format und berechnete Ähnlichkeiten, um doppelte Einträge auszusortieren. Im nächsten Schritt bewertete die Pipeline die Inserate in verschiedenen Kategorien. Diese Bewertungen ermöglichten Vergleiche und die Filterung nach spezifischen Qualitätsmerkmalen.

Den Abschluss bildete die Präsentation der Inserate auf einer benutzerfreundlichen Onlineplattform. Kund:innen hatten dort die Möglichkeit, die Inserate entsprechend ihrer individuellen Präferenzen zu filtern. Für diese Funktionalität entstand eine moderne, skalierbare Webseite, die eine optimale Nutzererfahrung bot. Die gesamte Pipeline wurde zudem so gestaltet, dass sie flexibel auf das wachsende Datenaufkommen durch neue Quellen reagieren konnte.

Das Ergebnis

In diesem Projekt wurde eine komplett neue Plattform aufgebaut, welche Nutzenden Angebote von vielen verschiedenen anderen Webseiten übersichtlich anzeigt. Dabei wurde auf moderne Technologien zurückgegriffen, um Skalierbarkeit und Präzision im Extrahieren der Attribute zu ermöglichen. Durch untertägiges Webscraping bleiben die Angebote aktuell. Zudem bleibt das Projekt durch den Scraping Ansatz unabhängig von Dritten, es müssen keine Daten von externen Parteien eingepflegt werden. Der modulare Aufbau erlaubt es, nach und nach einzelne Schritte zu überarbeiten sowie jederzeit neue Datenquellen einzupflegen.

Wie wir Sie unterstützen können

Unsere Data Services

Webscraping

Data Engineering

Business Intelligence & Data Analytics