Data Engineering

Die Herausforderung

Die fortschreitende Digitalisierung hat einen enormen Einfluss auf das Konsumverhalten der Verbraucher. Durch die stetig wachsenden technischen Möglichkeiten werden Produkt- und Preisvergleiche für jeden Anwender immer einfacher. Das hat zur Folge, dass die Konsumenten ihr Kaufverhalten immer mehr auch von der Reputation des Unternehmens bzw. der Marke abhängig machen. Die Bewertung bzw. das Image von Marken und Unternehmen stellt damit einen steigenden Erfolgsfaktor bei der Vermarktung von Produkten dar.

Unser Projektpartner aus dem Bereich der Medienbranche analysiert die Wahrnehmung von Unternehmen und Marken im Web im Vergleich zu ihren Wettbewerbern über Stimmungsbarometer. Dazu nutzt er eine Vielzahl an unterschiedlichen Online-Datenquellen, wie z.B. Social-Media-Kanäle, Newsfeed, Blogs und Nachrichtenportale. Bisher erstellte unser Partner diese Analysen lokal in Excel und stieß aufgrund der hohen und kontinuierlich steigenden Datenmenge immer mehr an seine Grenzen. Zusätzlich sollte es möglich sein, die Informationen in Themen einzuteilen, ohne dabei einen aufwendigen manuellen Anteil zu haben. Das bisher verwendete Modell zur Klassifizierung der Online-Daten in bestimmte Themen (sog. Topic Modeling) war nicht auf große Datenmengen ausgelegt und nicht ausreichend performant. Auch die Benennung der einzelnen Themen aus dem Topic Modeling erfolgte manuell und benötigte klare Standards. Der Aufwand für die Analysen war dadurch sehr hoch und für die Analysten nicht mehr zu bewältigen.

Unser Partner hat sich bei der Suche nach einer Big Data Analytics-Lösung an uns gewandt, mit der er aus den oben beschriebenen Online-Datenquellen die Wahrnehmung von Unternehmen und Marken analysieren und Stimmungsbarometer daraus visualisiert darstellen kann. Die Analysen sollten zukünftig schneller, effizienter und qualitativ hochwertiger durchführbar sein und mehr Freiheiten bei Datenbeschaffung und Datenselektion bieten. Die Datenmodellierung soll zukünftig auf Basis eines universellen Modells mit einem effizienteren automatisierten Algorithmus erfolgen. Zudem sollen die Dashboards der Analysen in Bezug auf Tonalität, Reputation, Sentiment für den internen Gebrauch genutzt werden und interessierten Kunden exklusiv im ansprechenden Design zur Verfügung gestellt werden.

PR/Medienbranche

Entwicklung einer Big Data Analytics-Lösung  und Dashboard-Darstellung der KPIs in Form eines Stimmungsbarometers für Unternehmen und Marken

Der Lösungsweg

In diesem Projekt unterstützte TIQ Solutions das Forschungs- und Entwicklungsteam des Projektpartners allumfänglich angefangen bei der Datenintegration bis hin zur Datenvisualisierung und dem Reporting. Für die Big Data-Integration aus einer Vielzahl von Online-Datenquellen hat das Team von TIQ Solutions einen Cloudera Cluster in der Azure Cloud aufgebaut. Für eine integrierte und abgestimmte schnell nutzbare Umgebung mit wenig Administrations- und Konfigurationsaufwand entwickelte das Team ein Ansible-Skript, das in kürzester Zeit vollautomatisiert eine Cloudera-Umgebung in der Azure Cloud aufbaut. Für Datenbeschaffung und -import wurde eine Schnittstelle zu einem Amazon S3 Storage implementiert. Die Persistierung der Daten erfolgt nun in Hive und der Datenzugriff wurde mittels Hue (SQL) und Jupyter (Python, R) umgesetzt.

Ein entscheidender Teil der (Social Media-) Analyse ist die Bestimmung relevanter Themen (Topics), die im Zusammenhang mit der betrachteten Entität stehen. Dazu wurde unter R zunächst ein Topic Model entwickelt, dass über Clusterverfahren relevante Themen identifiziert. Darüber hinaus kann über eine in Python entwickelte NLP-Pipeline das jeweilige Thema der geladenen Textfragmente bestimmt werden. In der Aggregation ergibt sich hieraus die Möglichkeit der quantitativen Auswertung der Themen, mit denen Unternehmen und ihre Benchmarks in Verbindung gebracht werden. Das Topic Modeling profitiert dabei von der skalierbaren Cloud-Architektur, die es ermöglicht, auch große Textcorpora zu analysieren. Zusätzlich wurde die Klassifizierung neuer Textfragmente in den Import der Daten integriert, wodurch direkt auf die Themenanalyse zugegriffen werden kann.

Die Beladung, Aggregation der Daten und die Visualisierung der Ergebnisse erfolgt auf einem Qlik Sense Server, welcher als Basis für verschiedene Apps und Dashboards für ein Reporting dient. Doch die Datenvisualisierung in der Qlik Sense Oberfläche erfüllte die Kundenanforderungen nicht ausreichend. Daher haben die BI-Entwickler von TIQ Solutions eine Web-Application auf Basis des Python-Webframeworks Django entwickelt, auf welcher ein eigenständiges Dashboard präsentiert wird. Die Daten werden dabei nicht neu aggregiert, sondern über die Qlik Sense Engine API bezogen und anschließend mit Hilfe des Frameworks Chart.js visualisiert.

Das Ergebnis

Für die Erstellung von Stimmungsbarometern aus einer Vielzahl an Onlinedaten kann unser Partner jetzt seine Analysen in einem Big Data Cluster transparent, optimiert, schnell und qualitätsgesichert durchführen. Die Analysten können sich die benötigten Daten eigenständig beschaffen und sind nicht auf explizite Datenlieferungen eines Dienstleisters angewiesen. Durch das Topic Modelling kann jetzt die Wahrnehmung der Unternehmen / Marken zu unterschiedlichen Themen explizit dargestellt und auswertet werden. Mit der Nutzung von Qlik Sense kann unser Partner eigenständig neue Analysen ohne Entwicklerkenntnisse erstellen. Zudem bietet Qlik Sense über die API Möglichkeiten zur flexibleren Entwicklung von Visualisierungen und zur Implementierung von erweiterten Funktionen. Mit den zusätzlich entwickelten Dashboards erhält unser Partner ein aussagekräftiges Reporting, welches jetzt Darstellungen weiterer Datenzusammenhänge ermöglicht. Mit der Bereitstellung von Templates kann unser Partner nun seinen Kunden auch für ihr Reporting individualisierte Dashboards anbieten.

Grafik zur Kundenreferenz

Folgend finden Sie 4 Beispiele zur Visualisierung verschiedener Datenquellen.

Wie wir Sie unterstützen können

Unsere Data Services

Data Engineering

Business Intelligence & Data Analytics

Data Science