Textklassifikationen: Chancen und Herausforderungen

Die automatische Analyse von Texten nimmt in vielen verschiedenen Arbeitsbereichen insbesondere im Medienbereich einen stetig wachsenden Stellenwert ein, da die kontinuierlich zunehmenden Datenmengen sich kaum noch per Hand bewältigen lassen. KI-basierte Analysen können hier Abhilfe schaffen, indem Trends und Themen unmittelbar erkannt werden. In solchen Fällen können KI-Algorithmen aus dem Bereich des Maschinellen Lernens Medieninhalte automatisch sortieren und hinsichtlich vorher definierter KPIs bewerten.

Einen großen Mehrwert bringen KI-basierte Verfahren in der Live-Performance (z.B. hinsichtlich Reputation & Sichtbarkeit) am Markt. Der Vergleich zur Konkurrenz kann unmittelbar bestimmt werden und entsprechend können die Strategien für Marketing und Unternehmenskommunikation darauf ausgerichtet werden.

KI-Methode Textklassifikation

Um Trends aus Social Media bzw. medial verbreiten Texten per KI zu erkennen, müssen zunächst Themen aus diesen zahlreichen Texten thematisch eingeordnet werden. Diese Einordnung von Texten wird als Klassifikation bezeichnet: Dabei werden die verschiedenen Texte in unterschiedliche Klassen (Themen) eingeordnet. Ein sehr zuverlässiger und oft genutzter Weg ist das sogenannte überwachte Lernen: Ein gezielt ausgewählter Algorithmus wird mit bekannten Texten und jeweils einem dazu passenden Thema gefüttert, woraus gelernt wird, wie unbekannte Texte in die Themen eingeordnet werden. So wird z.B. ein Text dem Thema ‘Elektromobilität’ oder ‘Robotik’ zugeordnet.

Ein solcher Algorithmus nutzt nun Informationen über gemeinsam auftauchende Wörter in Texten eines Themas, um im nächsten Schritt zu entscheiden, welchem Thema ein neuer Text zugeordnet wird. Deshalb sollte man möglichst viele Texte zum Anlernen nutzen, damit anschließend viele Zusammenhänge richtig eingeordnet werden können. Diese Einordnung kann nur so gut sein wie die zuvor zur Verfügung gestellte Klassen-Einstufung. Die Vorbereitung ist also ein sehr ausschlaggebender Schritt für eine erfolgreiche Anwendung.

Mehrwert der Einteilung von Ober- und Unterkategorien

Vor allem für viele verschiedene Themen ist die automatische Einordnung oft schwierig. Viele gängige Methoden des Maschinellen Lernens sind auf eine kleine Anzahl an Klassen ausgelegt. Unsere jahrelange Erfahrung im Bereich KI zeigt, dass eine Unterteilung der Themen in Ober- und Unterkategorie ein sehr gut geeigneter Ansatz ist. Dazu werden die schon festgelegten Themen passenden Oberkategorien zugeordnet. In unserem Beispiel wird ein Text nicht nur dem Thema ‘Elektromobilität’ oder ‘Robotik’ zugeordnet, sondern auch einer jeweiligen Oberkategorie, hier ‘Mobilität’ oder ‘Digitalisierung’. Der Algorithmus bestimmt nun für einen unbekannten Text in einem ersten Schritt die wahrscheinlichste Oberkategorie (z.B. ‘Mobilität’), und anschließend eine entsprechende Unterkategorie (z.B. ‘Elektromobilität’). So wird die Problemstellung in mehrere kleinere Schritte unterteilt, die wiederum leichter zu bestimmen sind und deshalb mit größerer Genauigkeit vorhergesagt werden können.

Bei diesem Ansatz ist zu beachten, dass die Unterkategorien und Oberkategorien vorher bekannt sein müssen. Eine Einordnung in neue unbekannte Themen ist auf diesem Weg nicht möglich. Für solche Anforderungen können neue Informationen im Laufe der Zeit zusätzlich eingepflegt werden (durch halb-überwachtes Lernen oder externe Themen-Zuordnungen), oder Methoden aus anderen Bereichen verwendet werden, die neue Themen selbstständig erkennen (wie das Topic Modeling). Für unsere Anwendungen der Themeneinordnung von Online-Daten bleiben überwachte Klassifikationen die beste Wahl, weil sie schnell auf sehr große Datenmengen anwendbar sind und die Ergebnisse leicht interpretierbar sind. Dieser hierarchische Ansatz bietet außerdem die Möglichkeit, in unterschiedlicher Tiefe in die Inhalte einzutauchen.

Vorgehen Textklassifikation
Quelle: eigene Darstellung: Vorgehensmodell Textklassifikation

Fazit

Ziel des KI-Verfahrens ist das automatische Erkennen von Nachfrage oder öffentlichem Interesse an bestimmten Themen. Diese automatisierte Auswertung von Textdaten kann weiterführend genutzt werden, um Trends und Shitstorms zu ermitteln. Weiterhin bildet Textklassifikation die methodische Grundlage, um Live-Performance hinsichtlich bestimmter KPIs, wie Sichtbarkeit am Markt oder Reputation im Vergleich zu Mitbewerber:innen, zu ermitteln. Die Informationen liefern einen großen Vorteil gegenüber der Konkurrenz, da gezielt und zeitnah auf Trends sowie Themen reagiert werden kann.

Sie benötigen Unterstützung bei Ihrer nächsten analytischen Herausforderung. Wir sind für Sie da. Jetzt anfragen.

 

 

 

weitere Beiträge