La classification de texte est le processus d’attribution automatique de balises, de Tags ou de catégories au texte en fonction de son contenu.
Il s’agit de l’une des tâches fondamentales du traitement du langage naturel (NLP) avec de vastes applications telles que l’analyse des sentiments, l’étiquetage des sujets, la détection du spam, la détection d’urgence dans le contenu, la détection d’intention, la détection automatique de langage etc.
Les données non structurées sous forme de texte sont partout : e-mails, chats, pages Web, commentaires sur les médias sociaux, tickets d’assistance, réponses aux sondages, etc.
Ces formes de contenus peuvent être une source extrêmement riche en informations et en insights utiles pour l’action marketing et pour le pilotage des décisions, l’extraction et le traitement de ces données peut cependant être long et difficile en raison de sa nature non structurée et non associée à travers des thèmes et des topics porteurs de sens commun et intelligibles pour l’esprit humain.
Les entreprises se tournent vers la classification de texte (Topic Classification) pour structurer ces contenus bruts et non liés, de manière rapide et rentable afin d’améliorer la prise de décision et d’automatiser les processus opérationnels.
Mais qu’est-ce que la classification de texte ? Comment fonctionne la classification de textes ? Et quelles sont les applications métier les plus courantes ? Nous essaierons de répondre à ces questions dans cet article.
Qu’est-ce que la classification de textes ?
La classification, catégorisation ou balisage de texte consiste à attribuer un ensemble de catégories prédéfinies à un contenu textuel libre. Les classificateurs de textes peuvent être utilisés pour organiser, structurer et classer toute forme de contenu brut, non structuré et non affecté à des unités de sens thématique naturellement intelligible.
La classification de textes peut être effectuée de deux manières différentes : classification manuelle ou automatique. Dans le premier cas, un annotateur humain interprète le contenu du texte et le classe en conséquence. Cette méthode peut fournir des résultats de qualité étant portée par l’intelligence humaine, mais elle est chronophage en temps et en ressources humaines, et est globalement très coûteuse lorsqu’il s’agit de traiter de gros volume de manière régulière.
Dans le second cas, qui nous concerne plus dans cet article, ce traitement est pris en charge par de l’intelligence artificielle et plus précisément par du machine learning. Ce dernier applique l’apprentissage automatique, le traitement du langage naturel et d’autres techniques pour classer automatiquement le texte de manière plus rapide et plus rentable.
Comment fonctionne la classification de textes ?
Il existe de nombreuses approches de la classification automatique des textes, qui peuvent être regroupées en trois types de systèmes différents:
- Systèmes basés sur des règles (Rule Based).
- Systèmes basés sur l’apprentissage automatique (Machine Learning).
- Systèmes hybrides entre les deux approches.
Les approches basées sur des règles classent le texte en groupes organisés en utilisant un ensemble de règles linguistiques et sémantiques. Ces systèmes sont compréhensibles par l’homme et peuvent être améliorés au fil du temps mais cette approche présente néanmoins certains inconvénients :
- Besoin d’une connaissance approfondie du domaine à modéliser, voire un très haut niveau d’expertise sur le sujet qu’il n’est pas toujours facile de trouver ou de mobiliser pour mettre en place le modèle et l’entraîner.
- Le temps d’analyses et de tests qui peut être très important.
- La difficulté de maintenir et de mettre à jour les règles dans le temps et de les adapter aux évolutions de l’environnement.
C’est pour cela que les systèmes basés sur le machine learning tendent à se développer beaucoup plus et à remplacer les systèmes dits Rule Based. Au lieu de s’appuyer sur des règles conçues manuellement, la classification de texte avec l’apprentissage automatique apprend à effectuer des classifications basées sur des observations passées.
En utilisant des exemples pré-étiquetés comme données d’apprentissage, un algorithme d’apprentissage automatique peut apprendre les différentes associations entre des morceaux de texte et définir qu’une sortie particulière (c’est-à-dire des Tags / balises / thèmes / Topics etc.) sont attendus pour une entrée particulière (c’est-à-dire du contenu brut non structuré, écrit en langage humain naturel).
Il existe plusieurs familles d’algorithme de classification de textes (SVP, Naive Bayes, CNN, RNN etc.), et les data-scientists choisissent la famille à appliquer selon plusieurs critères techniques et selon l’usage attendu de ce type de traitement.
Quelles sont les applications les plus courantes de la classification de textes pour le marketing ?
La classification de textes peut être utilisée dans un très large éventail de contextes, tels que la classification de textes courts (commentaires, tweets, mails…) ou l’organisation de documents beaucoup plus volumineux (articles de journaux, fiches techniques de produits, documents promotionnels…).
Elle peut être généralisée à toutes les sources d’informations non structurées comme cité précédemment, ou plus directement orientée vers un canal spécifique comme les réseaux sociaux par exemple.
Elle peut être utilisée pour détecter automatiquement le langage des contenus, l’intention sémantique de leur auteur, ou le niveau d’urgence, elle peut également être utilisée pour segmenter ces contenus et les associer à des topics précis (prix, qualité, disponibilité, user expérience, service après-vente, fonctionnalités précises d’usage, etc.).
A titre d’exemple, à travers l’analyse des commentaires postés sur les réseaux sociaux de l’entreprise, il est possible de détecter et de classifier des éléments importants pour la mise en oeuvre des stratégies opérationnelles du marketing et de la communication digitale comme :
- Les caractéristiques de vos produits et services : les gens parlent-ils d’un aspect particulier de votre produit ou service ? Ont-il des besoins d’information précis ? Un produit pose-t-il des problèmes particuliers ? Etc.
- Les Souhaits de vos consommateurs : les clients expriment-ils des désirs particuliers qui mériteraient d’être analysés et intégrés dans votre cycle d’innovation ?
- Vos prix: votre marque est-elle perçue comme un bon rapport qualité-prix ?
- De nouveaux cas d’usage : comment vos clients utilisent-ils votre produit ? Que vous apprennent-il de nouveau sur leur propre manière de le manipuler ?
- Vos Concurrents: comment votre marque se compare-t-elle à ses concurrents ? y’a-t-il des opportunités de vente lorsqu’un client se plaint de leurs produits ou services sur les réseaux sociaux ?
- Votre expérience client : Comment identifier automatiquement les interactions sur les réseaux sociaux de clients qui recherchent de l’aide et les diriger vers les l’équipe d’assistance sans laisser pourrir la situation ?
- Votre image de marque : quels sentiments et quels attributs sont généralement associés à la mention de votre marque ?
- Etc.
Dans la pratique un classificateur prends du texte « naturel » et identifie des éléments de sens permettant d’associer tout ou partie de ce texte à des thèmes précis, et il le fait à large échelle.
Prenons l’exemple d’un classificateur conçu pour un hypermarché et dont le rôle serait de prendre en charge les réclamations entrantes à travers le compte twitter dédié au service consommateur, et imaginons qu’un consommateur l’utilise pour publier une réclamation du type » je suis insatisfait de la manière dont le responsable du rayon électroménager m’a traité hier dans le magasin M, il m’a manqué de respect et je souhaite le dénoncer, je commence par vous avertir sur votre compte avant d’aller plus loin « .
Le classificateur qui va automatiquement lire ce message pour en sortir plusieurs éléments qui serviront ensuite à déclencher des actions opérationnelles en conséquence :
- Langue : Français.
- Le lieu : Le Magasin M.
- Le moment : Date du jour.
- Le rayon concerné par la réclamation : Rayon électroménager.
- Responsable : Identifié.
- Axe de service concerné : Qualité de la relation client.
- Sentiment : Négatif.
- Expérience client : Expérience négative.
- Urgence : Haute.
- Risque de propagation : Haut.
Ces éléments pourraient ensuite alimenter automatiquement la création d’un ticket dans le système de suivi des réclamation et ce ticket pourrait être automatiquement orienté vers la personnes adaptée au traitement de ce type de cas dans l’organisation, un directeur de magasin, le service qualité, le service marketing, le service consommateur, etc.
Si le supermarché traite un volume de demandes et de réclamations par millier, la classification de textes dans ce cas lui fera économiser un temps précieux dans le processus de tri et de routage, ce qui baissera naturellement son temps de réponse aux consommateurs et augmentera sa capacité à réagir vite aux incidents.
En conclusion
L’analyse et la classification de contenus non structurés est devenue un outil puissant qui aide les entreprises de tous les secteurs à obtenir des informations utiles et exploitables à partir de leurs données brutes non structurées, et qui ne présentent pas toujours de liens visibles entre elles, comme les commentaires des réseau sociaux par exemple.
Elle vous fait gagner du temps, vous permet d’automatiser des tâches chronophages par nature, et augmente la productivité de vos équipes puisqu’elle les soulage des traitements ingrats pour leur permettre de se concentrer sur la production d’actions à forte valeur ajoutée dans la relation avec vos clients et avec votre environnement.
Si vous avez le sentiment que votre entreprise gagnerait à explorer ce sujet et à identifier des use cases concrets pour votre activité, nous serions heureux de vous accompagner comme nous le faisons déjà aujourd’hui avec plusieurs de nos clients dans le cadre de notre activité de data science appliquée au marketing, n’hésitez pas à nous consulter. Nous intervenons avec nos équipes internes en combinaison avec celles de notre filiale spécialisée en data science et en intelligence artificielle.
L’intelligence artificielle disrupte de manière réelle le marketing digital, l’analyse automatique de contenu non structuré et la création de processus automatisés d’intervention est un des domaines les plus avancés aujourd’hui que les marketeurs gagneraient à bien suivre 😉