La classification de texte est le processus d’attribution automatique de balises, de Tags ou de catégories au texte en fonction de son contenu.
Il s’agit de l’une des tâches fondamentales du traitement du langage naturel (NLP) avec de vastes applications telles que l’analyse des sentiments, l’étiquetage des sujets, la détection du spam, la détection d’urgence dans le contenu, la détection d’intention, la détection automatique de langage etc.
Les données non structurées sous forme de texte sont partout : e-mails, chats, pages Web, commentaires sur les médias sociaux, tickets d’assistance, réponses aux sondages, etc.
Ces formes de contenus peuvent être une source extrêmement riche en informations et en insights utiles pour l’action marketing et pour le pilotage des décisions, l’extraction et le traitement de ces données peut cependant être long et difficile en raison de sa nature non structurée et non associée à travers des thèmes et des topics porteurs de sens commun et intelligibles pour l’esprit humain.
Les entreprises se tournent vers la classification de texte (Topic Classification) pour structurer ces contenus bruts et non liés, de manière rapide et rentable afin d’améliorer la prise de décision et d’automatiser les processus opérationnels.
Mais qu’est-ce que la classification de texte ? Comment fonctionne la classification de textes ? Et quelles sont les applications métier les plus courantes ? Nous essaierons de répondre à ces questions dans cet article.
La classification, catégorisation ou balisage de texte consiste à attribuer un ensemble de catégories prédéfinies à un contenu textuel libre. Les classificateurs de textes peuvent être utilisés pour organiser, structurer et classer toute forme de contenu brut, non structuré et non affecté à des unités de sens thématique naturellement intelligible.
La classification de textes peut être effectuée de deux manières différentes : classification manuelle ou automatique. Dans le premier cas, un annotateur humain interprète le contenu du texte et le classe en conséquence. Cette méthode peut fournir des résultats de qualité étant portée par l’intelligence humaine, mais elle est chronophage en temps et en ressources humaines, et est globalement très coûteuse lorsqu’il s’agit de traiter de gros volume de manière régulière.
Dans le second cas, qui nous concerne plus dans cet article, ce traitement est pris en charge par de l’intelligence artificielle et plus précisément par du machine learning. Ce dernier applique l’apprentissage automatique, le traitement du langage naturel et d’autres techniques pour classer automatiquement le texte de manière plus rapide et plus rentable.
Il existe de nombreuses approches de la classification automatique des textes, qui peuvent être regroupées en trois types de systèmes différents:
Les approches basées sur des règles classent le texte en groupes organisés en utilisant un ensemble de règles linguistiques et sémantiques. Ces systèmes sont compréhensibles par l’homme et peuvent être améliorés au fil du temps mais cette approche présente néanmoins certains inconvénients :
C’est pour cela que les systèmes basés sur le machine learning tendent à se développer beaucoup plus et à remplacer les systèmes dits Rule Based. Au lieu de s’appuyer sur des règles conçues manuellement, la classification de texte avec l’apprentissage automatique apprend à effectuer des classifications basées sur des observations passées.
En utilisant des exemples pré-étiquetés comme données d’apprentissage, un algorithme d’apprentissage automatique peut apprendre les différentes associations entre des morceaux de texte et définir qu’une sortie particulière (c’est-à-dire des Tags / balises / thèmes / Topics etc.) sont attendus pour une entrée particulière (c’est-à-dire du contenu brut non structuré, écrit en langage humain naturel).
Il existe plusieurs familles d’algorithme de classification de textes (SVP, Naive Bayes, CNN, RNN etc.), et les data-scientists choisissent la famille à appliquer selon plusieurs critères techniques et selon l’usage attendu de ce type de traitement.
La classification de textes peut être utilisée dans un très large éventail de contextes, tels que la classification de textes courts (commentaires, tweets, mails…) ou l’organisation de documents beaucoup plus volumineux (articles de journaux, fiches techniques de produits, documents promotionnels…).
Elle peut être généralisée à toutes les sources d’informations non structurées comme cité précédemment, ou plus directement orientée vers un canal spécifique comme les réseaux sociaux par exemple.
Elle peut être utilisée pour détecter automatiquement le langage des contenus, l’intention sémantique de leur auteur, ou le niveau d’urgence, elle peut également être utilisée pour segmenter ces contenus et les associer à des topics précis (prix, qualité, disponibilité, user expérience, service après-vente, fonctionnalités précises d’usage, etc.).
A titre d’exemple, à travers l’analyse des commentaires postés sur les réseaux sociaux de l’entreprise, il est possible de détecter et de classifier des éléments importants pour la mise en oeuvre des stratégies opérationnelles du marketing et de la communication digitale comme :
Dans la pratique un classificateur prends du texte “naturel” et identifie des éléments de sens permettant d’associer tout ou partie de ce texte à des thèmes précis, et il le fait à large échelle.
Prenons l’exemple d’un classificateur conçu pour un hypermarché et dont le rôle serait de prendre en charge les réclamations entrantes à travers le compte twitter dédié au service consommateur, et imaginons qu’un consommateur l’utilise pour publier une réclamation du type ” je suis insatisfait de la manière dont le responsable du rayon électroménager m’a traité hier dans le magasin M, il m’a manqué de respect et je souhaite le dénoncer, je commence par vous avertir sur votre compte avant d’aller plus loin “.
Le classificateur qui va automatiquement lire ce message pour en sortir plusieurs éléments qui serviront ensuite à déclencher des actions opérationnelles en conséquence :
Ces éléments pourraient ensuite alimenter automatiquement la création d’un ticket dans le système de suivi des réclamation et ce ticket pourrait être automatiquement orienté vers la personnes adaptée au traitement de ce type de cas dans l’organisation, un directeur de magasin, le service qualité, le service marketing, le service consommateur, etc.
Si le supermarché traite un volume de demandes et de réclamations par millier, la classification de textes dans ce cas lui fera économiser un temps précieux dans le processus de tri et de routage, ce qui baissera naturellement son temps de réponse aux consommateurs et augmentera sa capacité à réagir vite aux incidents.
L’analyse et la classification de contenus non structurés est devenue un outil puissant qui aide les entreprises de tous les secteurs à obtenir des informations utiles et exploitables à partir de leurs données brutes non structurées, et qui ne présentent pas toujours de liens visibles entre elles, comme les commentaires des réseau sociaux par exemple.
Elle vous fait gagner du temps, vous permet d’automatiser des tâches chronophages par nature, et augmente la productivité de vos équipes puisqu’elle les soulage des traitements ingrats pour leur permettre de se concentrer sur la production d’actions à forte valeur ajoutée dans la relation avec vos clients et avec votre environnement.
Si vous avez le sentiment que votre entreprise gagnerait à explorer ce sujet et à identifier des use cases concrets pour votre activité, nous serions heureux de vous accompagner comme nous le faisons déjà aujourd’hui avec plusieurs de nos clients dans le cadre de notre activité de data science appliquée au marketing, n’hésitez pas à nous consulter. Nous intervenons avec nos équipes internes en combinaison avec celles de notre filiale spécialisée en data science et en intelligence artificielle.
L’intelligence artificielle disrupte de manière réelle le marketing digital, l’analyse automatique de contenu non structuré et la création de processus automatisés d’intervention est un des domaines les plus avancés aujourd’hui que les marketeurs gagneraient à bien suivre 😉
En vous inscrivant à notre newsletter, vous allez recevoir nos dernières actualités et nos meilleures publications. Nous ne vous spammerons pas, c'est promis :-) Vos données ne seront en aucun cas vendues, transmises ou divulguées à des tiers.
Gozem accueille Othmane Bouhlal, le co-fondateur de Chauffeur-Privé en tant que conseiller stratégique. La startup…
Les entreprises Fintech du monde entier sont invitées à participer à un concours afin de…
Le fabricant d'emballages de thé SITI utilise la technologie HP Indigo pour produire des cartes…
Marketing Digital, Growth Hacking et Growth Marketing sont des concepts qui portent souvent à confusion.
Realme, la marque destinée aux jeunes, fête la Saint-Valentin en offrant des promotions sur ses…
La plateforme numérique Grohe X permettra aux visiteurs de créer leur propre expérience grâce à…