Logiciel d’analyse sémantique : comment le choisir ?

Auteur : L'équipe
Temps de lecture : 13min
Publié le 18 novembre 2018

Vous souhaitez vous équiper d’un logiciel d’analyse sémantique. Seulement voilà : analyse sémantique, text mining, text analytics, social analytics… Les logiciels et technologies sont nombreux, vous ne vous y retrouvez pas et c’est bien compréhensible : c’est pourquoi nous vous offrons un tour d’horizon de ce marché.

1. Qu’est-ce qu’un logiciel d’analyse sémantique ?

Commençons par dire que le choix du terme “analyse sémantique” n’est pas tout à fait juste. Pour définir les technologies d’analyse des données textuelles, les anglophones utilisent de façon interchangeable les termes text mining et text analytics : même si scientifiquement ce n’est pas tout à fait juste, ça a le mérite d’être clair.

En France, on parle plutôt de logiciels d’analyse sémantique, parfois d’analyse linguistique ou lexicale…Mais c’est une erreur, car ces termes désignent des méthodes pour analyser le contenu d’une phrase. On devrait plutôt parler de logiciels d’analyse des données textuelles, mais c’est un autre débat.

A. Quel est le point commun entre ces logiciels ?

Ils sont tous basés sur des techniques de traitement automatique des langues (TAL). Et c’est à peu près leur seul point commun. Pour faire (très) simple, le TAL est une discipline informatique, qui vise à développer des programmes permettant de traiter le langage humain. Les applications sont larges (traduction, correction orthographique, reconnaissance de l’écriture manuscrite…). Les méthodes sont également diverses : nous y reviendrons dans un prochain article.

La fouille d’opinion est une des disciplines du TAL qu’intègrent largement les logiciels d’analyse sémantique : elle vise à détecter, en analysant un texte écrit, des émotions ou jugements exprimés. En anglais on parle d’opinion mining, ou sentiment analysis.

2. Les acteurs du marché de l’analyse sémantique

Maintenant que nous avons rapidement expliqué de quoi il s’agit, commençons par segmenter le marché, afin de comprendre les différences entre les acteurs.

Dans un rapport paru en décembre 2015, des analystes de Gartner (institut indépendant spécialisé dans l’analyse des marchés et notamment des marchés technologiques) distinguent quatre catégories d’acteurs.

A. Generalist analytics vendors

Ces grandes entreprises offrent des outil de datamining comprenant de l’analyse textuelle ; l’analyse du texte n’est qu’un pan de leur offre et leurs solutions, très techniques, nécessitent d’importants coûts de déploiement et d’intégration. Exemple : IBM, Oracle.

B. Text analytics workbench providers

Ces acteurs proposent des composants techniques dédiés à l’analyse du langage. Ils ne vendent pas de logiciels utilisables en tant que tels, mais des algorithmes qui peuvent être intégrés dans des solutions tierces. Exemple : Lexalytics, Monkeylearn…

C. Component providers

Ces fournisseurs ont développé des plugins clés en main permettant d’ajouter des fonctionnalités d’analyse textuelle à des logiciels existants. Exemple : plugin Bitext pour Salesforce.

D. Solution specialists

Les acteurs de cette dernière catégorie adressent un besoin métier précis ; l’analyse du texte n’est pas le coeur de leur offre, mais
bien un outil visant à obtenir un résultat.

 

3. Les critères de choix d’un logiciel d’analyse sémantique

Les solutions d’analyse sémantique répondent à de nombreux cas d’usage. Il est important de bien réfléchir à vos besoins avant de commencer à évaluer des solutions. Connaissez votre cas d’usage, avant de naviguer dans l’océan complexe des fournisseurs d’analyse sémantique ! (Boris Evelson, The Forrester Wave™: Big Data Text Analytics Platforms).

En effet, l’analyse sémantique est utilisée pour de nombreux usages, par exemple :

  • Classification d’e-mails pour routage automatique au service adéquat ;
  • Agents conversationnels ;
  • FAQ “intelligentes” avec des propositions automatiques de réponses ;
  • Analyse des interactions entre clients et agents (au sein d’un call center, par exemple) ;
  • Analyse prédictive (épidémiologie, prévention des fraudes…) ;
  • Analyse de la réputation d’une marque sur les réseaux sociaux (social analytics) ;
  • Analyse de la voix du client (VoC, pour Voice of the Customer) : extraction d’enseignements depuis les commentaires et feedbacks collectés dans le cadre de la relation client, notamment les enquêtes.

Certaines solutions génériques peuvent, potentiellement, répondre à tous ces cas d’usage, mais pour un coût très élevé, financier et humain : en effet, si vous choisissez de faire appel à ce type d’acteurs, vous devrez vous assurer de disposer en interne des ressources et des compétences adéquates. Une solution spécialisée, dédiée à un cas d’usage, sera souvent plus facile à mettre en place et à intégrer.

C’est ce que recommandent les analystes de Gartner aux entreprises qui souhaitent s’équiper d’un outil d’analyse sémantique :

  • Commencez avec des produits packagés, dédiés à un cas d’usage, avec des références dans votre secteur d’activité.
  • Choisissez des solutions qui “collent” à votre cas d’usage. Plusieurs cas d’usage peuvent nécessiter plusieurs outils, et il ne sera pas toujours possible de consolider les besoins de toute l’entreprise.

Par ailleurs, comme l’explique Seth Grimes, spécialiste international du traitement automatique des langues, sur son blog.
Les meilleurs algorithmes ne seront pas les mêmes, suivant que vous vouliez extraire de l’information depuis des tweets de 140 caractères, depuis des avis Tripadvisor, des emails, des conversations par chats ou des avis clients.

Commencez donc par analyser une source de données, avant de vous lancer dans un projet d’analyse de l’ensemble des données textuelles présentes dans votre entreprise. Le projet avancera plus vite, vous aurez moins de difficultés à benchmarker des prestataires, les coûts engagés seront moins importants et les résultats plus rapides à démontrer à votre direction. Mais il y a d’autres critères qui peuvent éclairer votre choix. Seth Grimes résume ses recommandations de la façon suivante :

“Partez de vos objectifs business. Identifiez de quels indicateurs, de quels enseignements, de quel accompagnement vous avez besoin. Personne n’a besoin d’un taux de fiabilité de 98,7% sur de l’analyse d’opinion, dans 48 langues, dans une douzaine de secteurs d’activités. Soyez raisonnable : laissez tomber les checklists utra-détaillées qui évaluent des fonctionnalités que vous n’utiliserez jamais. Différenciez l’essentiel de l’optionnel, et mettez de côté ce dont vous n’avez pas besoin. Evaluez ensuite les solutions qui répondent à vos besoins – y compris en effectuant un test (proof of concept), si possible – afin de confirmer, dans votre short-list, quelle solution peut transformer vos données en enseignements pertinents pour votre business, en accord avec votre budget et avec vos exigences en termes de performances”.

Insistons sur l’aspect multilingue qui est souvent un critère de choix. Posez-vous réellement la question : quelles langues ai-je besoin d’analyser ? Est-ce un critère plus important que le coût ou les fonctionnalités du logiciel ? Si votre société est présente dans 15 pays, mais que 90% de vos feedbacks sont en français et que vos équipes d’analystes ne sont pas multilingues… Alors non, le multilinguisme n’est pas un critère important !

Reprenons donc les principales questions à se poser avant de choisir une solution :

  • Quel est mon budget ?
  • Quelles sont les ressources humaines et compétences dont je dispose ?
  • Quel délai de mise en place du projet ?
  • Quels sont les cas d’usage qui correspondent à mon besoin ?
  • Quelles sont les sources de données qui m’importent ?
  • Quelles langues ai-je besoin d’analyser ?