Le Textmining, ou quand le texte devient une donnée essentielle
Le Textminingdésigne un ensemble de techniques d’analyse linguistique qui permettent l’exploitation de documents non structurés tels que les fichiers bureautiques Word, les documents de présentation Powerpoint, les emails, etc. Afin d'extraire de ces textes écrits les informations essentielles, le Text Mining s’appuie sur plusieurs procédés permettant de classifier et analyser ces documents, de manière à leur donner sens. Le Textmining permet ainsi de réaliser des synthèses d’informations, sur lesquelles peuvent s’appuyer les services de veille stratégique ou bien technologique, selon des axes de recherches au préalable définis.
L’on pourrait être tenté de croire que le Textmining est une technique d’exploration de données écrites récente, il n’en est rien. Pour l’anecdote, Hans Peter Luhn, alors chercheur chez IBM, publiait en 1957, avant Howard Dresner – lequel est présenté comme l’inventeur du terme de Business Intelligence en 1958 – une étude issue du Textmining. Ce travail passionnant, intitulé “The AutomaticCreation of Literature Abstracts”, mesure grâce à l’algorithme développé par un ordinateur IBM la fréquence des mots et leur distribution dans un article scientifique complet. Il en résulte une évaluation de la signification des mots et des phrases, ainsi qu’une mise en exergue des phrases les plus significatives en terme de sens. Celles-ci constituent ainsi un résumé pertinent de l’article.
De nos jours, le Textmining est notamment utilisé par Google, qui vient de déposer un brevet dont l’ambition est de proposer aux internautes de créer un contenu original issu d’une synthèse des articles les plus lus du web. Concrètement, un premier algorithme extrait la synthèse d’un article, “l’Extractive Summaries” comme le nomme Google, puis répète cette même opération avec d’autres articles complémentaires traitant du même sujet. Dans un second temps, un deuxième algorithme, “Abstractive Summaries”, établi un résumé global en paraphrasant les textes originaux. Ainsi, Google sera donc en mesure de répondre directement à la question d’un internaute, sans qu’il soit nécessaire de faire une recherche sur le web (“featuredsnippets”).
Traiter les données textuelles : un enjeu de taille pour les entreprises
À l’heure d’internet du Big Data, tirer profit des données structurées comme non structurées est un réel enjeu pour les organismes publics comme privés. Toutefois, si les données structurées sont relativement exploitables, les données non structurées, notamment des données textes issues du langage naturel, le sont nettement moins. Afin d’exploiter avec efficacité ces vastes données, qui représentent une véritable mine d’or pour les entreprises, ces dernières doivent avoir recours aux outils de Textmining, indispensables à l’analyse de données textuelles, comme l’explique en détails le site www.coheris.com.
Aujourd’hui, plusieurs outils permettent de traiter les données textuelles de manière à en extraire les principales informations à analyser et représenter ces dernières de manière simplifiée, sous forme de graphiques notamment. Ces outils sont en mesure de construire rapidement et de manière intelligente des tableaux de données tels que des tableaux lexicaux ou bien des tableaux de contingence. L’algorithme sur lequel repose un bon outil de Textmining doit entre autres être capable de mettre de côté les articles inutiles (tels que “il y a”, “un”, “dans”, etc) et se concentrer sur les mots d’intérêts, afin de livrer une synthèse pertinente et performante.
Lors de la phase de lemmanisation, qui a cours durant un processus de Textmining, l’outil doit réduire le vocabulaire de manière intuitive, en supprimant notamment les articles et mots de liaison et en regroupant les synonymes et verbes conjugués sous une même racine. Cette tâche, particulièrement fastidieuse, est réalisable grâce à des algorithmes de regroupements automatiques reposant sur des notions de similarité syntaxiques et sémantiques.
Pour les entreprises, les applications courantes du Textmining sont nombreuses. Par exemple, ce processus d’analyse de données non-structurées permet de détecter les données sensibles saisies dans les zones de texte libre des sites internet et/ou applications métiers (CRM, etc). Ces données sensibles, relatives aux races, aux opinions politiques ou encore aux religions, sont strictement encadrées par le RGPD, la nouvelle réglementation européenne concernant le traitement des données personnelles. Le Textmining est alors d’autant plus important que les sanctions en cas de non-respect de la vie privée des utilisateurs peuvent être considérables pour une entreprise.