Entre Datamining & IA : comment TKM vous aide à optimiser vos investissements R&D et Innovation 

Entre Datamining & IA : comment TKM vous aide à optimiser vos investissements R&D et Innovation 

L’enjeu de la veille technologique consiste désormais plus à trier et organiser les données et informations disponibles qu’à chercher de l’information.  

Brevets, publications scientifiques, projets de recherche, rapports institutionnels, sources web et actualités sectorielles s’accumulent et se diffusent à un rythme qui dépasse largement les capacités d’analyse humaines. 

Dans le domaine de la cosmétique, ce sont près de 2 000 nouveaux brevets qui sont publiés chaque mois à l’échelle mondiale, témoignant d’une innovation constante et d’une course intense à la nouveauté. 

De manière encore plus spectaculaire, l’intelligence artificielle connaît une explosion informationnelle : le sujet fait l’objet de plus de 50 000 articles scientifiques chaque mois.   

Cette surabondance d’informations, ou « infobésité », rend difficile la sélection, l’analyse et la hiérarchisation des contenus pertinents. Les équipe R&D et Innovation se retrouvent confrontés à un flux d’informations quasi ininterrompu. 

Dans ce contexte, l’enjeu n’est plus simplement l’accès à l’information, mais votre capacité à la trier, la structurer et l’analyser. Comment exploiter ces flux massifs de données hétérogènes sans passer ses journées à faire du tri manuel ? Comment éviter à la fois le bruit informationnel et les angles morts ? 

Contrairement à ce que le buzz peut laisser penser, l’IA générative n’a pas renversé la table des approches classiques de veille et elle n’est pas près de le faire pour au moins trois raisons :   

  1. Les méthodes classiques donnent de très bons résultats dans des contextes bien définis et avec des données structurées. Pour atteindre des performances similaires une IA générative aurait besoin de très gros modèles ou de réentrainements très couteux. 
  2. Les résultats des IA génératives sont très peu interprétables contrairement aux modèles classiques qui permettent une véritable explicabilité. 
  3. Les modèles classiques sont moins sujets aux variations et leurs résultats plus fiables contrairement aux IA génératives dont la robustesse peut poser problème (par exemple à cause des hallucinations). 


L’IA générative apporte donc bien des outils méthodologiques utiles et intéressants. Mais pour des raisons d’efficacité d’une part mais aussi du fait de son coût environnemental élevé* (sujet sur lequel TKM se mobilise pleinement) cet apport et cette contribution interviennent bien en complément des approches traditionnelles et non pour les remplacer.
 

La solution développée par TKM repose sur une démarche rigoureuse, articulée autour d’un mix équilibré associant, d’une part, l’exploitation de l’IA lorsqu’elle est réellement utile et, d’autre part, le datamining appliqué à la littérature technologique.  

Elle résulte de plus de 20 ans d’expertise reconnue combinée avec une véritable capacité d’innovation et d’intégration des technologies émergentes, non pour leur nouveauté, mais pour leur utilité. 

En s’appuyant sur des stratégies de recherche structurées, des systèmes experts et complétés, lorsque nécessaire, par des briques d’intelligence artificielle, les logiciels de veille et d’analyse de TKM transforment des données brutes volumineuses en informations exploitables par les équipes R&D, Propriété Industrielle et Innovation. 

Comprendre les fondamentaux : le datamining, socle de la veille technologique 

Le datamining, colonne vertébrale de la veille à grande échelle 

Depuis 25 ans, le datamining s’est imposé comme le fondement de la veille à grande échelle, et ce n’est pas un hasard. 

Le datamining regroupe l’ensemble des techniques permettant d’explorer, de nettoyer et de structurer de grands volumes de données afin d’en extraire des informations utiles. Dans le cas de la veille il s’agit de tendances, regroupements thématiques, émergences ou signaux faibles. 

Dans notre pratique quotidienne de la veille technologique depuis plus de 20 ans, un constat revient systématiquement : seule une fraction des informations collectées présente un réel intérêt stratégique. L’expérience montre que 10 à 15 % des documents collectés sont effectivement pertinents pour l’analyse et alimenter la prise de décision. 

Le rôle du datamining est précisément de gérer cet écart entre abondance et utilité. Il permet de : 

  • réduire le bruit informationnel sans sacrifier l’exhaustivité, 
  • éliminer les doublons, 
  • détecter les signaux faibles, 
  • structurer et organiser les données selon des critères pertinents, 
  • préparer un corpus exploitable pour l’analyse (humaine et outillée) 


Sans ce travail en amont, la veille devient rapidement ingérable, quelle que soit la puissance des outils utilisés. Les robots et autres crawlers vous font vite crouler sous des masses d’informations ingérables et feront se détourner vos équipes de R&D d’une tâche pourtant vitale de leur métier : se tenir en permanence informé de l’état de l’art, de la concurrence et de la liberté d’exploitation ! 
 

→ Lire aussi – Constituer un fonds documentaire : collecter les données utiles à sa veille technologique ou concurrentielle 

Les systèmes experts : la veille pilotée par le métier 

Les besoins d’information, la nature des données traitées et la finalité d’une équipe de R&D, d’une direction PI ou encore d’une équipe orientée Innovation et open innovation ne sont pas les mêmes.  

Les traitements qui sont utiles à chacun de ces besoins ne sont pas toujours les mêmes et les workflows parfois très différents. 

La structuration des données pour une entreprise de l’aéronautique n’a probablement aucun lien avec celle utile à une big pharma ou une PME de la mécanique de précision. 

A l’inverse des outils magiques et de « l’effet boîte noire » que déteste tout analyste qui se respecte, les systèmes experts constituent la première étape de mise en œuvre opérationnelle de la veille dans les logiciels de TKM. Ils reposent sur des bases issues du Datamining, c’est-à-dire sur des règles explicites et paramétrables par chaque type d’utilisateurs et d’utilisatrices : requêtes booléennes, opérateurs de proximité, filtres métiers, thésaurus et critères de classification, nettoyage et normalisation, etc… 

Cette approche est particulièrement efficace lorsque les critères de pertinence sont clairement et facilement identifiables : technologies ciblées, types de documents, acteurs à surveiller, zones géographiques, domaines d’application. 

Les systèmes experts permettent alors à moindre coût1 : 

  • de transformer une demande métier en stratégie de recherche formalisée, 
  • de garder une maîtrise totale des périmètres de veille, 
  • d’automatiser le tri, la classification et la diffusion de l’information. 


Ils offrent un excellent compromis entre performance, transparence et maîtrise des coûts, tout en restant facilement ajustables au fil des besoins.
 

Quand le datamining atteint ses limites : l’apport ciblé de l’IA de précision 

Toutes les opérations de traitement des données ne peuvent être aisément traitées uniquement par des règles explicites. Quand la détermination de ces règles devient complexe, alors le datamining atteint ses limites. 

Prenons un exemple ! Votre activité, votre secteur industriel ou votre propre stratégie repose sur le respect des critères environnementaux dans la conception et la fabrication de vos produits.  

Il est légitime, dès lors, que votre veille fasse ressortir en priorité et les porte à la connaissance de vos équipes de R&D toute innovation, produit ou brevet d’un tiers (un concurrent ou une startup) qui relèverait de ces critères « environnemental friendly ». 

Mais comment définir, et de manière parfaitement exhaustive, tous ces critères et les traduire dans un système de règles au sein de votre outil de veille ? Cela risque d’être compliqué, voire totalement impossible.  

Il existe mille et une façons de qualifier cette notion d’écoresponsabilité : biodégradable, sans chimie, moins énergivores, sans terres rares, meilleur bilan CO2, etc. 

C’est là que l’IA de précision et personnalisée que vous propose TKM va pouvoir jouer un rôle déterminant, avec des niveaux de précision inégalés par le datamining et/ou une IA générique. Les modèles seront alors entrainés sur des données historiques annotées en fonction du cas d’usage précis requis. 

Chez TKM, nous croyons résolument que dans ces cas complexes l’IA apporte une véritable alternative complémentaire aux systèmes experts issus du datamining. Elle ne les remplace pas, elle permet de les augmenter. 

Mais, nous sommes tout aussi convaincus que les IA génériques seules (ChatGPT en tête de proue) et la promesse magique d’un modèle donnant des résultats satisfaisants en trois clics et quatre likes, ne fonctionnement pas ! 

C’est pourquoi, l’IA de précision conçue et proposée par TKM repose sur des traitements basés à la fois sur des modèles d’intelligence artificielle génériques (classification, clustering, détection d’entités) et des modèles de langage de grande taille (LLM) mais qui intègrent également et avant tout une étape préalable de personnalisation. C’est alors qu’on pourra parler d’IA de précision (ou IA personnalisée) appliquée à la veille. 

Notre IA est entraînée sur des cas d’usage précis fournis par les utilisateurs, afin de compléter les systèmes experts lorsque ceux-ci atteignent leurs limites.  

TKM logiciel : une plateforme pensée pour le datamining de veille 

Un DataLake conçu pour l’exploration à 360° 

Au cœur de TKM Platform se trouve un DataLake alimenté par une diversité inégalée de sources : 

  • brevets mondiaux, 
  • publications scientifiques,
  • projets de recherche et projets collaboratifs, 
  • essais cliniques, 
  • sources web et actualités sectorielles, 
  • base de données mondiale des start-ups et PME Innovantes, 
  • base de données mondiale des acteurs académiques et des grands groupes. 


Les utilisateurs peuvent 
cibler précisément leur veille par thématique, source, auteur, organisme ou période. Des crawlers spécialisés permettent également de suivre des institutions ou des flux spécifiques, comme des agences de financement, des universités ou des centres de recherche. 

Cette richesse de données est essentielle pour déployer des stratégies de veille efficaces et détecter des signaux faibles à un stade précoce. Et ce, grâce à une habile combinaison entre systèmes experts et usage raisonné de l’IA. 

Un accompagnement humain pour structurer la démarche 

L’efficacité de la veille repose sur la performance des outils mais  encore davantage sur la méthode. C’est pourquoi TKM accompagne les organisations dès la phase amont : clarification des enjeux, formalisation d’un plan de veille, définition des stratégies de recherche. 

L’objectif est de traduire une problématique stratégique en dispositif opérationnel. 

Selon les besoins, les équipes de veille peuvent être autonomes ou être accompagnées (ponctuellement comme dans la durée) pour ajuster et enrichir les règles, les périmètres et les traitements. 

→ Lire aussi – TKM : une double expertise pour mettre l’IA au service de la Propriété Industrielle 

De la requête brute à l’information structurée : le datamining en action dans TKM Platform logiciel 

Étape 1 : formuler une stratégie de recherche précise et exhaustive 

Tout commence par l’expression du besoin. 

Sur TKM Platform, l’utilisateur est guidé pour passer d’une formulation en langage naturel à une stratégie de recherche structurée : hiérarchisation des mots-clés, opérateurs logiques, critères de filtrage. 

Cette étape est déterminante pour éviter deux pièges classiques : une collecte trop large générant un bruit excessif, ou une recherche trop restrictive créant des zones de silence. 

Étape 2 : nettoyer, enrichir et structurer les données collectées 

Une fois les données collectées, le datamining et l’IA entrent en jeu. 

Les algorithmes de filtrage, de classification et de tagging permettent de réduire le volume de documents non pertinents et de structurer les contenus selon des critères définis avec le client. Le cas échéant des modèles entrainés viendront compléter cette étape, là où le datamining touche ses limites. 

Étape 3 : organiser l’information pour l’analyse et la capitalisation 

Les informations pertinentes sont ensuite organisées dans des dossiers thématiques, alimentés automatiquement ou manuellement.  

Les critères de classement sont entièrement personnalisables : thématique, source, date, type d’acteur, etc.  

Cette structuration facilite l’analyse, la diffusion ciblée et la capitalisation des connaissances dans le temps. 

Dans le cas d’une veille concurrentielle, un des critères d’organisation des données pourra ainsi être la liste des concurrents, rangés par typologie d’acteurs ou par zones géographiques. 

Un usage combiné du datamining et de l’IA change la donne concrètement 

Aller à l’essentiel sans perdre la vision globale 

Le datamining permet de dégager rapidement les contenus à forte valeur ajoutée au sein de volumes importants. Les traitements avancés permettent également de produire des synthèses, des résumés ou de répondre à des questions posées en langage naturel à l’échelle d’un corpus structuré. 

Détecter des concepts implicites et des signaux faibles 

Lorsque les règles explicites ne suffisent plus, l’IA vient enrichir le datamining en détectant des concepts non formulés explicitement. Cette capacité est particulièrement utile pour repérer des signaux faibles ou des évolutions émergentes à la frontière de plusieurs domaines. 

Une veille structurée dans la durée 

Les projets de veille sont mis à jour selon une fréquence définie par les équipes de veille. Les destinataires de la veille disposent en permanence d’une information structurée, à jour et prête à être exploitée. Cette exploitation est durable car la capitalisation des connaissances et des interactions des équipes sur les corpus de données constitue un véritable actif immatériel au sein de l’entreprise. 

Cas concret : l’usage du datamining pour une veille collaborative 

Un acteur industriel de l’agroalimentaire souhaite surveiller au niveau international, avec un rythme mensuel, la littérature scientifique et technologique (principalement brevets, articles scientifiques et actualité des start-up) autour des sujets de la fermentation. 

Le flux est d’environ 800 nouveaux documents à trier par mois 

Malgré une stratégie de recherche peaufinée avec soin avec les équipes de TKM, le volume de documents inintéressants reste élevé (notre fameuse règle des 10 %) et nécessite un tri préalable avant de mettre en place une classification automatique (par type de levures et domaines d’application, notamment). 

À raison de 2 minutes par document, cela représente en théorie 3 jours de travail et uniquement pour nettoyer le flux entrant ! Et ceci, à effectuer tous les mois…  

Soit, presqu’un mois et demi de travail par an, pour un travail pénible et non créateur de valeur ajoutée stratégique. 

Et sur une seule thématique de veille quand cette entreprise doit en surveiller au moins une demi-douzaine d’autres… ! Ce n’est pas jouable. 

Dans ce cas précis, fort heureusement, les critères selon lesquels peuvent être distingués les informations intéressantes (les règles métier) sont assez simples, ainsi que les règles pour classifier les news dans le système interne de connaissances et de collaboration. 

Au prix de quelques jours de travail préparatoire un système basé sur ces règles a pu être déployé avec une précision jugée satisfaisante par l’industriel. 

La solution ainsi déployée basée exclusivement sur du datamining, rend un service tout à fait opérationnel, avec un coût minime2 de mise en œuvre. Les temps de production (de traitement) des opérations de tri, nettoyage, enrichissement et classification sont de l’ordre de quelques secondes à chaque arrivée de nouvelles informations. Et un système d’alerte permet ensuite selon le besoin de notifier les équipes R&D des news qui les intéressent en priorité. 

Cependant, il peut arriver qu’un système basé exclusivement sur des règles métier ne permette pas d’aboutir à une précision satisfaisante. 

C’est typiquement dans ce type de situation que le recours au Machine Learning et à l’entrainement d’une IA de précision devra être envisagé pour rendre, in fine, le même service (un traitement automatique et instantané) et alimenter utilement les équipes de R&D ou PI de l’entreprise. 

Conclusion 

Une veille technologique efficace repose avant tout sur un usage avisé, structuré des bons outils du datamining, pilotés par le métier et nourri d’une expertise humaine dans la veille. 

Sans cette colonne vertébrale, ni l’IA ni l’expertise humaine ne peuvent produire des analyses fiables et exploitables. 

En combinant datamining, systèmes experts et apports ciblés de l’intelligence artificielle, TKM propose une approche pragmatique et durable de la veille technologique, alignée sur les enjeux réels des organisations innovantes. 

Vos équipes ont besoin d’une veille plus lisible, mieux structurée et réellement exploitable ? Contactez l’équipe TKM pour découvrir comment mettre le datamining et l’IA personnalisée au service de vos décisions d’innovation. 

1. Économique et environnemental, car les technologies utilisées par les systèmes experts sont robustes et frugales.
2. Tant sur le plan économique qu’environnemental.

D'autres articles

Illustration stylisée d'un fonds documentaire.

Constituer un fonds documentaire : collecter les données utiles à sa veille technologique ou concurrentielle

La constitution d’un fonds documentaire est l’étape clé d’une veille technologique ou concurrentielle efficace. Malgré l’essor de l’IA générative, seule une approche méthodique, outillée et multi-sources permet de bâtir une base de connaissances fiable. TKM partage ici 20 ans d’expertise pour structurer et exploiter un fonds pertinent, enrichi et stratégique.

En savoir plus

SUIVEZ NOS ACTUALITÉS EN VOUS INSCRIVANT À LA NEWSLETTER

Optimized with PageSpeed Ninja