Datamining and Artificial Intelligence
The challenge of technology monitoring now lies more in sorting and organizing available data and information than in searching for information.
Patents, scientific publications, research projects, institutional reports, web sources and industry news accumulate and spread at a rate that far exceeds human analytical capabilities.
Illustration in cosmetics
Dans le domaine de la cosmétique, ce sont près de 2 000 nouveaux brevets qui sont publiés chaque mois à l’échelle mondiale, témoignant d’une innovation constante et d’une course intense à la nouveauté.
De manière encore plus spectaculaire, l’intelligence artificielle connaît une explosion informationnelle : le sujet fait l’objet de plus de 50 000 articles scientifiques chaque mois.
Cette surabondance d’informations, ou « infobésité », rend difficile la sélection, l’analyse et la hiérarchisation des contenus pertinents. Les équipe R&D et Innovation se retrouvent confrontés à un flux d’informations quasi ininterrompu.
In this context, the challenge is no longer simply access to information, but your ability to sort, structure, and analyze it. How can you leverage these massive flows of heterogeneous data without spending your days manually sorting it? How can you avoid both informational noise and blind spots?
Contrary to what the hype might suggest, generative AI has not overturned traditional intelligence approaches and is not about to do so for at least three reasons:
- Traditional methods yield excellent results in well-defined contexts and with structured data. To achieve similar performance, generative AI would require very large models or very expensive retraining.
- The results of generative AI are very difficult to interpret, unlike classical models which allow for true explainability.
- Classical models are less subject to variations and their results are more reliable, unlike generative AI whose robustness can be problematic (for example, because of hallucinations).
L’IA générative apporte donc bien des outils méthodologiques utiles et intéressants. Mais pour des raisons d’efficacité d’une part mais aussi du fait de son coût environnemental élevé (sujet sur lequel TKM se mobilise pleinement) cet apport et cette contribution interviennent bien en complément des approches traditionnelles et non pour les remplacer.
La solution développée par TKM repose sur une démarche rigoureuse, articulée autour d’un mix équilibré associant, d’une part, l’exploitation de l’IA lorsqu’elle est réellement utile et, d’autre part, le datamining appliqué à la littérature technologique.
It results from more than 20 years of recognized expertise combined with a genuine capacity for innovation and integration of emerging technologies, not for their novelty, but for their usefulness.
By relying on structured search strategies, expert systems and complemented, when necessary, by artificial intelligence building blocks, TKM's monitoring and analysis software transforms large volumes of raw data into information usable by R&D, Industrial Property and Innovation teams.
Understanding the fundamentals: data mining, the foundation of technology monitoring
Data mining, the backbone of large-scale intelligence gathering
For 25 years, data mining has established itself as the foundation of large-scale intelligence gathering, and this is no coincidence.
Le datamining regroupe l’ensemble des techniques permettant d’explorer, de nettoyer et de structurer de grands volumes de données afin d’en extraire des informations utiles. Dans le cas de la veille il s’agit de tendances, regroupements thématiques, émergences ou signaux faibles.
In our daily practice of technology monitoring for over 20 years, one observation consistently emerges: only a fraction of the information collected has real strategic value. Experience shows that only 10 to 15% of the documents collected are actually relevant for analysis and informing decision-making.
Le rôle du datamining est précisément de gérer cet écart entre abondance et utilité. Il permet de :
- reduce informational noise without sacrificing comprehensiveness,
- eliminate duplicates,
- detect weak signals,
- structure and organize the data according to relevant criteria,
- prepare a usable corpus for analysis (human and computer-assisted)
Without this preliminary work, monitoring quickly becomes unmanageable, regardless of the power of the tools used. Robots and other crawlers quickly overwhelm you with masses of unmanageable information and will divert your R&D teams from a task that is nevertheless vital to their profession: staying constantly informed about the state of the art, the competition, and the freedom to operate!
→ Lire aussi – Constituer un fonds documentaire : collecter les données utiles à sa veille technologique ou concurrentielle
Expert systems: Business-driven intelligence
The information needs, the nature of the data processed and the purpose of an R&D team, an IP department or even an Innovation and open innovation oriented team are not the same.
The treatments that are useful for each of these needs are not always the same, and the workflows are sometimes very different.
The structuring of data for an aeronautics company probably has no connection with that useful to a big pharma or a precision mechanics SME.
A l’inverse des outils magiques et de « l’effet boîte noire » que déteste tout analyste qui se respecte, les systèmes experts constituent la première étape de mise en œuvre opérationnelle de la veille dans la plateforme TKM. Ils reposent sur des bases issues du Datamining, c’est-à-dire sur des règles explicites et paramétrables par chaque type d’utilisateurs et d’utilisatrices : requêtes booléennes, opérateurs de proximité, filtres métiers, thésaurus et critères de classification, nettoyage et normalisation, etc…
Cette approche est particulièrement efficace lorsque les critères de pertinence sont clairement et facilement identifiables : technologies ciblées, types de documents, acteurs à surveiller, zones géographiques, domaines d’application.
Expert systems then allow for a lower cost1 :
- to transform a business need into a formalized search strategy,
- to maintain complete control over the monitoring areas,
- to automate the sorting, classification and dissemination of information.
They offer an excellent compromise between performance, transparency and cost control, while remaining easily adjustable as needs change.
When data mining reaches its limits: the targeted contribution of precision AI
Not all data processing operations can be easily handled solely by explicit rules. When determining these rules becomes complex, then data mining reaches its limits.
Let's take an example!
Your business, your industrial sector or your own strategy is based on respecting environmental criteria in the design and manufacture of your products.
It is therefore legitimate for your monitoring to highlight as a priority and bring to the attention of your R&D teams any innovation, product or patent from a third party (a competitor or a startup) that would fall under these "environmentally friendly" criteria.
But how do you define, in a perfectly exhaustive way, all these criteria and translate them into a system of rules within your monitoring tool? This is likely to be complicated, or even totally impossible.
There are a thousand and one ways to describe this notion of eco-responsibility: biodegradable, chemical-free, less energy-intensive, rare earth-free, better CO2 balance, etc.
This is where TKM's precise and customized AI can play a crucial role, with levels of accuracy unmatched by data mining and/or generic AI. The models will then be trained on historical data annotated according to the specific use case required.

Chez TKM, nous croyons résolument que dans ces cas complexes l’IA apporte une véritable alternative complémentaire aux systèmes experts issus du datamining. Elle ne les remplace pas, elle permet de les augmenter.
But we are equally convinced that generic AI alone (ChatGPT being the prime example) and the magical promise of a model giving satisfactory results in three clicks and four likes, does not work!
C’est pourquoi, l’IA de précision conçue et proposée par TKM repose sur des traitements basés à la fois sur des modèles d’intelligence artificielle génériques (classification, clustering, détection d’entités) et des modèles de langage de grande taille (LLM) mais qui intègrent également et avant tout une étape préalable de personnalisation. C’est alors qu’on pourra parler d’IA de précision (ou IA personnalisée) appliquée à la veille.
Notre IA est entraînée sur des cas d’usage précis fournis par les utilisateurs, afin de compléter les systèmes experts lorsque ceux-ci atteignent leurs limites.
TKM software: a platform designed for competitive intelligence data mining
A “Data Lake” designed for 360° exploration
Au cœur de TKM Platform se trouve un DataLake alimenté par une diversité inégalée de sources :
- worldwide patents,
- scientific publications
- research projects and collaborative projects,
- clinical trials,
- web sources and industry news,
- global database of innovative startups and SMEs,
- global database of academic players and major groups.
Les utilisateurs peuvent cibler précisément leur veille par thématique, source, auteur, organisme ou période. Des crawlers spécialisés permettent également de suivre des institutions ou des flux spécifiques, comme des agences de financement, des universités ou des centres de recherche.
Cette richesse de données est essentielle pour déployer des stratégies de veille efficaces et détecter des signaux faibles à un stade précoce. Et ce, grâce à une habile combinaison entre systèmes experts et usage raisonné de l’IA.
Human support to structure the approach
The effectiveness of competitive intelligence relies on the performance of the tools, but even more so on the methodology. This is why TKM supports organizations from the initial stages: clarifying the issues, formalizing a competitive intelligence plan, and defining search strategies.
The objective is to translate a strategic problem into an operational system.
Depending on the needs, the monitoring teams can be autonomous or supported (on an ad hoc basis or over time) to adjust and enrich the rules, scopes and processes.
→ Lire aussi – TKM : une double expertise pour mettre l’IA au service de la Propriété Industrielle
Rethinking technology monitoring in the era of AI
From raw query to structured information: data mining in action in TKM Platform
Step 1: Formulate a precise and comprehensive search strategy
It all starts with expressing the need.
Sur TKM Platform, l’utilisateur est guidé pour passer d’une formulation en langage naturel à une stratégie de recherche structurée : hiérarchisation des mots-clés, opérateurs logiques, critères de filtrage. Cette étape est déterminante pour éviter deux pièges classiques : une collecte trop large générant un bruit excessif, ou une recherche trop restrictive créant des zones de silence.
Step 2: Clean, enrich, and structure the collected data
Once the data is collected, data mining and AI come into play.
Filtering, classification, and tagging algorithms reduce the volume of irrelevant documents and structure content according to criteria defined with the client. If necessary, trained models will complement this step, where data mining reaches its limits.
Step 3: Organize the information for analysis and capitalization
Les informations pertinentes sont ensuite organisées dans des dossiers thématiques, alimentés automatiquement ou manuellement. Les critères de classement sont entièrement personnalisables : thématique, source, date, type d’acteur, etc.
Cette structuration facilite l’analyse, la diffusion ciblée et la capitalisation des connaissances dans le temps. Dans le cas d’une veille concurrentielle, un des critères d’organisation des données pourra ainsi être la liste des concurrents, rangés par typologie d’acteurs ou par zones géographiques.
The combined use of data mining and AI is a real game changer
Getting to the heart of the matter without losing sight of the big picture
Le datamining permet de dégager rapidement les contenus à forte valeur ajoutée au sein de volumes importants. Les traitements avancés permettent également de produire des synthèses, des résumés ou de répondre à des questions posées en langage naturel à l’échelle d’un corpus structuré.
Detecting implicit concepts and weak signals
Lorsque les règles explicites ne suffisent plus, l’IA vient enrichir le datamining en détectant des concepts non formulés explicitement. Cette capacité est particulièrement utile pour repérer des signaux faibles ou des évolutions émergentes à la frontière de plusieurs domaines.
Structured monitoring over time
Les projets de veille sont mis à jour selon une fréquence définie par les équipes de veille. Les destinataires de la veille disposent en permanence d’une information structurée, à jour et prête à être exploitée. Cette exploitation est durable car la capitalisation des connaissances et des interactions des équipes sur les corpus de données constitue un véritable actif immatériel au sein de l’entreprise.
Concrete example: the use of data mining for collaborative monitoring
An industrial player in the agri-food sector wishes to monitor, on an international level and on a monthly basis, the scientific and technological literature (mainly patents, scientific articles and start-up news) around the subjects of fermentation.
Le flux est d’environ 800 nouveaux documents à trier par mois.
Despite a carefully refined search strategy with the TKM teams, the volume of uninteresting documents remains high (our famous 10% rule) and requires prior sorting before implementing an automatic classification (by type of yeast and areas of application, in particular).
À raison de 2 minutes par document, cela représente en théorie 3 jours de travail et uniquement pour nettoyer le flux entrant ! Et ceci, à effectuer tous les mois…
That is almost a month and a half of work per year, for arduous work that does not create strategic added value.
And focusing on just one monitoring topic when this company needs to monitor at least half a dozen others…! It's not feasible.
In this specific case, fortunately, the criteria by which interesting information can be distinguished (business rules) are quite simple, as are the rules for classifying news in the internal knowledge and collaboration system.
Au prix de quelques jours de travail préparatoire un système basé sur ces règles a pu être déployé avec une précision jugée satisfaisante par l’industriel.
La solution ainsi déployée basée exclusivement sur du datamining, rend un service tout à fait opérationnel, avec un coût minime2 de mise en œuvre. Les temps de production (de traitement) des opérations de tri, nettoyage, enrichissement et classification sont de l’ordre de quelques secondes à chaque arrivée de nouvelles informations. Et un système d’alerte permet ensuite selon le besoin de notifier les équipes R&D des news qui les intéressent en priorité.
Cependant, il peut arriver qu’un système basé exclusivement sur des règles métier ne permette pas d’aboutir à une précision satisfaisante.
C’est typiquement dans ce type de situation que le recours au Machine Learning et à l’entrainement d’une IA de précision devra être envisagé pour rendre, in fine, le même service (un traitement automatique et instantané) et alimenter utilement les équipes de R&D ou PI de l’entreprise.
Conclusion
Effective technology monitoring relies first and foremost on the judicious, structured use of the right data mining tools, driven by the business and fueled by human expertise in monitoring.
Without this backbone, neither AI nor human expertise can produce reliable and actionable analyses.
By combining data mining, expert systems and targeted contributions from artificial intelligence, TKM offers a pragmatic and sustainable approach to technology monitoring, aligned with the real challenges of innovative organizations.
Vos équipes ont besoin d’une veille plus lisible, mieux structurée et réellement exploitable ? Contactez l’équipe TKM pour découvrir comment mettre le datamining et l’IA personnalisée au service de vos décisions d’innovation.
2. Tant sur le plan économique qu’environnemental.


