Entre la minería de datos y la IA: cómo TKM le ayuda a optimizar sus inversiones en I+D+i 

Una monitorización tecnológica eficaz se basa, ante todo, en el uso juicioso y estructurado de las herramientas de minería de datos adecuadas, impulsadas por las necesidades del negocio y respaldadas por la experiencia humana en materia de monitorización

Entre la minería de datos y la IA: cómo TKM le ayuda a optimizar sus inversiones en I+D+i 

Una monitorización tecnológica eficaz se basa, ante todo, en el uso juicioso y estructurado de las herramientas de minería de datos adecuadas, impulsadas por las necesidades del negocio y respaldadas por la experiencia humana en materia de monitorización

Minería de datos e inteligencia artificial

El desafío del monitoreo tecnológico hoy en día radica más en clasificar y organizar los datos y la información disponibles que en buscar información.  

Las patentes, las publicaciones científicas, los proyectos de investigación, los informes institucionales, las fuentes web y las noticias de la industria se acumulan y se difunden a un ritmo que supera con creces las capacidades analíticas humanas. 

Ilustración en cosmética

Dans le domaine de la cosmétique, ce sont près de 2 000 nouveaux brevets qui sont publiés chaque mois à l’échelle mondiale, témoignant d’une innovation constante et d’une course intense à la nouveauté. 

De manière encore plus spectaculaire, l’intelligence artificielle connaît une explosion informationnelle : le sujet fait l’objet de plus de 50 000 articles scientifiques chaque mois.   

Cette surabondance d’informations, ou « infobésité », rend difficile la sélection, l’analyse et la hiérarchisation des contenus pertinents. Les équipe R&D et Innovation se retrouvent confrontés à un flux d’informations quasi ininterrompu. 

En este contexto, el desafío ya no es solo el acceso a la información, sino también la capacidad de ordenarla, estructurarla y analizarla. ¿Cómo aprovechar estos flujos masivos de datos heterogéneos sin dedicarle días a ordenarlos manualmente? ¿Cómo evitar el ruido informativo y los puntos ciegos? 

Contrariamente a lo que podría sugerir la publicidad, la IA generativa no ha reemplazado a los enfoques de inteligencia tradicionales y no está a punto de hacerlo por al menos tres razones:   

  1. Los métodos tradicionales producen excelentes resultados en contextos bien definidos y con datos estructurados. Para lograr un rendimiento similar, la IA generativa requeriría modelos muy grandes o un reentrenamiento muy costoso. 
  2. Los resultados de la IA generativa son muy difíciles de interpretar, a diferencia de los modelos clásicos que permiten una verdadera explicabilidad. 
  3. Los modelos clásicos están menos sujetos a variaciones y sus resultados son más fiables, a diferencia de la IA generativa, cuya robustez puede ser problemática (por ejemplo, debido a las alucinaciones). 


L’IA générative apporte donc bien des outils méthodologiques utiles et intéressants. Mais pour des raisons d’efficacité d’une part mais aussi du fait de son coût environnemental élevé (sujet sur lequel TKM se mobilise pleinement) cet apport et cette contribution interviennent bien en complément des approches traditionnelles et non pour les remplacer.
 

La solution développée par TKM repose sur une démarche rigoureuse, articulée autour d’un mix équilibré associant, d’une part, l’exploitation de l’IA lorsqu’elle est réellement utile et, d’autre part, le datamining appliqué à la littérature technologique.  

Es el resultado de más de 20 años de experiencia reconocida combinada con una capacidad real de innovación e integración de tecnologías emergentes, no por su novedad, sino por su utilidad. 

Apoyándose en estrategias de búsqueda estructuradas, sistemas expertos y complementados, cuando es necesario, con bloques de inteligencia artificial, el software de monitorización y análisis de TKM transforma grandes volúmenes de datos brutos en información utilizable por los equipos de I+D, Propiedad Industrial e Innovación. 

Entendiendo los fundamentos: minería de datos, la base del monitoreo tecnológico 

 

La minería de datos, la columna vertebral de la recopilación de inteligencia a gran escala 

Durante 25 años, la minería de datos se ha consolidado como la base de la recopilación de inteligencia a gran escala, y esto no es casualidad. 

Le datamining regroupe l’ensemble des techniques permettant d’explorer, de nettoyer et de structurer de grands volumes de données afin d’en extraire des informations utiles. Dans le cas de la veille il s’agit de tendances, regroupements thématiques, émergences ou signaux faibles. 

En nuestra práctica diaria de monitoreo tecnológico durante más de 20 años, una observación surge constantemente: solo una fracción de la información recopilada tiene un valor estratégico real. La experiencia demuestra que solo entre el 10 % y el 15 % de los documentos recopilados son realmente relevantes para el análisis y la toma de decisiones. 

Le rôle du datamining est précisément de gérer cet écart entre abondance et utilité. Il permet de : 

  • reducir el ruido informativo sin sacrificar la exhaustividad, 
  • eliminar duplicados, 
  • detectar señales débiles, 
  • estructurar y organizar los datos según criterios pertinentes, 
  • preparar un corpus utilizable para el análisis (asistido por humanos y por computadora) 


Sin este trabajo preliminar, la monitorización se vuelve rápidamente inmanejable, independientemente de la potencia de las herramientas utilizadas. Los robots y otros rastreadores lo saturan rápidamente con una gran cantidad de información difícil de gestionar y distraerán a sus equipos de I+D de una tarea que, sin embargo, es vital para su profesión: mantenerse constantemente informados sobre el estado de la técnica, la competencia y la libertad de acción 
 

→ Lire aussi – Constituer un fonds documentaire : collecter les données utiles à sa veille technologique ou concurrentielle 

Sistemas expertos: inteligencia orientada al negocio 

Las necesidades de información, la naturaleza de los datos procesados ​​y el propósito de un equipo de I+D, un departamento de PI o incluso un equipo orientado a la innovación y la innovación abierta no son los mismos.  

Los tratamientos útiles para cada una de estas necesidades no siempre son los mismos y los flujos de trabajo a veces son muy diferentes. 

La estructuración de datos para una empresa aeronáutica probablemente no tenga ninguna relación con la que resulta útil para una gran farmacéutica o una pyme de mecánica de precisión. 

A l’inverse des outils magiques et de « l’effet boîte noire » que déteste tout analyste qui se respecte, les systèmes experts constituent la première étape de mise en œuvre opérationnelle de la veille dans la plateforme TKM. Ils reposent sur des bases issues du Datamining, c’est-à-dire sur des règles explicites et paramétrables par chaque type d’utilisateurs et d’utilisatrices : requêtes booléennes, opérateurs de proximité, filtres métiers, thésaurus et critères de classification, nettoyage et normalisation, etc… 

Cette approche est particulièrement efficace lorsque les critères de pertinence sont clairement et facilement identifiables : technologies ciblées, types de documents, acteurs à surveiller, zones géographiques, domaines d’application. 

Los sistemas expertos permiten entonces un menor coste1 : 

  • transformar una necesidad empresarial en una estrategia de búsqueda formalizada, 
  • para mantener un control completo sobre las áreas de monitoreo, 
  • para automatizar la clasificación, ordenamiento y difusión de información. 


Ofrecen un excelente compromiso entre rendimiento, transparencia y control de costes, a la vez que son fácilmente adaptables a medida que cambian las necesidades.
 

Cuando la minería de datos alcanza sus límites: la contribución específica de la IA de precisión 

No todas las operaciones de procesamiento de datos pueden gestionarse fácilmente únicamente con reglas explícitas. Cuando determinar estas reglas se vuelve complejo, la minería de datos alcanza sus límites. 

¡Tomemos un ejemplo! 

Su negocio, su sector industrial o su propia estrategia se basa en respetar criterios medioambientales en el diseño y fabricación de sus productos.  

Por tanto, es legítimo que su seguimiento destaque de forma prioritaria y llame la atención de sus equipos de I+D sobre cualquier innovación, producto o patente de un tercero (un competidor o una startup) que entre dentro de estos criterios "respetuosos con el medio ambiente". 

Pero ¿cómo definir, de forma exhaustiva, todos estos criterios y traducirlos en un sistema de reglas dentro de la herramienta de monitorización? Probablemente sea complicado, o incluso totalmente imposible.  

Hay mil y una maneras de describir esta noción de eco-responsabilidad: biodegradable, libre de químicos, menos intensivo en energía, libre de tierras raras, mejor balance de CO2, etc. 

Aquí es donde la IA precisa y personalizada de TKM puede desempeñar un papel crucial, con niveles de precisión inigualables por la minería de datos o la IA genérica. Los modelos se entrenarán con datos históricos anotados según el caso de uso específico requerido. 

Ejemplo de minería de datos de IA

Chez TKM, nous croyons résolument que dans ces cas complexes l’IA apporte une véritable alternative complémentaire aux systèmes experts issus du datamining. Elle ne les remplace pas, elle permet de les augmenter. 

Pero estamos igualmente convencidos de que la IA genérica por sí sola (ChatGPT es el principal ejemplo) y la promesa mágica de un modelo que dé resultados satisfactorios en tres clics y cuatro me gusta, ¡no funcionan! 

C’est pourquoi, l’IA de précision conçue et proposée par TKM repose sur des traitements basés à la fois sur des modèles d’intelligence artificielle génériques (classification, clustering, détection d’entités) et des modèles de langage de grande taille (LLM) mais qui intègrent également et avant tout une étape préalable de personnalisation. C’est alors qu’on pourra parler d’IA de précision (ou IA personnalisée) appliquée à la veille. 

Notre IA est entraînée sur des cas d’usage précis fournis par les utilisateurs, afin de compléter les systèmes experts lorsque ceux-ci atteignent leurs limites.  

Software TKM: una plataforma diseñada para la minería de datos de inteligencia competitiva 

 

Un “Lago de Datos” diseñado para una exploración de 360° 

Au cœur de TKM Platform se trouve un DataLake alimenté par une diversité inégalée de sources : 

  • patentes en todo el mundo, 
  • publicaciones científicas
  • proyectos de investigación y proyectos colaborativos, 
  • ensayos clínicos, 
  • fuentes web y noticias de la industria, 
  • base de datos global de empresas emergentes y pymes innovadoras, 
  • Base de datos global de actores académicos y grupos principales. 


Les utilisateurs peuvent 
cibler précisément leur veille par thématique, source, auteur, organisme ou période. Des crawlers spécialisés permettent également de suivre des institutions ou des flux spécifiques, comme des agences de financement, des universités ou des centres de recherche. 

Cette richesse de données est essentielle pour déployer des stratégies de veille efficaces et détecter des signaux faibles à un stade précoce. Et ce, grâce à une habile combinaison entre systèmes experts et usage raisonné de l’IA. 

 

Apoyo humano para estructurar el enfoque 

La eficacia de la inteligencia competitiva depende del rendimiento de las herramientas, pero aún más de la metodología. Por ello, TKM apoya a las organizaciones desde las etapas iniciales: aclarando los problemas, formalizando un plan de inteligencia competitiva y definiendo estrategias de búsqueda. 

El objetivo es traducir un problema estratégico en un sistema operativo. 

Dependiendo de las necesidades, los equipos de monitoreo pueden ser autónomos o recibir apoyo (de forma ad hoc o a lo largo del tiempo) para ajustar y enriquecer las reglas, alcances y procesos. 

→ Lire aussi – TKM : une double expertise pour mettre l’IA au service de la Propriété Industrielle 

Repensando la monitorización tecnológica en la era de la IA

Descargue el informe técnico de TKM y abra un mundo de posibilidades.

De la consulta sin procesar a la información estructurada: minería de datos en acción en la Plataforma TKM

 

Paso 1: Formular una estrategia de búsqueda precisa y completa 

Todo comienza con expresar la necesidad. 

Sur TKM Platform, l’utilisateur est guidé pour passer d’une formulation en langage naturel à une stratégie de recherche structurée : hiérarchisation des mots-clés, opérateurs logiques, critères de filtrage. Cette étape est déterminante pour éviter deux pièges classiques : une collecte trop large générant un bruit excessif, ou une recherche trop restrictive créant des zones de silence. 

Paso 2: Limpiar, enriquecer y estructurar los datos recopilados 

Una vez recopilados los datos, entran en juego la minería de datos y la inteligencia artificial. 

Los algoritmos de filtrado, clasificación y etiquetado reducen el volumen de documentos irrelevantes y estructuran el contenido según los criterios definidos con el cliente. De ser necesario, los modelos entrenados complementarán este paso, donde la minería de datos alcanza sus límites. 

Paso 3: Organizar la información para su análisis y capitalización 

Les informations pertinentes sont ensuite organisées dans des dossiers thématiques, alimentés automatiquement ou manuellement. Les critères de classement sont entièrement personnalisables : thématique, source, date, type d’acteur, etc.  

Cette structuration facilite l’analyse, la diffusion ciblée et la capitalisation des connaissances dans le temps. Dans le cas d’une veille concurrentielle, un des critères d’organisation des données pourra ainsi être la liste des concurrents, rangés par typologie d’acteurs ou par zones géographiques. 

El uso combinado de minería de datos e inteligencia artificial supone un verdadero cambio de paradigma 

 

Llegar al corazón del asunto sin perder de vista el panorama general 

Le datamining permet de dégager rapidement les contenus à forte valeur ajoutée au sein de volumes importants. Les traitements avancés permettent également de produire des synthèses, des résumés ou de répondre à des questions posées en langage naturel à l’échelle d’un corpus structuré. 

Detectar conceptos implícitos y señales débiles 

Lorsque les règles explicites ne suffisent plus, l’IA vient enrichir le datamining en détectant des concepts non formulés explicitement. Cette capacité est particulièrement utile pour repérer des signaux faibles ou des évolutions émergentes à la frontière de plusieurs domaines. 

Monitoreo estructurado a lo largo del tiempo 

Les projets de veille sont mis à jour selon une fréquence définie par les équipes de veille. Les destinataires de la veille disposent en permanence d’une information structurée, à jour et prête à être exploitée. Cette exploitation est durable car la capitalisation des connaissances et des interactions des équipes sur les corpus de données constitue un véritable actif immatériel au sein de l’entreprise. 

Ejemplo concreto: el uso de la minería de datos para el monitoreo colaborativo 

Un actor industrial del sector agroalimentario desea seguir, a nivel internacional y mensualmente, la literatura científica y tecnológica (principalmente patentes, artículos científicos y noticias de start-ups) en torno a los temas de la fermentación. 

Le flux est d’environ 800 nouveaux documents à trier par mois 

A pesar de una estrategia de búsqueda cuidadosamente refinada con los equipos de TKM, el volumen de documentos sin interés sigue siendo alto (nuestra famosa regla del 10%) y requiere una clasificación previa antes de implementar una clasificación automática (por tipo de levadura y áreas de aplicación, en particular). 

À raison de 2 minutes par document, cela représente en théorie 3 jours de travail et uniquement pour nettoyer le flux entrant ! Et ceci, à effectuer tous les mois…  

Esto supone casi un mes y medio de trabajo al año, para un trabajo arduo que no genera valor añadido estratégico. 

¡Y centrarse en un solo tema de monitoreo cuando esta empresa necesita monitorear al menos media docena más...! Es imposible. 

En este caso concreto, afortunadamente, los criterios mediante los cuales se puede distinguir la información interesante (reglas de negocio) son bastante simples, al igual que las reglas para clasificar las noticias en el sistema interno de conocimiento y colaboración. 

Au prix de quelques jours de travail préparatoire un système basé sur ces règles a pu être déployé avec une précision jugée satisfaisante par l’industriel. 

La solution ainsi déployée basée exclusivement sur du datamining, rend un service tout à fait opérationnel, avec un coût minime2 de mise en œuvre. Les temps de production (de traitement) des opérations de tri, nettoyage, enrichissement et classification sont de l’ordre de quelques secondes à chaque arrivée de nouvelles informations. Et un système d’alerte permet ensuite selon le besoin de notifier les équipes R&D des news qui les intéressent en priorité. 

Cependant, il peut arriver qu’un système basé exclusivement sur des règles métier ne permette pas d’aboutir à une précision satisfaisante. 

C’est typiquement dans ce type de situation que le recours au Machine Learning et à l’entrainement d’une IA de précision devra être envisagé pour rendre, in fine, le même service (un traitement automatique et instantané) et alimenter utilement les équipes de R&D ou PI de l’entreprise. 

Conclusión 

Una monitorización tecnológica eficaz se basa, ante todo, en el uso juicioso y estructurado de las herramientas de minería de datos adecuadas, impulsadas por el negocio y alimentadas por la experiencia humana en materia de monitorización. 

Sin esta columna vertebral, ni la IA ni la experiencia humana pueden producir análisis fiables y prácticos. 

Al combinar la minería de datos, los sistemas expertos y las contribuciones específicas de la inteligencia artificial, TKM ofrece un enfoque pragmático y sostenible para el monitoreo de la tecnología, alineado con los desafíos reales de las organizaciones innovadoras. 

Vos équipes ont besoin d’une veille plus lisible, mieux structurée et réellement exploitable ? Contactez l’équipe TKM pour découvrir comment mettre le datamining et l’IA personnalisée au service de vos décisions d’innovation. 

1. Économique et environnemental, car les technologies utilisées par les systèmes experts sont robustes et frugales.
2. Tant sur le plan économique qu’environnemental.
Optimizado con PageSpeed ​​Ninja