Normalization is involved in many fields of information processing. It improves the performance of several applications, such as information retrieval or information extraction, and makes the construction of language resources more reliable. Normalization consists in standardizing each variant of a term or named entity into a unique form, and in this way restricts the impact of language variation. Our work applies to named entity normalization, and aims at optimizing fine-grained corpus analyses carried out by the TecKnowMetrix Company. Our approach mixes several methods, such as pattern matching, similarity metrics and endogenous techniques. Moreover, we place the user in the center of our normalization process, in order to obtain fully reliable data that fit his or her needs.
La mise en place du retour d'expérience dans une entreprise implique une réflexion sur le processus global qu'il constitue : de la remontée d'information à ses objectifs en passant par les types d'analyse que l'on souhaite en faire. Cette démarche nécessite que l'on s'intéresse à la façon de structurer l'information collectée car de cette structuration va dépendre l'exploitation de la base de données de REX. Par conséquent, pour favoriser l'efficacité et la facilité d'exploration des données, on utilise généralement des « champs contraints » en vis-à-vis de champs textuels non structurés. L'expert est ainsi invité à décrire les faits en langue naturelle et également à sélectionner dans des listes prédéfinies la ou les valeurs correspondant par exemple au type d'événement. Cette catégorisation des événements n'est pas triviale, or au dire d'experts « un événement mal catégorisé est un événement perdu », et un événement perdu est un obstacle à la bonne maîtrise des risques. Afin d'aider les experts face aux taxonomies souvent lourdes et complexes à utiliser dans le travail de catégorisation, Safety Data-CFH a développé un module de catégorisation automatique dynamique et totalement autonome intégré à l'application PLUS. Ce module a été testé par les experts R&D d'EDF sur des fiches d'événements issus des parcs de production nucléaire et hydraulique : nous présentons les résultats obtenus. SummaryImplementing feedback reporting in a company involves considering the global process that it represents: reporting of information, goals, or the types of analysis that experts wish to perform. This approach implies to examine the way reported information will be structured, since exploiting the feedback database will depend on this structuring. Therefore, in order to ease the efficiency and comfort of data exploration, "closed" data fields are generally used next to unstructured textual data fields. This way, experts have to describe facts in natural language, but also to select in predefined lists the appropriate value(s), for instance matching the type of event. Event categorization is not trivial, yet, as experts say, "a wrongly categorized event is a lost event", and a lost event stands in the way of proper risk management. In order to help experts facing taxonomies that can be dense and complex in their categorization task, Safety Data-CFH developed an automatic categorization module, which is dynamic and entirely autonomous, integrated to the application PLUS. This module was tested by EDF's R&D experts on event reports from nuclear and hydraulic power plants: we show here the achieved results.
RésuméDans le monde industriel ou des services, les procédures techniques sont massivement présentes. Ces documents, « lus pour faire », doivent guider le lecteur pour lui permettre de réussir sa tâche de façon optimale et sans erreur dès la première réalisation de la consigne. La lecture ne doit donc demander ni effort de compréhension ni interprétation. Or, des procédures « mal rédigées » (ambigües, incomplètes, …) et/ou une maintenance approximative de ces documents peuvent mener à une mauvaise réalisation de la procédure décrite et entraîner un risque pour les opérateurs qui utilisent ces procédures, ou une nonqualité du produit final. S'assurer de la qualité d'une procédure technique manuellement est difficile, voire impossible. C'est pourquoi Safety Data -CFH a conçu l'outil isChecker, qui permet de maîtriser la gestion de ces documents, en particulier lors de leur rédaction et de leur validation. isChecker détecte automatiquement tout écart à la norme de rédaction, ainsi que certains phénomènes linguistiques problématiques lorsqu'ils sont présents dans un document technique, réduisant ainsi le risque de mauvaise interprétation, et donc de mauvaise exécution de la consigne. Dans cet article, nous présentons la version 2 d'isChecker, et détaillons ses nouvelles fonctionnalités à travers son application dans le cadre du traitement d'un corpus de plus de 7000 procédures utilisées sur les chaînes de montage Airbus.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.