Enguehard, C., "Acquisition de terminologie à partir de gros corpus", Informatique & Langue Naturelle, ILN'93, Nantes, p.373-384, décembre 1993.
 
 

Acquisition de terminologie à partir de gros corpus

Chantal ENGUEHARD
Institut de Recherche en Informatique de Nantes
IUT, 3, rue du Maréchal Joffre
44041 Nantes Cedex 01 - France
tel : 40 30 60 52
fax : 40 30 60 53
email : enguehard@iut-nantes.univ-nantes.fr


Résumé
L'acquisition automatique de la terminologie d'un domaine est un axe de recherche important en traitement de la langue naturelle, particulièrement dans le cadre de l'indexation automatique de textes et pour la génération de textes où la connaissance de structures idiomatiques est essentielle.
Le système ANA (Apprentissage Naturel Automatique) constitue une nouvelle approche pour l'acquisition automatique de terminologie. Ce système est directement inspiré par l'apprentissage humain de la langue maternelle. D'une part, nous avons tenté de modéliser la capacité humaine à reconnaître des informations dont la morphologie varie alors que leur sémantique reste sensiblement la même. D'autre part, nous avons également représenté les processus d'induction et de généralisation.
 
 

Introduction

ANA (Apprentissage naturel Automatique) est un système de détermination automatique de terminologie pour la construction du thésaurus d'un domaine. Ce domaine est abordé à travers un gros corpus de textes bruts.
Dans la première partie nous exposons les motivations de cette recherche ainsi que le contexte de développement. Nous en déduisons des contraintes pour le système. Nous présentons alors le système ANA depuis les principes qui ont régi sa conception jusqu'à la mise en oeuvre informatique. Cette présentation est suivie de résultats obtenus sur divers corpus.
 

I - Problématique

I.1 - Motivations

Cette recherche s'inscrit dans la problématique plus générale des systèmes documentaires. Ces systèmes se chargent d'enregistrer des documents et de les retrouver en réponse à une requête. A chaque document correspond un ensemble de descripteurs, généralement des mots-clé. Le choix de ces descripteurs dans un thésaurus prédéfini garantit une indexation de qualité. Les mécanismes pour retrouver les documents utilisent les liens directs entre le thésaurus et les documents, et quelquefois les liens (de synonymie, d'hyperonymie, d'hyponymie) entre les éléments du thésaurus.

fig.1 - indexation d'un document D à l'aide d'un thésaurus T.
Les flèches représentent des liens entre les  éléments Mi du thésaurus


Quand il n'y a pas de thésaurus du domaine considéré, les descripteurs sont choisis librement, mais la qualité de l'indexation baisse fortement comme l'a montré BETTS [BETTS 91]. Or de nombreux domaines ne disposent pas de thésaurus préétabli, surtout les domaines concernant des sciences ou des techniques récentes. La constitution manuelle d'un thésaurus fait appel aux compétences d'ingénieurs documentalistes et de spécialistes du domaine. Il s'agit d'un processus lent et coûteux qui n'est généralement pas réalisé lors de la mise en place d'un système documentaire.

Ce problème a été abordé suivant différentes approches, généralement par le biais de l'indexation. Il s'agit alors de sélectionner des descripteurs dans le but d'indexer des textes. Nous distinguons les approches manuelles et automatiques. Ces dernières regroupent les systèmes statistiques, linguistiques et mixtes (regroupant des procédures statistiques et linguistiques).
Les approches manuelles sont les plus souvent utilisées bien qu'elles soient de très mauvaise qualité : les index sont incomplets et inconsistants (ils dépendent très fortement de la personne qui les détermine).
Les approches statistiques sélectionnent les termes en fonction de leur pouvoir discriminatoire entre les documents ou en se référant à une loi statistique. Ils sont peu fiables pour cause de bruit (voir [CHUR 89] par exemple).
Les approches linguistiques reposent principalement sur des patrons syntaxiques. Ces procédures sont plus ambitieuses, donnent d'excellents résultats, mais elles présentent l'inconvénient de fonctionner à l'aide de volumes de connaissances importants, dictionnaire et grammaire, qui doivent être préalablement décrits [EVAN 91].
Les systèmes mixtes utilisent à la fois des procédures linguistiques et statistiques et donnent de bons résultats. Dans cette catégorie nous trouvons quelques systèmes commercialisés. Citons TERMINO [DAVI 90] qui se base uniquement sur des patterns syntaxiques, et n'utilise donc pas de lexique, et SPIRIT [ANDR 83] qui apprend la syntaxe à partir des textes et n'utilise donc pas de  grammaire prédéfinie.

Je ne détaille pas plus cet état de l'art déjà réalisé de façon plus complète dans le chapitre I de [ENGU 92] (p.13-49).
 

I.2 - Contexte

Cette recherche fait partie du projet Retour d'EXpérience (REX) développé au Commissariat à l'Energie Atomique, centre de Cadarache. REX est une méthode de recueil de connaissance et un système de gestion documentaire. Il est destiné aux industries dont une partie du savoir est détenu par les intervenants et n'est pas consigné par écrit. Cette connaissance est dite volatile car elle disparaît quand les intervenants quittent l'entreprise.
Cette situation se présente pour la centrale à neutrons rapides Super-Phénix. De nombreuses personnes sont intervenues pendant la conception, la construction, le démarrage et le fonctionnement. Beaucoup ont atteint l'âge de la retraite.
REX intervient afin de ne pas perdre ce savoir qu'ils détiennent : recueil des connaissances sous forme d'interviews, indexation de ces interviews au sein du système informatique REX.
Cette indexation pose des problèmes particuliers à ce corpus et au domaine :
- les textes sont de très mauvaise qualité : fautes de syntaxe, de frappe, langage parlé, etc. (cf. figure 2)
- il n'existe aucun lexique du domaine.


figure 2 : extrait de corpus

Cette situation particulière interdit l'utilisation des méthodes mixtes précédemment citées : SPIRIT a besoin d'un dictionnaire dont nous ne disposons pas ; TERMINO utilise une grammaire, or nos textes ne sont pas écrits selon une syntaxe correcte et il apparaît impossible de les analyser suivant une grammaire prédéterminée.

Aucun système ne répondant à notre problème, nous avons donc choisi de développer un nouveau système d'acquisition automatique de terminologie.
 
 

I.3 - Spécifications

Voici quelques contraintes sur le processus de détermination de terminologie répondant à notre problème.
1 - Le processus ne requiert pas l'intervention de spécialistes pour un travail à grande échelle.
   - La terminologie n'est pas déterminée manuellement.
   - Le dictionnaire ou la grammaire ne sont pas déterminés manuellement.
   - Les textes ne sont pas corrigés (leur volume important interdit leur relecture).
2 - La correction d'une terminologie représente une part de travail manuel acceptable. Les résultats du
        processus se doivent d'être corrects dans une grande proportion mais non dans leur totalité.
3 - Le processus doit fonctionner quels que soient les textes, sans rencontrer de situation d'échec. Suivant la
        qualité des textes, la terminologie extraite sera plus ou moins correcte.
4 - Le processus est simple et robuste afin d'en faciliter la maintenance et de garantir son applicabilité sur tout
        corpus.
 

Rappelons que la fonctionnalité principale de ce processus est la détermination automatique d'éléments de terminologie appelés termes.
Un terme est un élément du lexique
 - spécifique du domaine
      exemple : "CABLE", "CHAMBRE D'IONISATION".
 - circonstanciel, indépendant du contexte
      exemple : "ANNEE 1988" est un terme, "ANNEE DERNIERE" n'en est pas un.
Pour plus de clarté, un terme est toujours écrit en lettres capitales.
 

II - Le système ANA (Apprentissage Naturel Automatique)

II.1 - Induction et opérateurs souples

Nos spécifications définissent un processus s'adaptant aux différents corpus à traiter. Nous nous sommes donc orientée vers la définition d'un système d'acquisition des connaissances par induction inspiré par l'apprentissage humain de la langue maternelle.
Rappelons que la capacité à manipuler la langue s'exprime très tôt chez le jeune enfant par la dénomination : il s'agit de nommer les objets qui l'entourent comme "banane", "de l'eau", "voiture". De nombreuses recherches ont montré que l'enfant apprend ces dénominations en généralisant la concomitance fréquente de l'objet (une banane) et du son produit par les adultes ("Veux-tu une banane ?", "C'est bon la banane.") [AIMA 81].

Nous exprimons cette induction par le postulat :
  “La cooccurrence fréquente d'événements est significative.”

A cette capacité de généralisation, il faut ajouter le don humain à manipuler des données vagues, par opposition à l'ordinateur qui est sans égal pour les calculs mais se montre trop rigide dans les domaines plus flous [STEI 73].
En langue naturelle, dans le cadre de la détermination de terminologie, la même notion peut être représentée sous différentes formes. Par exemple, dans "la pompe fuit", "fuite de la cuve et de la pompe" et "il y a une fuite à la pompe", il est toujours question d'une pompe qui fuit.
Des recherches se sont orientées vers la reconnaissance d'éléments de terminologie sous leurs différentes formes en utilisant les variations morphologiques (la marque du pluriel par exemple) et syntaxiques préalablement identifiées [COUR 90]. D'autres approches évitent la formalisation manuelle de ces variations par l'extraction automatique de transformations des éléments de terminologie à partir d'un ensemble de termes et de corpus bruts. Les règles ainsi établies sont ensuite généralisées et utilisées pour la reconnaissance de termes sous leur diverses morphologies ("la pompe qui fuit" et "fuite de la pompe" par exemple) [ROYA 93].

Pour résoudre ce problème nous avons doté le système ANA de quelques opérateurs souples qui lui permettent de reconnaître des termes sous plusieurs variations morphologiques. Ces opérateurs ne sont pas parfaits : les taux de rappel et de précision( ) ne sont pas égaux à 1. Cependant, les performances sont satisfaisantes  dans le cadre de notre application. Ils présentent l'avantage d'être simples et non spécifiques à une langue particulière. (Ces opérateurs sont définis en annexe).
 

II.2 - Architecture

Le système se divise en deux modules : 'familiarisation' et 'découverte' (fig. 3).

fig. 3 - Architecture

Le module de familiarisation extrait automatiquement quelques éléments de connaissance (sur la langue utilisée et le domaine abordé) sous la forme de quatre listes. Le module de découverte utilise ces quatre listes ainsi que le corpus de textes à étudier pour sélectionner la terminologie du domaine abordé.
 

Familiarisation

- Les mots fonctionnels sont, typiquement, des articles, des pronoms, quelques adverbes. Le système les sélectionne automatiquement grâce à une procédure entièrement statistique.
 Cette liste comprend une centaine d'éléments.
exemple {"a", "alors", "apres", "au", "auraient", "aussi", "autre", "avait", "avant", "avec", "avoir", "beaucoup", "c", "car", "ce", "cela", "celles", "certain", "ces", "cette", "ceux", "chacun", "chaque", "comme", "comment", "d", "dans", "de", "deja", "des", "dirais", "dire", "dit", "donc", "du", "elle", "en", "encore", "est", "et", "etait", "ete", "eux", "il", "ils", "j", "je", "l", "la", "le", "les", "lors", "lui", "mais", "me", "meme", "memes", "n", "ne", "non", "nous", "on", "ont", "par", "parce", "pas", "peu", "plus", "pour", "pouvait", "puis", "qu", "quand", "que", "quel", "qui", "s", "sait", "se", "son", "sont", "sur", "telle", "toujours", "tout", "toute", "toutes", "tres", "trop", "un", "une", "vous", "vraiment", "y"}

- Les mots fortement liés sont des chaînes de caractères comprenant des caractères blancs mais pourtant considérés comme des mots.
 Ces mots sont le résultat de la variation morphologique de certains mots fonctionnels.
 Ainsi, "de" devient "des" au pluriel, "de la" au féminin et "du" au singulier.
 Cette liste comprend généralement moins de 10 éléments qui sont ajoutés à la liste des mots fonctionnels.
exemple {"de l", "de la", "est en", "et la" "est le", "la on", "on a"}

- Les mots de schémas sont des mots fonctionnels structurant des syntagmes.
 Il y a généralement moins de 10 éléments dans cette liste.
exemple {"de", "de la", "des", "du" "en"}

- Le bootstrap est un ensemble de quelques termes du domaine dont il est question dans le corpus de textes. Une vingtaine d'éléments suffisent. Cependant le bootstrap peut être constitué de beaucoup plus d'éléments.
exemple {"AUTOMATE", "CENTRALE", "CHAUDIERE", "CIRCUIT", "COEUR", "COLLECTEUR", "CONCEPTION", "CREYS", "CUVE", "DALLE", "DEVERSOIR", "ECHANGEURS", "FREQUENCE", "GAZ", "HELIUM", "INSTRUMENTATION", "INTERCUVE", "PHASES", "PHENIX", "POMPES", "PRESSION", "PUISSANCE", "REACTEUR", "REFROIDISSEMENT", "REMPLISSAGE", "RETENTION", "SIPHON", "SODIUM", "SOUDURES", "STRUCTURES", "SURETE", "TEMPERATURE", "TUBES", "VIBRATIONS", "VIDANGE", "VIROLE", "VITESSE"}

Les procédures mises en oeuvre dans la phase de familiarisation sont détaillées dans [ENGU 92] (pages 110 à 128).
 

Découverte :

La phase de découverte constitue le coeur d'ANA. Nous exploitons le postulat énoncé précédemment pour étendre progressivement le nombre de termes du domaine.
A l'initialisation de cette phase, cet ensemble est limité au terme du bootstrap.

Le postulat (“La cooccurrence fréquente d'événements est significative.”) est interprété dans le cadre du traitement de la langue naturelle :
- Un événement est une occurrence d'un mot fonctionnel, ou d'un terme, ou d'un mot de schéma, ou d'un mot quelconque non répertorié dans ces trois listes.
- Deux événements sont cooccurrents s'ils sont séparés par W mots (non fonctionnels) ou moins.
(Cette notion de cooccurrence rejoint les 'collocations' définies comme des couples de mots fréquemment voisins [CHOU 88].)

ANA distingue trois types de cooccurrences d'événements qui s'excluent mutuellement :

- type expression : cooccurrence de deux termes
     exemple  ... "le" "COEUR" "du" "REACTEUR"  "est" "constitue" ...
- type candidat : cooccurrence d'un terme et d'un mot séparés par un mot de schéma.
     exemple  ... "la" "CUVE" "du" "barillet"  "est" "remplie" ...
- type expansion : cooccurrence d'un terme et d'un mot.
     exemple  ..."ici" "ensuite" "les" "STRUCTURES" "internes"  "se" ...
 

II.3 - Fonctionnement

Le logiciel informatique ANA a été développé à l'aide du langage Lisp et d'un système de gestion de base de données objets, sur une station Sun.

L'algorithme de découverte de nouveaux termes dans un texte fait apparaître quatre étapes. Il s'agit d'un processus incrémental.

Réduction

Le texte à traiter est nettoyé de tous les caractères de mise en page et de ponctuation. Il est converti en lettres minuscules. Le texte est finalement exprimé dans un alphabet limité aux 26 lettres latines minuscules, aux 10 chiffres arabes, et au caractère blanc.
 

Analyse-lexicale

Les termeq du bootstrap sont identifiés (grâce aux procédures d'égalité souple exposés en annexe). A ce stade, le texte est perçu comme une suite de termes et de mots inconnus.
 

Collection d'occurrences

Le texte est balayé de la gauche vers la droite. Toutes les cooccurrences d'événements des trois types 'expression' ou 'candidat' ou 'expansion' sont stockées dans des objets de la base de données.
 

Induction de nouveaux termes

Le postulat précise que les cooccurrences fréquentes sont significatives. Lors de l'induction de nouveaux termes, le système passe en revue les objets susceptibles de mémoriser plusieurs occurrences identiques. Si une forme figée (toujours en suivant les critères de l'égalité souple) est assez fréquente, le système crée un nouveau terme.

Pour les occurrences comprenant deux termes (type expression), la chaîne de caractères qualifiée en tant que nouveau terme inclut ces deux termes.
exemple 1 : occurrences de "COEUR" et de "REACTEUR" :
                    "COEUR" "du" "REACTEUR"
                    "COEUR" "du" "REACTEUR"
                    "REACTEUR" "dont" "le" "COEUR"
                    "COEUR" "du" "REACTEUR"
                    "COEUR" "de" "ce" "REACTEUR"
                    "COEUR" "le" "REACTEUR"
La chaîne de caractères "COEUR DU REACTEUR" apparaît fréquemment et devient un nouveau terme.

Pour les occurrences de type candidat comprenant un terme, un mot de schéma et un mot, c'est ce mot qui sera qualifié en tant que nouveau terme.
exemple 2 : occurrences de "CUVE" et d'un mot de schéma :
                    "CUVE" "du" "barillet"
                    "CUVE" "du" "barillet"
                    "CUVE" "du" "barillet"
Le mot "barillet" apparaît fréquemment dans la même configuration. Il devient un nouveau terme.

Enfin, dans les occurrences ne comprenant qu'un terme et aucun mot de schéma (type expansion), le nouveau terme sera une chaîne de caractères qui inclut le terme et un autre mot (non fonctionnel).
exemple 3 : occurrences de "STRUCTURES" sans autre terme ni mot de schéma
                    "ici" "ensuite" "les" "STRUCTURES" "internes"
                    "sans" "les" "STRUCTURES" "acier"
                    "conception" "des" "STRUCTURES" "internes"
                    "assembler" "les" "STRUCTURES" "externes"
                    "demonter" "les" "STRUCTURES" "internes"
                    "compter" "avec" "les" "STRUCTURES" "externes"
La chaîne de caractères "STRUCTURES INTERNES" apparaît fréquemment et devient un nouveau terme.

Ces nouveaux termes sont ajoutés au bootstrap et seront pris en compte pour le prochain traitement du texte en cours ou pour le traitement du texte suivant.
Le processus de traitement d'un texte s'arrête lorsqu'aucun nouveau terme n'apparaît pendant un cycle.
 

III - Quelques résultats

Toutes les expériences menées montrent que le processus s'arrête et converge sensiblement toujours vers le même ensemble de termes quel que soit le bootstrap d'initialisation.
 

1  Super-Phénix

Voici un extrait des résultats des expériences réalisées sur le corpus issu du retour d'expérience de Super-Phénix.
 Corpus de 120 000 mots, 3000 nouveaux termes.
 
 
BALLON POMPE ANALYSE DES SIGNAUX
BOUCHON LRG CALCUL A L AIDE DU CODE
CHAINE D ACQUISITION CHAMBRE A FISSION HAUTE TEMPERATURE
CORROSION INTERGRANULAIRE DESSUS DE LA DALLE
DIFFERENTS COMPOSANTS DISCRIMINATION
ENREGISTREMENT DE LA PUISSANCE MOYENNE DU BRUIT ESSAIS DE FATIGUE
EXAMENS ET CONTROLES EFFECTUES SUR LES PIECES DU MECANISME EXPANSION THERMIQUE
ETAT DE SURFACE ETUDES DES RUPTURES SECONDAIRES CONSECUTIVES
EVOLUTION THERMIQUE ET HYDRODYNAMIQUE D UN GENERATEUR DE VAPEUR DU TYPE  FOIS QUE C EST FAIT
GENERATEURS DE VAPEUR A TUBES DROITS VERTICAUX INDICATEUR DE NIVEAU DISCONTINU SONDE
INTERACTION SODIUM PARAFFINE MISE AU POINT EN AIR
ORIGINE PIVOTERIE
POMPE SECONDAIRE DE LA BOUCLE POSSIBILITES DE DETECTION
PROBLEMES D AEROSOLS PROTOTYPE DE SPX1
RAPPORT DE SURETE REACTEUR DU FUTUR
RICHARDSON SOUMIS A UNE DECOMPRESSION RAPIDE
THERMIQUE IMPORTANTE VERIFIER EN REACTEUR

Les spécialistes du domaine ont été satisfaits par environ 75 % des termes.
 

2  Commercialisation du miel

Nous avons également effectués des expériences sur d'autres corpus, notamment sur un rapport traitant de la commercialisation du miel.
 Corpus de 30 000 mots, 350 nouveaux termes.
 
ANALYSE ANALYSE POLLINIQUE
ANALYSE TRANSACTIONNELLE APICULTEURS DE PROVENCE
APPELLATIONS ASSOCIATION
BASSE QUALITE BRUYERE
CENTRALES D ACHAT CONCERNE LE MIEL
CREATION CRU
CREATION DE MARQUES ESPRIT DU CONSOMMATEUR
GARANTIE GOUT
GOUT DU MIEL GRANDES SURFACES
GESTION DU LINEAIRE INDICE
ORIGINE FLORALE MARCHE
MIEL DE TOURNESOL MONTAGNE
PETITS APICULTEURS PRIX MOYEN
POTS DE 250 QUANTITE
TRADITION DE PRODUCTION VENTE DIRECTE PAR LE PRODUCTEUR
STRATEGIE PUSH TONNES

L'évaluation par expert a conclu à un taux de 80 % de termes corrects.
 

3  Articles scientifiques en anglais

Voici des résultats obtenus sur des articles scientifiques anglais sur la détection acoustique. Corpus de 22 000 mots, 200 nouveaux termes.

La phase de découverte a utilisé les listes suivantes :
34 mots fonctionnels : {"a", "an", "and", "any", "are", "as", "at", "be", "between", "by", "can", "down", "each", etc.}
2 mots de schémas {"of", "of the"}
29 éléments de bootstrap.
 
ACOUSTIC BOILING NOISE DETECTION ACOUSTIC LEAK DETECTION
ACOUSTIC LEAK DETECTION SYSTEM ACOUSTIC SOURCE LOCATION
ACOUSTIC SURVEILLANCE ACOUSTIC SURVEILLANCE TECHNIQUES FOR SGU LEAK
ANALYSIS OF ACOUSTIC  ANALYSIS OF ACOUSTIC DATA FROM THE PFR SGU CONDITION MONITOR
ANALYSIS OF ACOUSTIC DATA FROM UK SODIUM WATER REACTION ARRAY PROCESSING
ATTENUATION ATTENUATION IN X CELL
ATTENUATION OF ACOUSTIC SIGNAL BACKGROUND NOISE IN A SGU
BEEN SET BEFORE THE PULSE
BEST ESTIMATED SOURCE LOCATION DIAMETER OF THE SUBASSEMBLY
DISTANCE TRAVELED IN CELL DROP VELOCITY
ESTIMATE ESTIMATED SOURCE LOCATION
LOCATION ANALYSIS MEASUREMENT
REACTOR BACKGROUND NOISE REACTOR CORE
SIGNAL AMPLITUDES SIGNAL ATTENUTION
SIGNAL PROCESSING SIGNAL PROCESSING TECHNIQUES
SIGNAL STRENGTH SIGNAL TO NOISE RATIO
TEMPERATURE COEFFICIENT OF VELOCITY ULTRASONIC PULSES
ULTRASONIC TRANSDUCER USING ULTRASONICS
VELOCITY OF SOUND VELOCITY OF SOUND IN SODIUM

Ces résultats n'ont pas pu être évalués selon la procédure utilisée habituellement.
 

Conclusion

Le système ANA réalise la détermination automatique de la terminologie d'un domaine à partir de gros corpus en répondant aux contraintes que nous avions données. Il fonctionne sur des textes de mauvaise qualité, sans grammaire ni dictionnaire et sans l'intervention de spécialistes pour du travail à grande échelle.
Une conséquence importante est l'indépendance du système vis à vis de la langue utilisée dans les textes à traiter.

Nous envisageons d'améliorer les résultats d'ANA.
En effet, le taux de satisfaction des spécialistes pourrait être nettement amélioré en effectuant une correction rapide des résultats. Ainsi, dans le deuxième groupe de résultats présentés, nous trouvons "FOIS QUE C EST FAIT" qui pourrait être supprimé. "ETUDES DES RUPTURES SECONDAIRES CONSECUTIVES" et "INDICATEUR DE NIVEAU DISCONTINU SONDE" pourraient être tronqués en "ETUDES DES RUPTURES SECONDAIRES" et "INDICATEUR DE NIVEAU DISCONTINU" qui sont parfaitement corrects.
On peut envisager une correction partiellement automatisée dans le cas de terminologies de volume important (comme c'est le cas pour Super-Phénix). Une grammaire automatiquement extraite à partir d'un sous-ensemble de termes corrects pourrait effectuer le tri entre les éléments acceptables ou non.
 

Bibliographie

[AIMA 81] Aimard, P., "Le langage et l'enfant", PUF, Le psychologue, 1981.
[ANDR 83] Andreewsky, A., Binquet, Debili, F., Fluhr, C., Ponderoux, "L'interrogation en langage naturel dans le système SPIRIT", JIIA, p.322-332, Paris, France, 1983.
[BETT 91] Betts, R., Marrable, D., "Free text vs controlled vocabulary, retrieval precision and recall over large databases", Online Inf. 91, Dec., London, p.153-165, 1991.
[CHOU 88] Choueka, Y., "Looking for needles in haystack or locating interesting collocational expressions in large textual databases", RIAO’88 Recherche d’Informations Assistée par Ordinateur, MIT, Cambridge, MA, p.609-623, March, 1988.
[CHUR 89] Church, K.W., Hanks, P., "Word association norms, mutual information, and lexicography", 27th Annual Meeting of the Association for Computational Linguistics, p.76-83, 1989.
[COUR 90] Courtois, B., "Un système de dictionnaires électroniques pour les mots simples du français", Langue Française, 87, Paris, Larousse, p. 11-22, 1990.
[DAVI 90] David, S., Plante, P., "De la nécessité d'une approche morpho-syntaxique en analyse de textes", revue ICO Québec, vol.2, n°3, p.140-155, sept., 1990.
[ENGU 92] Enguehard, C., "ANA, Apprentissage Naturel Automatique d'un réseau sémantique", Thèse de Doctorat de l'Université de Technologie de Compiègne, Décembre, 1992.
[EVAN 91] Evans, D.A., Ginther-Webster, K., Hart, M., Lefferts, R.G., Monarch, I.A., "Automatic indexing using NLP and first order thesauri", RIAO’91 Recherche d’Informations Assistée par Ordinateur, p.624-643, 1991.
[ROYA 93] Royauté, J., Jacquemin, C., "Indexation automatique et recherche des noms composés sous leurs différentes variations",  Informatique & Langue Naturelle - ILN 93, Nantes, Décembre, 1993.
[STEI 73]  Steinacker, I., "Aspects of computer text processing", Data Processing (London), 15 (2), p.86-88, 15 (3), p.148-153, 1973.
[WAGN 74] Wagner, R.A., Fischer, M.J., "The string-to-string correction problem", J. of the ACM, vol.21, n°1, p.168-173, Jan., 1974.