SYRETE
SYstème de REconnaissance de TErmes en corpus
Reconnaître des termes
La reconnaissance des termes est essentielle dans différentes
tâches : recherche documentaire, indexation, diffusion ciblée,
fouille de textes, construction d'ontologie, etc.
La reconnaissance des termes est difficile car les termes peuvent se présenter
sous différentes formes (singulier ou pluriel, verbe à l'infinitif
ou conjugué, autres variations syntaxiques, etc.). Dans des textes de mauvaise qualité des
erreurs lexicales peuvent être rencontrées.
Exemple
Le terme "fuite de pompe" peut être identifié dans
:
Il y a une fuite de pompe.
ou dans
La pompe fuit.
ou dans
Une fuite a été détectée sur la pompe n°1.
ou dans
La fuite de la pompe A est réparée.
Spécifications de la bibliothèque SYRETE
La bibliothèque SYRETE regroupe des programmes
écrits en C++. Elle permet de reconnaître des termes (simples, c'est-à-dire composés
d'un seul mot, ou composés, c'est-à-dire composés
de plusieurs mots) sous leurs différentes
variantes.
Ce traitement peut être réalisé selon différentes modalités :
- ponctuation
- accents
- casse (minuscules/majuscules)
- égalité-souple
La bibliothèque prend ses entrées dans des fichiers et produit
ses sorties dans le flot de sortie choisi par l'utilisateur.
ENTREE :
- liste des textes segmentés en phrases.
- liste des textes non segmentés en phrases.
- liste des termes à reconnaître.
- éventuellement une liste de mots fonctionnnels (en cas d'utilisation de l'égalité-souple).
SORTIE :
-
Dans le flot de sortie choisi par l'utilisateur.
Plusieurs formats de sortie sont prévus :
- affichage des textes avec les termes signalés entre crochets.
Exemple
Résultats de la reconnaissance des termes : "mesure de données" et "paramètre"
Lors de la mesure des [parametres], la [température] doit être comprise
entre 0 et 100 degrés centigrades. En dehors de ces limites, les [mesures
des données] ne sont plus fiables.
|
- concordancier.
Exemple
concordancier du terme : "mesure de données"
Fichier : ../txt/texte1
En dehors de ces limites, les [ mesures des données ] ne sont plus fiables.
Fichier : ../txt/texte2
pression ambiante. Lors de la [ mesure de ces donnees ] les conditions de securite
|
- affichage des variantes des termes (avec les fréquences associées).
Exemple
variantes du terme : "mesure de données"
((mesures des données, 1), (mesure de ces donnees, 1))
|
Présentation détaillée des modalités
La reconnaissance des termes par SYRETE dépend de différentes
modalités :
- Le programme est-il sensible à la ponctuation ou non ? voir le paramètre Ponctuation
- Est-il sensible aux accents ? voir le paramètre Accents
- Est-il sensible à la casse (majuscules / minuscules) ? voir le paramètre Casse
- Utilise-t-il l'égalité stricte ou l'égalité-souple ? voir le paramètre Egalité
- Combinaison de différentes modalités. Combinaison
Ponctuation
Si ce paramètre est valué à vrai, les textes à
traiter, ainsi que les termes, sont vus comme dépourvus de ponctuation.
Ce paramètre permet de s'affranchir des ponctuations fantaisistes
parfois rencontrées dans des corpus de mauvaise qualité.
Exemple :
Termes
Texte
Lors de la phase A, on effectue la mesure, des données. |
Modalités
ponctuation |
accents |
casse |
égalité-souple |
Vrai | Faux | Faux | Faux |
Résultat (les termes reconnus sont signalés entre crochets) :
Lors de la phase A, on effectue la [mesure, des données]. |
Commentaire
Le terme "mesure des données" est reconnu malgré la présence de la virgule.
Si le paramètre ponctuation est valué à faux, le terme n'est pas reconnu.
|
|
Accents
Lorsque ce paramètre est valué à vrai, les termes
et les textes sont traités comme s'ils étaient désaccentués.
Cette modalité permet de reconnaître des termes malgré les erreurs d'accentuation.
Exemple :
Termes
Texte
Lors de la validation des paramêtres, les parametres B et C ont été supprimés. |
Modalités
ponctuation |
accents |
casse |
égalité-souple |
Faux | Vrai | Faux | Faux |
Résultat (les termes reconnus sont signalés entre crochets) :
Lors de la validation des [paramêtres], les [parametres] B et C
ont été supprimés. |
Commentaire
Dans le premier cas le terme est reconnu malgré une mauvaise accentuation
de "paramètre".
Dans le second, le terme est reconnu alors qu'il n'est pas accentué.
|
|
Casse
Lorsque ce paramètre est valué à vrai, les termes
et les textes sont traités comme si leurs caractères capitales
étaient convertis en minuscules.
Ce traitement autorise l'identification des termes en début de phrase
(et, donc, commençant par une capitale).
Exemple :
Termes
Texte
"Mesure de la température
du milieu extérieur : LA MESURE effectuée
concorde avec les résultats théoriques."
|
Modalités
ponctuation |
accents |
casse |
égalité-souple |
Faux | Faux | Vrai | Faux |
Résultat (les termes reconnus sont signalés entre crochets) :
"[Mesure] de la température
du milieu extérieur : LA [MESURE] effectuée
concorde avec les résultats théoriques." |
Commentaire
Le terme "mesure" est reconnu deux fois dans la phrase ci-dessus,
dans le cas où le paramètre est valué à vrai.
|
|
L'opérateur d'égalité-souple
Lorsque ce paramètre est valué à vrai, le programme compare
les cha\EEnes de caractères à l'aide de l'opérateur d'égalité-souple.
Sinon il utilise l'égalité-stricte.
Définition de l'opérateur d'égalité-souple.
Exemple :
Termes
"ordinateur très puissant" |
Texte
"Il possédait des ordinateurs désormais
plus puissant." |
Modalités
ponctuation |
accents |
casse |
égalité-souple |
Faux | Faux | Faux | Vrai |
Résultat (les termes reconnus sont signalés entre crochets) :
"Il possédait des [ordinateurs désormais
plus puissant]." |
Commentaire
Si le paramètre égalité-souple est valué
à vrai, le programme retire les mots fonctionnels des termes et
du texte.
Ainsi le terme complexe se restreint à "ordinateur puissant"
et le texte à "possédait ordinateurs puissant"..
Le programme compare les termes suivants :
"ordinateur" !="ordinateurs" et "puissant" !="puissant".
Le terme "ordinateur très puissant" est reconnu dans
le texte.
|
|
Combinaison de différentes modalités
Certaines modalités qui se combinent ont de l'importance.
pour en savoir plus
Cette page a été réalisée par Julien Maisonneuve dans le cadre du stage de DEUG STPI 2ème année (Université de Nantes).
Dernière mise à jour le 10 juin 2002.