CADERIGE

Site Publique

Site Interne

Données

Documents

Logiciels

FTP
 

 

Bases de données

Fichiers de MIG (et LRI)

Voici les fichiers contenant les 932 phrases à partir desquels sont effectués les expériences actuelles. Les premier résultats concernant l'apprentissage de "classifiers" ont été publiés à CAP 2001 (DOC). Le corpus des 932 phrases, a été constitué à partir d'une requête "bacillus subtilis transcription" sur MedLine. Les phrases des résumés ramenés ont été filtrées automatiquement au LRI, à l'aide d'une liste de noms de gènes et de protéines de Bacillus subtilis et de leurs variantes lexicales fournies par MIG et complétée manuellement. Les phrases conservées devaient mentionner au moins deux noms de gène. Ces phrases ont été classées par MIG comme mentionnant ou non une interaction génique.

Les exemples d'apprentissage ont été décrits à partir des phrases au moyen des mots significatifs et lemmatisés à l'aide du "shallow parser" de Xerox. Les mots "vides" tels que les déterminants ont été supprimés comme non significatifs à l'aide de la liste de 620 mots fournie par Patrice Bonhomme (LORIA) et révisée par nos soins en fonction de la tâche. Par exemple, le mot act qui appartenait à cette liste a été conservé comme potentiellement discriminant. Les attributs décrivant les exemples sont booléens dans le cas de C4.5 et de SVM (présence ou absence du mot).

Autres fichiers ...

Liste des modifications effectuées sur le Link_Parser au 25/04/03

Travail effectué à partir du fichier "transcript_epure.txt" le 3 avril 2003

Fichiers de termes LIPN

Le fichier suivant contient :

  1. le corpus "transcript epure" balise (balise et _ (meme format que pour Stan, avec ou non les termes enchasses))
  2. la liste de candidats termes extraits de ce corpus (sans et avec les variantes)

Fichiers IRISA

L'étiquetage initial a été réalisé au LIPN a l'aide du tagger de Bril ; la liste des étiquettes utilisées par ce tagger se trouve à http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html. Les premières corrections apportées au tagging initial, et qui sont communes aux différentes versions de fichiers, sont les suivantes :

  1. le tagger a laissé les signes de ponctuation accolé aux mots, d'ou des problèmes d'étiquetage pour ces mots suivis de ".", "," et autres : c'est corrigé ici
  2. l'ensemble des mots composés d'origine latine (forme abregée également) - leur liste est dans le fichier "noms_bactéries" ; ils sont étiquetés NNLAT dans le corpus
  3. la correction "manuelle" sur un ensemble de mots problématiques et "typiques" du corpus (dont la liste est fournie dans le fichier liste_mot_spe5.txt)

Par ailleurs, l'intégralité des modifications effectuées est expliquée dans le doc Word (rapport N. Lochet). Le corpus taggé résultant et les exemples extraits de ce corpus (avec ce tagging) sont dans les fichiers corpus.tar.gz et exemples.tar.gz

Voici ensuite le corpus un peu plus annoté sémantiquement ; le tagging "sémantique" ajoute :

  1. l'étiquette GEN ajoutée aux noms de gènes à partir de la liste initiale du fichier listeGenes
  2. l'éetiquette JJ|GEN ajoutee aux mots composes d'un nom de gène et d'un adjectif et reliés par un tiret a partir de la liste initiale du fichier listeMotCompoSure. Il y a egalement deux listes en plus ou "manuellement" l'utilisateur dit s'il pense que l'occurrence est ou non a etiqueter pas GEN et JJ|GEN respectivement (si besoin, faites moi signe)

Cela donne alors les deux fichiers contenant le corpus :

Enfin, l'ajout de l'étiquette ACIDA pour les acides aminés de la liste acidesamin, la prise en compte des synonymes de la liste syno, et l'ajout de l'étiquette ENZ pour le mot "enzyme".

Dernière modification : 12/01/05, gb