CADERIGE

 

 

Site interne

(Accès réservé aux membres du projet)

 

Liste des emails des participants

Adeline Nazarenko <nazarenk@lipn.univ-paris13.fr>, Philippe Bessieres <philb@versailles.inra.fr>, Mohamed Ould Abdel Vetah <Mohamed.Ould-Abdel-Vetah@lri.fr>, Pascale Sébillot <sebillot@irisa.fr>, Claire Nedellec <Claire.Nedellec@lri.fr>, Michel Leborgne <Michel.Leborgne@irisa.fr>, Jacques Nicolas <jnicolas@irisa.fr>, ht@lipn.univ-paris13.fr, Sandrine Lagarrigue <lagarrig@roazhon.inra.fr>, Helene Chiapello <chiapell@versailles.inra.fr>, Mark Hoebeke <hoebeke@versailles.inra.fr>, Céline Rouveirol <celine@lri.fr>, stan <Stan.Matwin@lri.fr>, Gilles Bisson, <gilles.bisson@imag.fr>, Mirta Gordon <gordon@drfmc.ceng.cea.fr>

Rapport et appels d'offres

  • Précédent appel d'offre (juillet 2000). (DOC)
  • Appel d'offre en cours (juillet 2001). (DOC)
  • Rapports d'activité 2000-2001. (DOC)

Documents de travail

  • Annotations des textes (V1.0). (DOC)
  • Annotation des textes (V1.1). (RTF)

Bases de données

  • promed.txt.gz
  • geneprom.html.gz
  • Accès aux données (non publiques !) du LRI : http://www.lri.fr/~cn/BIO/

    Fichiers de termes LIPN

    Contient 1) le corpus "transcript epure" balise (balise et _ (meme format que pour Stan, avec ou non les termes enchasses)) 2) la liste de candidats termes extraits de ce corpus (sans et avec les variantes)

  • Base+termes.tar.gz

    Fichiers IRISA

    L'étiquetage initial a été réalisé au LIPN a l'aide du tagger de Bril ; la liste des étiquettes utilisées par ce tagger se trouve a l'Url http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html

    Les premieres corrections apportees a tagging initial, et qui sont communes aux differentes versions de fichiers, sont les suivantes :

    1- le tagger a laisse les signes de ponctuation accolé aux mots, d'ou pb d'etiquetage pour ces mots suivis de ".", "," et autres : corrige
    2- ensemble des mots composes d'origine latine (forme abregee egalement) - leur liste est dans le fichier "noms_bacteries" ; ils sont etiquetes NNLAT dans le corpus
    3- correction "manuelle" sur un ensemble de mots problematiques et "typiques" du corpus (dont la liste est fournie dans le fichier liste_mot_spe5.txt)

    L'integralite des modifs faites est expliquée dans le doc Word (rapport N. Lochet). Le corpus tagge résultant et les exemples extraits de ce corpus (avec ce tagging) sont dans les fichier corpus.tar.gz et exemples.tar.gz

  • corpus.tar.gz
  • exemples.tar.gz
  • rapportnlochet.doc

    Voici le corpus un peu plus annoté sémantiquement ; le tagging "semantique" ajoute :

    4- etiquette GEN ajoutee aux noms de genes a partir de la liste initiale du fichier listeGenes
    5- etiquette JJ|GEN ajoutee aux mots composes d'un nom de gene et d'un adjectif et relies par un tiret a partir de la liste initiale du fichier listeMotCompoSure. Il y a egalement deux listes en plus ou "manuellement" l'utilisateur dit s'il pense que l'occurrence est ou non a etiqueter pas GEN et JJ|GEN respectivement (si besoin, faites moi signe)

    Cela donne alors les deux fichiers contenant le corpus :

  • corpusGEN.tar.gz
  • exemplesGEN.tar.gz

    6- ajout de l'etiquette ACIDA pour les acides aminés de la liste acidesamin, prise en compte des synonymes de la liste syno, et ajout de l'etiquette ENZ pour le mot enzyme.

  • exemplesACIDA.tar.gz

Dernière modification : 10/03/05, gb