|
Bases de données |
||||||
Fichiers de MIG (et LRI)Voici les fichiers contenant les 932 phrases à partir desquels sont effectués les expériences actuelles. Les premier résultats concernant l'apprentissage de "classifiers" ont été publiés à CAP 2001 (DOC). Le corpus des 932 phrases, a été constitué à partir d'une requête "bacillus subtilis transcription" sur MedLine. Les phrases des résumés ramenés ont été filtrées automatiquement au LRI, à l'aide d'une liste de noms de gènes et de protéines de Bacillus subtilis et de leurs variantes lexicales fournies par MIG et complétée manuellement. Les phrases conservées devaient mentionner au moins deux noms de gène. Ces phrases ont été classées par MIG comme mentionnant ou non une interaction génique.Les exemples d'apprentissage ont été décrits à partir des phrases au moyen des mots significatifs et lemmatisés à l'aide du "shallow parser" de Xerox. Les mots "vides" tels que les déterminants ont été supprimés comme non significatifs à l'aide de la liste de 620 mots fournie par Patrice Bonhomme (LORIA) et révisée par nos soins en fonction de la tâche. Par exemple, le mot act qui appartenait à cette liste a été conservé comme potentiellement discriminant. Les attributs décrivant les exemples sont booléens dans le cas de C4.5 et de SVM (présence ou absence du mot). Autres fichiers ...
Liste des modifications effectuées sur le Link_Parser au 25/04/03 Travail effectué à partir du fichier "transcript_epure.txt" le 3 avril 2003
Fichiers de termes LIPNLe fichier suivant contient :
Fichiers IRISAL'étiquetage initial a été réalisé au LIPN a l'aide du tagger de Bril ; la liste des étiquettes utilisées par ce tagger se trouve à http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html. Les premières corrections apportées au tagging initial, et qui sont communes aux différentes versions de fichiers, sont les suivantes :
Par ailleurs, l'intégralité des modifications effectuées est expliquée dans le doc Word (rapport N. Lochet). Le corpus taggé résultant et les exemples extraits de ce corpus (avec ce tagging) sont dans les fichiers corpus.tar.gz et exemples.tar.gz Voici ensuite le corpus un peu plus annoté sémantiquement ; le tagging "sémantique" ajoute :
Cela donne alors les deux fichiers contenant le corpus : Enfin, l'ajout de l'étiquette ACIDA pour les acides aminés de la liste acidesamin, la prise en compte des synonymes de la liste syno, et l'ajout de l'étiquette ENZ pour le mot "enzyme". |
Dernière modification :