CADERIGE

 

 

Le projet Caderige

Catégorisation Automatique de Documents pour
l'Extraction de Réseaux d'Interactions GEniques


Financement :

Programme inter-EPST Bioinformatique
CNRS, INSERM, INRA, INRIA, Ministère de la Recherche

Calendrier :

CADERIGE s'est officiellement déroulé entre 2000 et la fin 2003. Cependant plusieurs partenaires continuent à travailler sur les outils et méthodes conçus et développés au cours du projet notamment dans le cadre du projet ExtraPloDocs.

Partenaires :

Projet AÏDA de l'IRISA, UMR 6074, Rennes.
Laboratoire Leibniz de l'IMAG, UMR 5522, Grenoble.
Laboratoire LIPN, équipe RCLN, UPRESA 7030, Université de Villetaneuse Paris 13.
Laboratoire LRI, équipe I&A, UMR 8623, Université d'Orsay Paris 11.
Laboratoire MIG, UR INRA 1077, Jouy en Josas.
Laboratoire INRA-ENSAR de Génétique Animale, UMR 95001307, Rennes.

Correspondant :

Gilles Bisson (Laboratoire LEIBNIZ-IMAG)
Email : gilles.bisson@imag.fr, Tél : (33) 04-76-57-46-03

Mots-clefs :

Bioinformatique, MedLine, Extraction d'information, Annotation XML
Réseaux d'interactions Géniques, Traitement automatique de la langue,
Catégorisation conceptuelle, Apprentissage automatique.

Résumé du projet

Maintenant que le séquençage n'est plus un point bloquant, les enjeux de la recherche se focalisent sur la compréhension du fonctionnement des génomes. Dans ce cadre, le projet CADERIGE (poster) vise un double objectif scientifique :

  • Sur le plan informatique, il s'agit de développer de nouvelles techniques d'extraction de connaissance dans les bases documentaires écrites en langage naturel.
  • Sur le plan biologique, il s'agit d'appliquer ces techniques dans le domaine de la génomique fonctionnelle et plus spécifiquement sur celui de la modélisation des interactions géniques.
Aujourd'hui on constate que la majeure partie de la connaissance biologique sur les interactions n'est pas décrite dans des banques de données mais uniquement sous la forme d'articles scientifiques. Pour en extraire des connaissances pertinentes, les approches de type "Recherche d'Information", même si elles offrent des performances intéressantes, restent insuffisantes dès lors qu'une compréhension profonde du texte est nécessaire. Il faut aller au dela et mettre en œuvre des méthodes "d'Extraction d'Information" plus complexes s'appuyant sur des ressources lexicales, syntaxiques et sémantiques spécifiques au domaine étudié.Ces ressources étant généralement difficiles et longues à acquérir, l'objectif de CADERIGE - et son aspect novateur - réside dans la définition et dans l'implémentation de techniques informatiques originales permettant une acquisition automatique ou semi-automatique de telles ressources à partir de corpus. Ainsi, CADERIGE vise à mettre en place une collaboration étroite entre des biologistes et des informaticiens respectivement spécialistes du traitement automatique de la langue, de l'extraction d'information et de l'apprentissage automatique

L'objectif du projet CADERIGE est de développer et de valider deux catégories d'outils qui permettront aux biologistes d'interroger la base Medline en langage naturel et aux bioinformaticiens d'acquérir, en amont, l'ensemble des connaissances nécessaires à cette consultation. La validation des résultats s'effectue principalement sur l'analyse de notices bibliographiques portant sur la transcription des gènes chez la bactérie modèle Bacillus subtilis.

Continuation ...

Le projet ExtraPloDocs, piloté par le LIPN, est une suite directe du projet CADERIGE : il vise également à extraire des information en génomique à partir de grandes bases textuelles. Plusieurs développements effectués dans d'ExtraPloDocs reposent sur des études entâmées dans le cadre de Caderige. Parallèlement l'outil d'annotation XML Cadixe continue à être développé au laboratoire Leibniz.

Dernière modification : 25/09/05, gb