CADERIGE

 

 

Laboratoires impliqués

 

Le projet AÏDA de l'IRISA/INRIA Rennes

AÏDA (responsable J. Nicolas) est un projet de l'INRIA dont la problématique générale est de fournir une assistance intelligente à un utilisateur confronté à l'analyse de données complexes et de taille importante. Ce projet possède une bonne expérience tant en bioinformatique qu'en acquisition d'informations à partir de corpus textuels, et a déjà mené des travaux intégrant ces deux thématiques.

Au sein du projet, Aïda s'intéresse à l'annotation et à l'extraction d'information dans les textes, à l'analyse sémantico-conceptuelle des fragments de texte ainsi qu'à la modélisation des réseaux d'interaction géniques produits.

Le Laboratoire (LEIBNIZ-IMAG)

Le laboratoire Leibniz est fortement pluridisciplinaire. Son activité scientifique couvre un large domaine qui comprend aussi bien des thèmes fondamentaux que des thèmes fortement liés aux applications, aussi bien en mathématique qu'en informatique. Le département de Systèmes Cognitifs auquel est rattachée l'équipe Apprentissage Machine (responsable Mirta Gordon), regroupe des équipes travaillant sur l'étude, la modélisation et la mécanisation de diverses activités cognitives : représentation des connaissances, raisonnement, apprentissage et catégorisation, classification automatique de documents, langage ...

Le laboratoire Leibniz assure le pilotage du projet. Il fait profiter les autre spartenairesde son expérience en apprentissage et intervient sur les tâches d'annotation, de sélection de fragments et sur la construction de classes sémantiques.

Le Laboratoire d'Informatique de Paris-Nord (LIPN)

Au sein de ce laboratoire, l'équipe Représentation des Connaissances et Langage Naturel (RCLN) (resp. Daniel Kayser), composée de 10 enseignants-chercheurs permanents, travaille sur la sémantique des langues naturelles, la modélisation et l'exploitation des connaissances pouvant être extraites à partir des corpus de texte. Deux objectifs sont visés : la compréhension automatique de textes (compréhension à profondeur variable, compréhension limitée, extraction d'information) et l'acquisition de connaissances à partir de données textuelles (acquisition de ressources lexicales et/ou des connaissances du domaine, systèmes SynoTerm, ZELLIG et Terminae) avec un intérêt particulier pour la terminologie et les langues de spécialité.

Au sein du projet, le LIPN apporte ses compétences en Traitement Automatique des Langues et pour la construction d'ontologie (terminologie, classes de termes, schémas prédicatifs). Il participe également aux tâches d'extraction et d'annotation.

Le Laboratoire de Recherche en Informatique de l'Université d'Orsay (LRI)

L'équipe Inférence et Apprentissage (resp. M. Sebag) est composée d'une douzaine de chercheurs travaillant en apprentissage dont 4 sur l'application de l'apprentissage au traitement automatique de la langue et à l'extraction de connaissances dans les données textuelles. L'équipe I & A a été impliquée dans de nombreux projets en apprentissage portant sur l'acquisition de connaissances structurées en présence de connaissances du domaine (connaissances a priori) et à partir de textes ou non. L'équipe I & A a été impliquée dans la fouille de données, textuelles et non textuelle et dans la Programmation Logique Inductive depuis l'apparition de ces champs.

Les centres d'intérêts principaux et nécessaires au projet concernent la définition de méthodes de généralisation supervisées et non supervisées. L'apprentissage de connaissances structurées en présence ou non de connaissances du domaine en est une des thématiques principales. L'équipe I & A a développé ainsi de nombreuses applications de ces méthodes telles que l'apprentissage de dépendances dans les données (système Haiku), l'acquisition d'ontologies et de lexiques et l'extraction d'information dans les textes spécialisés (système Asium et Mo'K)

Le laboratoire de Mathématique, Informatique et Génome (MIG)

L'unité MIG a pour mission de développer des méthodes et des outils d'analyse des génomes in silico et mettre en place des systèmes d'information pour la génomique. Concrètement, le laboratoire travaille à la modélisation des systèmes promoteurs de transcription des gènes en s'appuyant largement sur l'analyse semi-automatique de corpus. Ce travail fait suite à la constitution d'une base de données génomiques pour les microbes, le système MICADO (Biaudet et al. 97).

Au sein de l'action, ce laboratoire qui a déjà des compétences reconnues dans le domaine de l'extraction des connaissances, a pour tâche de définir les concepts de base du domaine qui ne sont pas automatiquement apprenables et d'assurer, via le pilotage du post-doctorant, la validation des résultats biologiques obtenus par les outils.

Le laboratoire ENSAR-INRA de Génétique Animale

L'UMR INRA-ENSAR de Génétique Animale a pour thématique générale l'identification, chez la volaille, des gènes intervenant dans la variabilité d'un caractère complexe qui est l'état d'engraissement, et ce par différentes approches de génomique comme l'approche transcriptome ou encore la recherche de QTL par génotypage à grande échelle. Aussi, ce laboratoire est déjà sensibilisé à la nécessité d'intégrer un grand nombre d'informations de nature variées pour donner un sens biologique aux résultats expérimentaux qui émergeront des approches transcriptomes ou encore pour exploiter au mieux l'approche " gènes candidats " dans les zones QTL mises en évidence.

Au sein du projet, l'UMR intervient pour définir les règles d'annotation et pour valider les résultats (pour l'espèce Poule).

Dernière modification : 10/03/05, gb