		***************************
Ce fichier contient un inventaire des modifications apportŽes ˆ Link Parser dans le cadre de son intŽgration au projet Caderige (CatŽgorisation Automatique de Documents pour l'Extraction de RŽseaux d'Interactions GEniques).
		***************************

La grammaire de Link Parser  rŽunit le lexique et les rgles d'analyse: a chaque mot ou liste de mots correspond une description de son comportement syntaxique (ex: verbes transitifs vs. intransitifs). Link Parser n'opre pas un dŽcoupage et un Žtiquetage syntagmatiques mais identifie les dŽpendances syntaxiques qu'entretiennent les mots entre eux. 

Les modification que nous avons apportŽes sont LOCALES. Le typede la grammaire de Link Parser permet donc de modifier le comportement d'un mot ou d'ajouter une rgle pour un mot nouveau sans que l'analyse complte de la phrase ne s'en voie modifiŽe. Ceci nous a permis d'adapter efficacement LP au domaine de la gŽnomique.

1) Ajout de rgles au module de "morpho-guessing":
LP propose un module prŽalable ˆ l'analyse qui permet d'assigner une Žtiquette morpho-syntaxique ˆ un mot inconnu. Cette prŽdiction est est basŽe sur la morphologie du mot en question. Elle existait pour les mots en ``-ing'' (gŽrondif ->.g), ``ed'' (verbe ->.v), ``-ly'' (adverbe -> .e) et les pourcentages (``%'' -> .n).
Nous avons ajoutŽ:
- ``-ase'' -> nom (.n)
- ``-ic'' -> adjectif (.a)
et pensons ajouter :
- ``-ation'' -> nom (.n)

2) Ajout de mots nouveaux aux listes de mots
a1) liste de noms de gnes dŽjˆ fournie. Avec dŽfinition d'un comportement syntaxique Žquivalent ˆ celui des noms communs singuliers dŽnombrables.
a2) liste de termes correspondant ˆ des noms de gnes (on trouve les mmes sans espace dans la liste de genes).
sigma_A sigma_B sigma_C sigma_D sigma_E sigma_F sigma_G sigma_H sigma_L sigma_K sigma_X sigma_W sigma_43 sigma_37 sigma_28 sigma_29 sigma_27 sigma_54
Mme comportement.

b)in_vitro, in_vivo :
comportement syntaxique (CS): = north, south, northwest... (adjectifs)

c) noms CS: masse ou dŽnombrable (incidence sur la dŽtermination) type  ``regulation''
centrifugation
elution
ethanol
fractionation
phosphorylation
sporulation
synthase
synthesis


d)Adjectifs (ordinaires) type ``genetic'' 
amino
anaerobic
archaeal
autostimulatory
bicistronic
chromosomal
developmental
efferent
epigenetic
exponentional
extracellular
fermentative
flagellar
genomic
glycolytic
homolactic
homologous
hydrophobic
hyperthermophile
insecticidal
morphogenetic
multimeric
oxidative
palindromic
phylogenetic
positional
refractile
scalable
thermophilic

e) noms singuliers ordinaires (dŽnombrables) type "accent"
acceptor
acetyl
acyltransferase
alanine
aminotransferase
anabolism
antigen
antisense
antitermination
arginine
aspartate
autoregulation
bacterium
barnase
biosynthesis
butirosin
butyrate
carboxyphosphonoenolpyruvate
carcinogen
catabolism
catabolite
catalase
catalysis
chromatography
circuitry
citrate
codon
coenzyme
complementation
crosslinking
cysteine
cytochrome
cytokine
decarboxylase
dehydrogenase
derepression
desorption
dihydrolipoamide
electrophoresis
engulfment
ethylation
eubacterium
edema
forespore
fructose
galactose
genome
genus
helix
hexamer
hybridization
histidine
holoenzyme
homeostasis
homolog
homologue
homology
hydroperoxide
hydroxyl
hydroxylation
inactivation
irradiation
isoleucine
kinase
lipopolysaccharide
lipoprotein
locus
lysis
lysozyme
microarray
morphogenesis
mRNA
mutagenesis
mutant
natto
nattokinase
necrosis
nitrite
nuclease
nucleoside
nucleotide
oeni
operon
overexpression
oxidoreductase
peptide
pheromone
phenotype
phosphoacceptor
photoaffinity
phosphodiesterase
phosphokinase
phosphonomutase
plasmid
polyacrylamide
polymerase
polypeptide
prespore
proliferator
protease
proteolysis
purine
pyruvate
regulon
replication
repressor
ribonuclease
ribosome
ribozyme
secobarbital
septum
sigma
spectrometry
sporangium
stimulus
subunit
sulfide
sulfur
symptomatology
terminator
thioredoxin
titration
trans
transferase
transversion
tryptophan
upshock
valine

f) noms singuliers masse type ``agility''
gluconeogenesis
glycolysis
leucine
phosphofructokinase
propionate
sucrose
sulfhydryl


g) noms odinaires (dŽnombrables) pluriel en -s type ``actions''
antiterminators
auxotrophs
centisomes
characteristics
crosslinks
cytochromes
cytokines
eukaryotes
exotoxins
formers
homologs
homologues
hydroperoxides
inducers
lysates
macrophages
metabolites
monocytes
mRNAs
mutants
nucleotides
operons
phosphatases
plasmids
polymerases
primases
proliferators
purines
ribonucleases
stressors
subunits
supernatants
synthases
synthetases
transformants
triphosphates


h) pluriels autres qu'en -s
archaea
eubacteria
loci    (de locus)
sporangia
stimuli
            

i) verbes a part. passŽ transitifs
autoregulated.v
cannulated.v
initiated.v

j) ajout de mot : ``h'' (pour hour)
dans unitŽ de mesure type ``mile''

3) Changement de classe de mot
Certains mots ne prŽsentent pas le mme comportement syntaxique dans les textes de gŽnomique que dans la langue gŽnrale. On doit donc leur faire subir un changement de classe:
verbe transitif vers transitif-intransitif : initiate, initiates, initiated
nom dŽnombrable vers masse-dŽnombrable: synthesis, synthase
feature (nom dŽnombrable ordinaire) vers rgle spŽcifique existante pour ``reason'' permettant ``one common feature is that ...''


4) ajout de rgles pour le traitements des noms et adjectifs latins 
Autorisation d'un adjectif postposŽ pour la liste de noms latins de bactŽries (et abbrŽviations): dŽpendance crŽŽe: AP+
Bacillus
Lactobacillus
Halobacterium
Haloferax
Streptomyces
streptomyces
Escherichia
Borrelia
Chlamydia
Treponema
Lactococcus
Dianthus
Proteus
Mycoplasma
Staphylococcus
Thermotoga
Saccharomyces
H
B
S
E
M 

Autorisation d'une dŽpendance ˆ gauche vers un nom : dŽpendance crŽŽe: AP-
subtilis
rhamnosus
fermentum
salinarum
volcanii
megaterium
coelicolor
polymyxa
acetobutylicum
thuringiensis
coli
acidophilus
burgdorferi
aeolicus
spp.
pallidum
lactis
hygroscopicus
caryophyllus
mirabilis
anthracis
capricolum
pentosus
licheniformis
maritima
cerevisiae
delbruckii
sphaericus
mazei

5) Ajout de rgle : participes prŽsents employŽs comme adjectifs
Autorisation d'un adverbe antŽposŽ
exemple: a gene probably encoding the DNA-3-methyladenine ...

6)  Ajout de rgle : unitŽ de mesure genomique:
kb, Kb, bp, kbp, base_pairs, base-pair, base-pairs, kilobase_pairs
permet une prŽposition ˆ gauche:
This cluster of genes was mapped [at about 235 kb] from ...

7)  Ajout de rgles : upstream, downstream
.a: adjectifs -> ``the upstream sequence of the operon promoter were ...''
.e: adverbe -> autorise ``256 kb upstream from...''
note: on trouve aussi ``the region (ou sequence) upstream from ..'' : faire une classe particulire acceptant un adjectif postposŽ ?

8) Ajout de rgles : entrŽes particulires pour ``gene'' et ``genes''
permet article ou pas (expression of cat-86 gene) (fautes d'auteurs)
permet gene 57, 25 gene, genes 27 and 28
permet nom de gene entre () ex: we identified a novel gene ( dep ) responsible for ...