Evaluation par Philippe et commentaires par Sophie de la liste des syntgames nominaux de frŽquence supŽrieure au Žgale ˆ 50 extraits par Syntex ˆ partir du fichier transcript_epure.txt le 3 avril 2003 --------------------------------------------------------------------- I. Notation ------------ * : ok # : doute de Philippe (terme Žquivalent existant, entre parenthses dans la liste) _ : il manque un mot (je l'indique entre parenthses) ˆ gauche et/ou ˆ droite ? : on ne sait pas trop \ : pas un terme II. Comptages ------------- Notez que la catŽgorie # (doutes de Philippe) peut tre considŽrŽe comme valide par les terminologues (la preuve est que D. Bourigault les extrait). Ce sont des constructions en "N1 of N2" pour lesquelles il existe dans les textes une Žquivalent sŽmantique potentiel de forme "N2 N1". exemple :" region of this promoter " eq. " promoter region " N1 of N2 eq. N2 N1 Les rŽsultats peuvent donc avoir 2 lectures qui sont les suivantes: 1) les "N1 of N2" ne sont pas considŽrŽs comme des termes CAS et POURCENTAGES Nombre total de termes extraits par Syntex: 165 TYPE | Nbre |Pourcentage | ------------------------------------------------------- * : ok | 108 | 65,45 % | # : doute de Philippe | 12 | 7,2 % | _ : il manque un mot | 25 | 15,15 % | ? : on ne sait pas trop | 5 | 3,03 % | \ : pas un terme | 15 | 9,09 % | ------------------------------------------------------- 2) Les "N1 of N2" sont des termes (s'il existe un Žquivalent "N2 N1" dans le corpus) CAS et POURCENTAGES Nombre total de termes extraits par Syntex: 165 TYPE | Nbre |Pourcentage | ------------------------------------------------------- * + # : ok | 120 | 72,73 % | _ : il manque un mot | 25 | 15,15 % | ? : on ne sait pas trop | 5 | 3,03 % | \ : pas un terme | 15 | 9,09 % | ------------------------------------------------------- III. Conclusion --------------- En gŽnŽral: - bonne dŽtection des noms d'espce : "Bacillus subtilis", "E. coli", etc - bonne dŽtection des facteurs sigma : "sigma E", "sigma 29" - Philippe doute sur la pertinence des termes avec prŽposition. Mais a c'est une question de terminologue, ˆ mon avis. Cependant, il a reconnu que chaque fois qu'on avait un terme en [N1 of N2], il y existe le terme [N2N1] correspondant. - certains termes n'ont pas ŽtŽ reconnus en entier (il manque un mot avant ou aprs). Je les noterai: _termeProposŽ, termeProposŽ_ et _termeProposŽ_ Parfois, le terme complet est proposŽ plus bas (comme "acid sequence" et "Amino acid sequence" car il y a aussi "nucleic acid sequence") - certains termes n'ont pas paru pertinents ˆ Philippe mais c'est une question biologique. IV. La liste ------------ (ˆ gauche, le nombre d'occurences dans transcript-epure.txt) 1656 * Bacillus subtilis 1342 * B. subtilis 926 * RNA polymerase 821 * amino acid 671 * E. coli 636 * Escherichia coli 520 * sigma factors 387 * reading frames 357 * Open frame 356 * Open reading frame 338 * Wild type 290 * genes expression 281 * gene product 276 * nucleotide sequence 256 # expression of both genes ("gene expression") 253 * transcription factor 252 _ acid sequence ("amino" ou "nucleic") 243 * Amino acid sequences 243 * stationary phase 227 * mother cell 219 * base pair 200 # transcription of a gene ("gene transcription") 191 * promoter region 180 * start site 155 * structural gene 151 * N terminal 147 * primer extension 139 * alpha Amylase 139 * catabolite repression 137 * beta galactosidase 135 * regulatory protein 133 * sigma K 132 * DNA fragments 131 * sigma E 126 * Heat shock 124 * transcription start 124 * dependent promoter 119 * DNA sequences 117 ? two gene 115 \ Transcription from the promoter 114 \ start points (trop gŽnŽral...) 111 _ vitro transcription ("in") 109 * Sequence analysis 108 * molecular weights 106 * transcription initiation 102 * transcriptional fusion 101 \ Higher levels (trop gŽnŽral...) 100 _ positive bacterium -("[Gg]ram-") 99 * B. thuringiensis 99 * consensus sequence 98 ? Two promoter 97 * inverted repeat 95 * sigma H 94 * leader region 93 * lacZ fusions 91 ? S1 mapping 90 # expression of this operon ("operon expression") 88 _ factor sigma _ ("sigma") et ("35" ou "M") on trouve + souvent "sigma factor sigmaF" 87 _ subtilis chromosome ("Bacillus" ou "B.") 87 _ subtilis gene ("Bacillus" ou "B.") 86 Anti sigma _ ("factor") 86 \ deduced sequence (trop gŽnŽral...) 86 * RNA synthesis 85 _ extension analysis ("primer") 85 * signal transduction 84 * Bacillus thuringiensis 84 * tRNA gene 84 * promoter sequence 84 \ three genes 83 _ 35 regions ("-") 81 \ form of polymerase 81 # region of the gene ("gene region") 81 * Mutant strains 80 _ acids residues ("amino") 80 _ blot analyses ("Western" ou "Northern") 80 * transcriptional start 78 * sigma G 77 * secondary structure 75 * transcription start site 75 * vegetative growth 75 * sigma B 74 * sequences of genes 74 * amino acids residues 73 * % identity 73 # Initiation of sporulation ("sporulation initiation") 73 _ terminal domains ("N", "C" , "carboxy" ou "amino") 72 \ kDa protein 72 * Primer extension analyses 71 * transcription terminator 71 * initiation site 71 * exponential growth 71 \ form of RNA polymerase 70 * Core polymerase 70 ? two component 70 * Response regulators 69 * cloned gene 69 # transcription of the operons ("operon transcription") 68 * reporter genes 68 * gene clusters 67 * sigma subunits 67 * deduced amino acid sequence 67 * regulatory region 67 * Anti sigma factors 67 # sporulation in the _ subtilis ("Bacillus (B.) subtilis sporulation") 65 * regulatory gene 65 # gene of subtilis -gene of B. subtilis 65 * protein genes 64 # product of a gene ("gene product") 63 * sigma 29 63 * sequence similarity 62 * vegetative cells 62 * promoter activities 62 * deletion analysis 62 _ subtilis sigma _ ("B." ou "Bacillus") et ("factor") 62 * molecular mass 61 #sporulation in the Bacillus subtilis ("Bacillus (B.) subtilis sporulation") 61 * Transcription termination 61 * sporulation genes 60 # region of this promoter ("promoter region") 60 \ specific factor 60 \ lower level 60 E sigma _ ("H" ou "A" ou "B" ou "43"...) 60 \ other gene 59 * Spore formation 59 * B. subtilis chromosome 59 * growth phases 58 _ 10 region ("-") 58 * lacZ gene 57 * nuclease mapping 57 * crystal protein 57 _ polymerase sigma _ ("RNA") et ("factor", "43", "A", "37", "70", ..) 57 _ polymerase holoenzyme ("RNA") 56 * signal peptides 56 RNA polymerase sigma _ ("factor", "subunit", "A", "70", etc.) 56 * coding regions 56 * S1 nuclease mapping 55 _ subtilis cells ("B." ou "Bacillus") 55 * copy number 55 \ first gene 55 * B. megaterium 55 pro sigma _ ("K" ou "E) (on trouve aussi "pro-sigmaE" et "pro-sigmaK") 55 _ subtilis phage ("B." ou "Bacillus") 55 * gel electrophoresis 55 * Bacillus stearothermophilus 55 * Core RNA polymerase 55 * RNA polymerase holoenzyme 54 \ members of this family 54 * membrane protein 54 * binding sites 54 _ terminal sequence ("N", "amino", "3' ", "carboxy", "C", "NH2") 54 * Putative promoter 53 # gene of Bacillus subtilis (" Bacillus subtilis gene") 53 ? alpha subunit 53 * Northern analyses 53 * transcription unit 52 \ mutations in this gene 52 Phage phi _ ("29", "105") 52 * stem loop 52 \ Specific transcription 51 \ onset of sporulation 51 * specific sigma factor 51 * protein synthesis 51 * Bacillus megaterium 51 * wild type cells 51 bacterium Bacillus _ ("subtilis", "brevis", "megaterium", "anthracis", "thuringiensis" ...) region 58 lacZ gene 57 nucle