vendredi 6 juillet 2012

Annoter un gène, un génome, c'est quoi ?

[caption id="attachment_258" align="aligncenter" width="267"] cliquez sur l'image[/caption]

En réponse aux questions obtuses de JRobinss (ex Julien) sur le billet "conjecture orthologue", je vais expliquer le mot annotation en contexte de bioinformatique / génomique, et au passage montrer que dans la biologie moderne, les expériences fournissent des données incompréhensibles et inutiles à moins que de bons et nobles bioinformaticiens ne leur donnent du sens.

Au début, était le génome. On l'a séquencé. Qu'est-ce que ça veut dire ? Ca veut dire qu'on a lu la suite des nucléotides, ou bases, qui le constituent. Et ça nous apprend quoi ? En première approximation, rien. Pour expliquer plus avant, nous allons plonger à corps perdu dans les analogies. Les analogies sont de mauvais guides pour le raisonnement, mais parfois une bonne manière d'expliquer (sauf quand c'est moi, mais c'est mon blog).

Alors un génome est une suite de bases comme du texte écrit est une suite de lettres. Ou d'idéogrammes, ça dépend comment c'est écrit. Prenons justement l'exemple des idéogrammes. Supposons que vous ne lisiez pas le chinois (une supposition peu risquée pour la plupart de mes lecteurs je pense), et qu'on vous offre l'oeuvre intégrale de Confucius en version originale. Si vous parcourez toutes les pages, et regardez tous les caractères, vous aurez d'une certaine manière "lu" Confucius. Mais on est d'accord que ça ne vous aura pas apporté grand-chose. Si je vous montre la séquence complète du génome humain, ça sera à-peu-près pareil.

Bien sûr on ne sait pas rien du génome, alors disons que vous avez pris un an de cours de chinois. Vous commencez à reconnaître des caractères ici et là, vous pouvez lire une phrase simple, vous reconnaissez la structure. Mais le plus gros ne fait toujours pas sens.

Alors ça c'est trop simple, vous savez que dans le livre tous les caractères font sens, et sont utiles à la compréhension du tout. Dans un génome, vous ne savez pas où sont les gènes, les séquences régulatrices, et les morceaux qui ne font rien. Donc on va compliquer l'analogie. Maintenant on va recoder Confucius en Unicode, et ajouter à des endroits au hasard (y compris donc au milieu des phrases) des séries de caractères alphanumériques aléatoires.

Je vous donne ceci, et votre mission est de : trouver les codes correspondant à des caractères chinois, les décoder, comprendre le sens de ces caractères (qui n'aura pas toujours une traduction française non ambigue), comprendre le sens des phrases qu'ils composent, et finalement comprendre l'oeuvre de Confucius. Facile.

Eh bien annoter un génome, c'est ça. On doit trouver les éléments fonctionnels (gènes - qui peuvent être coupés en morceaux, séquences régulatrices des gènes, etc), définir au moins d'une certaine manière ce qu'ils font (leur fonction), et si possible définir la façon dont ces éléments fonctionnent ensemble pour faire de la biologie, une cellule, un organisme.

Comme le programme complet est très ambitieux, et franchement pas faisable en l'état de nos connaissances (on est en 2ème année de chinois là), on se focalise généralement sur deux objectifs :

  • Définir les éléments fonctionnels du génome ; pour les gènes codant pour des protéines c'est presque facile, pour le reste on galère encore pas mal mais on progresse.

  • Définir la fonction au moins des gènes à un niveau simple, genre "c'est une enzyme impliquée dans la digestion". C'est de ce type-là d'annotation qu'on causait dans le billet précédent sur les orthologues. La question était donc de voir si on avait annoté les orthologues avec des fonctions similaires, et on trouvé trouvait surtout que les annotations dépendaient de la personne qui avait fait l'étude.


Je pousse mon analogie un peu loin, là, mais disons que si deux groupes d'étudiants "annotent" comme ceci deux versions différentes de Confucius (en mandarin et en cantonais, allez), et qu'ils ont étudié avec des profs différents et qu'ils ont des intérêts différents, on aura peut-être des traductions plus similaires entre chapitres d'une même version, qu'entre chapitres correspondant des deux versions, non pas parce que les textes sont vraiment plus similaires, mais parce qu'ils se focalisent sur les mêmes ensembles limités de mots, et font les mêmes choix lorsque c'est ambigu. (Pour que l'analogie marche vraiment faudrait des chapitres dupliqués qui ont presque mais pas tout-à-fait le même sens, mais ça devient vicieux.)

Bon j'espère que c'est plus clair, sinon enguelez-moi dans les commentaires. En tous cas, vous pouvez constater que la biologie c'est bien compliqué, allez, et c'est pour ça qu'en même temps que lire une séquence d'ADN devient de plus en plus facile, la comprendre reste un défi.

12 commentaires:

  1. Aaaah, good! Je suis ravi que tu aies précisé tout ça, et j'en profite pour dire que je comprends fort bien cette analogie qui me va à ravir. Et pourtant je ne suis pas payé pour le dire.
    (à partir de maintenant, je m'en vais raconter à tout le monde que ton métier c'est traduire Confusius en 2e année, si avec ça ils ne comprennent pas...)

    Juste une petite critique : si dès le début de tes réponses aux commentaires dans le billet précédent tu avais simplement indiqué que "annotation" devait ici être pris dans un sens d'analyse biologique et pas du tout dans un sens grand public d'annotation textuel d'article, si donc tout cela, eh ben je t'aurais moins embêté. Ben oui, désolé mais c'est un peu ça qui était pas clair, tout bêtement, je n'arrivais pas à savoir si j'aurais dû comprendre ou pas.
    Comme si (analogie bonjour) je te parlais de compiler du code, et que tu n'arrivais pas à me faire dire s'il s'agissait simplement de rassembler une impression papier de ce code relié pur cuir ou bien d'un terme technique appartenant au "métier". Sans pour autant avoir besoin que j'explique ce que ça veut dire (en même temps expliquer ça à un bio-informaticien ce serait un peu grotesque).

    RépondreSupprimer
  2. Ah le problème c'est toujours de savoir ce qui est clair ou pas pour les autres, que ce soit en vulgarisation, en enseignement, ou en communication scientifique.

    Bon je suis content que ça soit plus clair maintenant.

    RépondreSupprimer
  3. L'analogie du code ou du livre écrit dans un alphabet exotique est évidemment tentante, mais elle a beaucoup de limites comme tu le signales au début du billet. Je ne suis évidemment pas un spécialiste, mais de ce que j'en comprends, le "code génétique" serait vraiment un livre bizarre:
    - le sens des phrases dépend de l'heure qu'il est où de ce qu'on vient de manger: la fonction d'un gène est très influencé par le contexte dans lequel il s'exprime. C'est l'interdépendance environnement-génétique qui se manifeste tragiquement dans les malformations du nouveau-né à cause de certains médicaments pris pendant la grossesse.
    - En changeant l'espace entre les lettres, les phrases modifiées peuvent se mettre à raconter une tout autre histoire: un gène a souvent plusieurs fonctions qui s'activent selon l'activité d'autres gènes.
    - La plupart des mots n'ont aucun sens mais certains de ces mots insensés sont indispensables à la compréhensibilité d'autres mots: ce sont les activateurs ou inhibiteurs génétiques.
    - Enfin, le livre fabrique le lecteur, puisque le code génétique fabrique les protéines qui constituent la machinerie cellulaire, seule capable de "lire" le code génétique.

    Bref, il n'y a pas, contrairement au livre ou au code informatique "d'objectivité" dans ce qu'on appelle le code génétique. Il me semble par ailleurs que la métaphore cybernétique de "code génétique" est à la source de pas mal de contre-sens sur l'évolution du vivant. En particulier, le néo-darwinisme s'est longtemps nourri de cette métaphore où seul le hasard permet d'échapper à un certain déterminisme (anatomique, comportemental etc). C'est évidemment ignorer combien le vivant est plastique durant son développement. J'ai écrit un billet là-dessus (ici)

    RépondreSupprimer
  4. Bonjour,

    Tu dis que vous cherchez à "décoder" le génome en identifiant des parties, ce qu'elles font, et comment elles le font.
    Mais a-t-il été envisagé que le génome ne soit pas composé de « fonctions » vraiment établies. Que ça puisse être un amalgame de techniques biologiques qui ait fortuitement aboutit à une micro-entité, puis bon an, mal an, à un système organique qui anime un corps. Ou de façon moins poussée : que ce soit un ensemble de petites fonctionnalités dont la combinatoire est complètent fortuite.
    Si c'était le cas, une nouvelle logique d'analyse pourrait être intéressante.

    On peut se dire que le génome est tellement ingénieux qu'il ne peut pas être un amalgame fortuit. On peut aussi se dire qu'il n'est pas ingénieux mais juste "survivant", et que si ce n'était pas le cas on ne serait pas là pour pouvoir le dire.

    Pico-remarque sur « tous les caractères font sens » : attention, ton labo est attaqué par des anglicismes de consultant. Tu as peut être trop discuté avec des éditeurs non open-access. Gare aussi aux « c'est confusant » et les « je suis confortable avec ça » qui viennent souvent avec.

    RépondreSupprimer
  5. [...] évaluer leur qualité, ou décrire leurs caractéristiques » – similaire à l’annotation fonctionnelle une décennie auparavant. D’un autre coté, les défis n’étaient pas très différents [...]

    RépondreSupprimer
  6. Alors oui le génome est exprimé de manière dynamique, mais n'empêche qu'en première approximation un génome existe en tant que structure relativement stable. Il faut voir que lorsque l'on annote un génome, d'une part on le fait à un niveau relativement simpliste, et d'autre part on annote une fonction dans la mesure où elle est parfois pertinente ; elle n'a pas besoin d'être exprimée tout le temps.
    Par exemple cela fait sens d'annoter HoxD1 comme "un gène qui code pour un facteur de transcription qui est actif dans le développement, notamment du squelette" (http://www.ebi.ac.uk/QuickGO/GProtein?ac=Q9GZZ0), même si HoxD1 peut intervenir dans d'autres fonctions, et même s'il y a plein de moments de la vie ou de tissus où il n'est pas actif.
    Cela revient pour moi à rappeler que l'on peut parler "du génome" d'un individu mais pas "du transcriptome" ou "du protéome".

    RépondreSupprimer
  7. Les anglicismes : pas besoin de consultants, juste travailler presque qu'en anglais depuis presque 20 ans.

    Pour le reste : euh, oui, probablement. Si je comprends bien, tu veux dire que les fonctions dans le génome n'ont pas le même statut ontologique que des fonctions dans une machine conçue par des ingénieurs. C'est correct, mais en biologie pour comprendre les systèmes complexes on doit décrire leur fonction de fait dans le système, même si cette fonction n'a pas été conçue consciemment.

    "Tout se passe comme si" HoxD1 était là pour mettre en place le squelette...

    RépondreSupprimer
  8. [...] et annoter le génome humain, à savoir mettre ensemble les pièces du puzzle (1 séquence brute = [...]

    RépondreSupprimer
  9. [...] qu’est un gène, une espèce, ou le vivant), mais revenons à l’analogie que je donnais sur l’annotation de génomes. La définition la plus courante suppose que l’on sache à quoi sert une partie de génome [...]

    RépondreSupprimer
  10. [...] a alors eu l’ambition de créer un consortium dont le but était d’annoter de manière la plus exhaustive possible le génome humain. Grace à l’effort conjugué de [...]

    RépondreSupprimer
  11. [...] se rappeler que les gènes pour être actifs doivent exprimer leur produit, qui fera le boulot (voir ce billet). Donc même s’il y a peu de différences en gènes entre deux cellules, il peut y avoir de [...]

    RépondreSupprimer
  12. bonjour,j'ai toujour été fasciner par les phénomènes génétiques,je trouve que vos explications concernant l'annotation du genome sont fructueuse en mon sens.
    merci

    RépondreSupprimer