mercredi 13 août 2014

Mieux on connait notre génome, moins il a de gènes pour des protéines, et plus il en a d'autres

[caption id="attachment_2389" align="aligncenter" width="157"]cliquez sur l'image (stripscience !) cliquez sur l'image (stripscience !)[/caption]

Nouvelles de l'équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la lumière des nouvelles données et des nouvelles méthodes ; ceci est la 20ème version. On peut noter que malgré les progrès des outils informatiques, des étapes de vérification manuelle (curation ou annotation, voir aussi ce billet) restent essentielles et représentent une grosse part du travail, pour avoir la meilleure qualité possible des annotations. En d'autres termes, être aussi confiant que possible que l'on a trouvé tous les gènes, et que tout ce qu'on a trouvé est un gène.

Ce qui revient quand même à une question sempiternelle en génétique : qu'est-ce qu'un gène ? Comme une espèce, c'est mal défini, mais pour un travail donné il faut une définition pratique. Gencode annote de l'ADN qui produit un ARN (molécule qui contrairement à l'ADN quitte le noyau cellulaire), soit qui code pour une protéine, soit qui est fonctionnel en lui-même. Quand on dit "gène" d'habitude (genre "combien de gènes communs entre humain et souris ?"), on veut dire ceux qui codent pour des protéines, mais les autres peuvent aussi jouer des rôles importants, certains connus depuis longtemps (ARN ribosomaux ou de transfert), d'autres découverts plus récemment (micro ARN, long ARN non codants).

Qu'est-ce qui a changé ? Comme à chaque mise à jour du compte des gènes humains, le nombre de gènes codant pour des protéines diminue, de 20'345 à 19'942 (rappel : le nombre de 21'000 annoncé en 2003 a été estimé trop bas par beaucoup). L'équipe s'attend à ce que ce nombre descende encore un peu. Par contre, le nombre d'ARN long non codants (lncRNA) augmente, de 13'870 à 14'229. Ce n'est pas dans le billet de Gencode, mais je suis frappé par la différence de nombre de lncRNA annotés pour l'humain et les autres espèces (par exemple comparer l'humain, la souris, et le poisson zèbre). Je doute fort que ce soit tout des créations de gènes spécifiques aux primates, donc soit on a beaucoup de faux positifs chez l'humain, et ce nombre va redescendre, soit il reste beaucoup à découvrir chez les autres, ce qui a une certaine logique vu qu'ils sont moins étudiés.

L'occasion de rappeler la super citation d'Isaac Asimov :
John, when people thought the Earth was flat, they were wrong. When people thought the Earth was spherical, they were wrong. But if you think that thinking the Earth is spherical is just as wrong as thinking the Earth is flat, then your view is wronger than both of them put together.

Notre connaissance du génome humain change, mais pas en errant aléatoirement, en partant d'une approximation grossièrement correcte et en l'affinant.

4 commentaires:

  1. […] cliquez sur l'image (stripscience !) Nouvelles de l'équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la l  […]

    RépondreSupprimer
  2. « Gencode annote de l’ADN qui produit un ARN (molécule qui contrairement à l’ADN quitte le noyau cellulaire), soit qui code pour une protéine, soit qui est fonctionnel en lui-même. »

    Produire un ARN ou produire une protéine n'est pas déjà une fonctions en elle-même ? De plus, une telle ARN ou une telle protéine ne va-t-elle pas être prise dans une chaîne fonctionnelle déterminée ?

    RépondreSupprimer
  3. Ah le mot fonction est ambigu, comme le mot gène. En l'occurence, on dit qu'un ARN est "fonctionnel en lui-même" lorsqu'il a une fonction cellulaire du type régulation ou catalyse.

    RépondreSupprimer
  4. […] Nouvelles de l’équipe qui annote les gènes humains : ils ont tout remis à plat, comme il le font périodiquement, à la lumière des nouvelles données et des nouvelles méthodes ; ceci est la 20ème version.  […]

    RépondreSupprimer