lundi 29 octobre 2012

Semaine du c@fé de la mort

[caption id="attachment_601" align="aligncenter" width="182"] Le dessin de la mort, cliquez donc.[/caption]

Cette semaine, il n'y aura pas de matériel neuf sur ce blog, mais le C@fé des sciences fait une semaine thématique sur le thème de la mort. Y compris un billet publié en septembre sur ce blog, sur la mort des gènes.

Lisez-y, y a plein de bon, des nouveaux articles chaque jour : Thema mort sur C@fé des sciences.

 

mardi 23 octobre 2012

Critique de deux articles pro-#OGM qu'on m'a signalés

[caption id="attachment_587" align="aligncenter" width="404"] cliquez sur l'image[/caption]

Dans mon dernier billet j'ai répété un "chiche" que j'avais précédemment mis sur Twitter :
chiche, envoyez-moi un lien vers une étude #OGM aussi mal faite que celle de #Seralini. Je la critique volontiers.

tuan kuranes a relevé le gant que je lançais ainsi, et m'a fourni deux liens vers des articles récents, dans la même revue (Food and Chemical Toxicology, pas libre accès), qui concluent tous deux à une absence de risques concernant des OGM après étude de 90 jours sur des rats. Merci à Tuan. (Et si vous avez lu le billet quand il y avait peu de commentaires, retournez le lire, les commentaires sont intéressants.)

Voici donc mes commentaires sur ces deux articles.

Article 1 : Subchronic feeding study of stacked trait genetically-modified soybean (3Ø5423 × 40-3-2) in Sprague–Dawley rats

  • C'est pas super bien écrit, mais dans l'ensemble c'est compréhensible.

  • Ils font des vrais tests statistiques et donnent les résultats. Bin oui.

  • Ils ont mesuré des tonnes de paramètres, et tout comparé avec tout. C'est pas bien, surtout que je ne vois pas de correction pour tests multiples. Ceci dit, comme ils ne trouvent rien de significatif, ça n'est pas très grave : les comparaisons multiples augmentent le risque de trouver un effet quand il n'y en a pas, pas de ne pas trouver d'effet quand il y en a. En d'autres termes, ils se mettent en condition de détecter des effets apparents mais artéfactuels, et ne les trouvent pas. S'ils avaient corrigé pour tests multiples, ils auraient couru le risque d'être très stringeants et de ne rien trouver même s'il y avait des effets, vu leur taille d'échantillon (10 rats de chaque sexe comme chez Séralini et al.). La bonne chose à faire me semble-t-il serait de choisir un nombre plus faible de paramètres basé sur des hypothèses biologiques réalistes (quel effet peut-on attendre de ces modifications génétiques ? ça n'est pas vraiment discuté), puis de les tester de manière stringeante avec de plus gros échantillons.

  • A part le problème de la taille des groupes et du nombre de paramètres, le plan expérimental est bien meilleur que chez Séralini et al. Les auteurs comparent deux à deux des traitements appariés : x% de soja non transgénique - x% de soja transgénique, pour trois valeurs de x (7,5%, 15%, 30%). Plus un contrôle de nouriture de laboratoire standard, sans soja. (Chez Séralini et al., un seul groupe contrôle et neuf traitements, pas équilibrés.) Dans quelques cas, les auteurs trouvent des différences entre soja et contrôle sans soja, mais pas entre soja transgénique et non transgénique. Ce qui explique la phrase que Tuan trouve bizarre : "However the differences were not considered treatment-related and commonly fell within the normal ranges of the control group consuming the commercial diet". En effet, si la différence est due au soja mais pas spécifiquement au soja transgénique, elle n'est pas pertinente à la question du risque OGM (à supposer qu'il y ait un effet significatif après correction pour tests multiples, voir ci-dessus). Un autre point important ici est que les auteurs prennent en compte la variation spontanément observée dans cette souche de rats avec ce type d'alimentation. C'est important parce que vues les faibles tailles des groupes, il faut voir si la différence entre deux groupes peut être due au hasard dans cette souche dans ces conditions. C'est un point bien détaillé dans le rapport de la Haute autorité sur les biotechnologies, qui notent que ce contrôle manque dans l'étude de Séralini et al.

  • Ils présentent de manière détailée tous les résultats numériques : pour chaque mesure, on a la moyenne et l'écart-type. Et de manière importante ils présentent le détail de la composition de l'alimentation, et la mesure détaillée de la quantité d'alimentation, qui peut influer sur la santé des rats.

  • Y a des données supplémentaires, mais ça sont juste des photos de gels d'ADN dans un document MS Word (Aaaaargh dit mon bioinformaticien intérieur), rien de très intéressant.

  • Dans les conclusions et dans le résumé (Abstract), les auteurs écrivent "The results indicated that GM HOA-HT soybean 3Ø5423 × 40-3-2 is as safe as non-GM conventional isogenic line" et "These results demonstrated that the GM soybean 3Ø5423 × 40-3-2 is as safe as non-GM soybeans". Euh oui mais non. Tout ce qu'ils montrent c'est qu'ils ne détectent pas d'effet sur 90 jours sur des rats en élevage. Un peu de prudence dans les conclusions, les gars ? Votre biais se montre carrément là (voir point suivant).

  • Et j'ai gardé le meilleur pour la fin, le gros Mort De Rire : ils déclarent "no conflicts of interest". Un des OGM testés est breveté par Dupont, un des auteurs est affilié à Dupont, Dupont a fourni des échantillons pour l'étude, on y croit à fond là. Légèrement moins flagrant, d'autres auteurs sont affiliés à Supervision, Inspection and Testing Center of Genetically Modified Organisms, Ministry of Agriculture de Chine, qui pourrait avoir un intérêt à montrer qu'un OGM utile à l'agriculture chinoise soit sans danger.


Article 2 : A 90-day subchronic feeding study of genetically modified maize expressing Cry1Ac-M protein in Sprague–Dawley rats

  • C'est par la même équipe à peu de choses prêt, donc je serais bref. Pas d'auteur affilié à Dupont cette fois.

  • Le plan expérimental est très similaire, avec 12,5%, 25% et 50% de maïs OGM et non OGM, mais le contrôle avait aussi du maïs cette fois-ci (33% ; pourquoi ?).

  • Le mean platelet volume varie significativement (à ceci prêt qu'on a à nouveau un gros problème de répétition de tests) entre 50% maïs OGM ou non OGM. Ils écartent ça de manière pas très convaincante ("The difference was not considered to have biological meaning for the reason that the mean MPV value of rats fed with 50% BT-38 maize diet was comparable to that of rats in the control group and fell within the normal range of rats"). Pour être convaincants, ils auraient du admettre que leurs tests ne peuvent rien détecter sauf si c'est super dramatique, étant donné le nombre de rats et le nombre de paramètres testés.

  • Même observation, même problèmes pour plusieurs paramètres de la chimie du sérum. A chaque fois, ils écrivent que OK y a une petite différence significative (sans correction pour tests multiples ; avec des statistiques sérieuses rien ne serait significatif il me semble) entre OGM et non OGM, mais ça rentre dans la variation normale. Alors dans ce cas, ça veut dire qu'ils utilisent le mauvais test statistique depuis le début ! Faire un test et dire que ça ne veut rien dire quand il est significatif, c'est incroyablement mauvais. Il faut choisir le test qui correspond à l'hypothèse à tester et au plan expérimental. Donc si leur raisonnement est correct, il faudrait d'abord tester pour chaque paramètre s'il sort de la variation normale connue (dont il faudrait fixer la détermination de manière très claire), et ensuite ne comparer OGM et non OGM que dans les cas où ça sort de cette variation.

  • Toujours pas de conflit d'intérêt, j'y crois toujours pas malgré l'absence de Dupont.


Au bilan, deux études médiocres, que je me suis bien embêté à lire, avec comme défaut principaux des conclusions trop générales par rapport aux données et des déclarations d'absence de conflits d'intérêts malhonnêtes. C'est pas bien, et après avoir regardé rapidement d'autres articles du même journal je trouve l'état global de ce domaine déprimant.

Mais rien de comparable à Séralini et al au niveau mauvaise science, obfuscation des données, absence de tests, et conclusions abusives.

Mise à jour : il paraît que c'est "signalés" et pas "signalé" dans le titre. Ca doit être pour ça que je suis scientifique et pas journaliste.

vendredi 19 octobre 2012

Pourquoi est-ce que l'étude #Seralini sur les #OGM m'énerve ?

[caption id="attachment_548" align="aligncenter" width="153"] cliquez sur l'image[/caption]

Le dimanche 7 octobre j'ai eu un échange intéressant à propos des OGM sur Twitter, échange sur lequel je voudrais revenir ici.

L'échange proprement dit a démarré lorsque j'ai découvert et twitté une pétition demandant la diffusion des données de l'étude célèbre de Séralini avec les rats à tumeur. J'ai eu une réponse rapide de "@BEBIO". J'ai essayé de répondre de manière constructive (je vous laisse juger), et bien m'en a pris, nous avons eu un échange intéressant. Le voici, avec mes tweets en noir et ceux de @BEBIO en vert (et les liens en bleu) (si vous n'avez pas l'habitude de twitter : @BEBIO veut dire que je m'adresse à eux, et réciproquement @marc_rr ils s'adressent à moi) :
Scientists petition to #Seralini: relase your #GMO data ipetitions.com/petition/dr-se… #OGM #openscience

@marc_rr #OGM Un scientifique n'ayant pas critiqué la "rigueur" des études Monsanto, ne peut-être crédible à critiquer celle du CRIIGEN


@BEBIO chiche, envoyez-moi un lien vers une étude #OGM aussi mal faite que celle de #Seralini. Je la critique volontiers.

@BEBIO Et je suis favorable à la transparence en sciences dans tous les cas : toutsepassecommesi.cafe-sciences.org/2012/06/01/tou…. Pas comme #Seralini apparemment.

@BEBIO Oh et pourquoi demander à voir les données est-il vu comme "être critique" ? C'est une procédure normale en sciences. #Seralini #OGM

@marc_rr #OGM Malheureusement, Monsanto refuse de publier ses données. Cependant, ce qui en ai paru est avec 10 rats et sur 90 jours. QED


@marc_rr Demander la transparence partout et pour toutes les études #OGM est normal. Si c'est ce que vous demandez, nous sommes d'accord.


@marc_rr Le cas des chercheurs s'étant attaqués aux #OGM sans prendre l'opinion public à témoin permet de comprendre le choix de #SERALINI


@marc_rr Un article dont je ne partage pas certaines affirmations, mais qui est intellectuellement de bonne tenue agrobiosciences.org/IMG/pdf/OGM_Go…


@BEBIO Merci, très interessant. Et merci pour cet échange constructif. J'essayerais de donner suite sur mon blog, >140 char nécessaires.

@marc_rr Vu. Je lirai ça avec intérêt ... a défaut d'être forcément d'accord avec vous. ;-)



Alors, quelques commentaires complémentaires donc. (Finalement ce billet est devenu très long, je m'en excuse.)

Je me permets d'abord de noter que personne n'a répondu à mon "chiche". Pas le moindre lien vers une étude aussi mal faite que celle de Séralini (on a twitté avec le hashtag très utilisé #OGM, y a forcément du monde qui a lu mon message). Je ne pense pas en fait que ce soit dû à ce qu'il n'y ai pas de tels exemples (ou pas uniquement), mais plutôt que ça illustre que les personnes qui critiquent les OGM ne lisent généralement pas la litérature scientifique, et donc d'une part n'ont pas d'exemples à me donner, et d'autre part n'ont pas de références contre lesquelles comparer l'étude de Séralini et al., qui leur permettraient de voir qu'elle est réellement de très mauvaise qualité.

Ensuite, la remarque de départ pose la question : pourquoi est-ce que de nombreux scientifiques, dont je suis, sont si énervés contre cette étude ? Pourquoi pas contre les autres ? C'est une question tout-à-fait légitime.

Nous essayons de faire de la bonne science. C'est beaucoup de travail. Vraiment. Je pense que c'est un point qui passe difficilement dans la vulgarisation parce que les détails sont chiants, mais ils sont critiques. On passe beaucoup de temps à essayer de faire des trous dans nos propres raisonnements, à comprendre les détails non seulement des méthodes qu'on utilise (détails pointus, ennuyeux pour le profane et parfois pour nous, mais souvent critiques je me répète), mais aussi des méthodes dont sont issus les résultats sur lesquels on s'appuie, on critique nos propres plans expérimentaux (contrôles, nombre d'échantillons, biais dans la répartition, etc), et quand on a les résultats on ne leur fait pas confiance, on les revérifie, on cherche à montrer qu'on s'est probablement trompé (ou quand on est comme moi vieux chef, on cherche à montrer que le doctorant s'est trompé...), puis finalement on rédige nos résultats avec plein de conditionnels et de peut-être, avant de se faire casser par un expert méchant mais qui a souvent raison. Chercher la vérité sincèrement ça n'est pas facile, même si pour certains d'entre nous c'est amusant. Et à la fin, quand tout va bien, dans 99% des cas ce qu'on a montré c'est un détail chiant sur un sujet qui n'intéresse que nous. Mais c'est super important ! C'est ça la science, le diable est dans les détails.

Après avoir fait tout ce boulot, certains d'entre nous essayent de communiquer notre passion, passion pour la vérité et le travail précautionneux qui accompagne sa recherche. C'est difficile, parce que c'est lent et plein de détails et de conditionnels.

Et là, paf, tout le monde fait que de parler d'un travail de merde, sans aucun contrôle, sans aucune statistique, qui baffoue toutes les règles les plus élémentaires de la recherche honnête. Sérieusement, tous les ans je gronde gentillement (j'essaye) des étudiants de master qui font moins d'erreurs que Séralini et compères. Et il faudrait se taire ? Parce que les résultats de la recherche nulle à chier, là, ils dérangent une méchante société ? Que dalle. Monsanto c'est pas des anges, c'est une grosse société privée qui cherche à gagner un max d'argent dans les limites de la légalité sensu stricto. Alors c'est sûr que s'ils peuvent tirer le fric d'un paysan ils vont le faire, et s'ils gagnent plus en poluant sans se faire attraper, il vont le faire. Mais ça ne veut pas dire que la recherche de Séralini soit correcte.

L'ennemi, ça n'est pas Monsanto, ça n'est pas les OGM, ça n'est pas le parti Vert ou un autre. L'ennemi c'est le mensonge, et son copain la demi-vérité malhonnête. Quel que soit le camp du menteur. Et la très grande majorité des scientifiques partage cette éthique. On est là pour chercher la vérité de manière honnête, rigoureuse, souvent chiante, rarement télégénique. On aimerait que tout le monde respecte la recherche de la vérité comme nous on le fait. (Aparté : vous avez vu les commentaires sur les débats Romney-Obama ? Qui a mieux parlé, a eu le plus d'assurance, blabla. Merde, est-ce qu'ils ont dit la vérité ça compte un peu des fois ? Bref.)

Et donc oui ça m'énerve, ça énerve beaucoup de scientifiques, quand des gens mentent au public et sont écoutés, sur des sujet de notre compétence, en mettant des blouses blanches et en se présentant comme scientifiques.

D'ailleurs j'en profite pour râler contre un autre truc favori des médias quand ils parlent de "science" : trouver un chercheur "atypique", "à contre-courant", la personne seule contre l'establishment. Ca sonne bien, ça fait de belles histoires, et ça recouvre presque toujours de la "science" inexacte. Il y a une image que j'ai du mal à comprendre, c'est celle que les scientifiques sont conservateurs. On rêve tous de montrer que ce qu'on a appris à la fac c'est faux ! Et si on y arrive, c'est la gloire ! Mais en général on n'y arrive pas, non seulement parce qu'on est pas assez bons, mais aussi parce qu'à force de tout tester et tout bétonner depuis des générations, y a quand même beaucoup de choses correctes en science. Alors dans un sens on est conservateurs, oui : si on nous montre un résultat ou une conclusion surprenante, on veut beaucoup d'évidence, beaucoup de tests, avant de le croire. Mais dans un sens plus profond, non : on espère toujours avoir tort, on espère montrer que les pseudogènes ont une fonction et que le même gène dans l'autre espèce a une fonction différente. Mais le montrer vraiment, pas juste le dire.

Et donc montrer, c'est aussi montrer ses données pour que les autres puissent vérifier. C'est élémentaire. Vous me direz, Monsanto ne montrent pas. D'abord, si, ils montrent aux autorités de contrôle qui doivent pouvoir vérifier. Ensuite, si le voisin travaille mal ça n'est pas une raison pour faire pareil ; Séralini etc sont sensés être meilleurs que Monsanto, non ? Sinon c'est quoi l'intérêt ? Mentir plus fort ? Enfin, y a plein d'études non Monsanto qui étudient ces plantes et cet herbicide. C'est à ces scientifiques que Séralini doit ses données.

Oui je suis énervé. Y a de quoi. Comme l'a dit très justement un collègue, dire des choses fausses demande peu d'énergie, montrer qu'elles sont fausses en demande beaucoup. Les mensonges sur les vaccins donnant l'autisme ont dérouté des millions d'euros/dollars/etc depuis la recherche biomédicale utile vers des contrôles inutiles pour démontrer à de multiples reprises que non, les vaccins ne causent pas l'autisme. Pendant ce temps, les conspirationistes ne sont jamais convaincus, et on ne fait pas de la recherche sur des sujets pertinents. Là ça va faire pareil, vous allez voir. On va détourner de l'argent qui pourrait améliorer les cultures pour les paysans pauvres qui manquent de vitamines, ou qui pourrait redonner du goût à nos légumes, ou qui pourrait tester les doses dangereuses de produits vraiment à risques, et on va répliquer plein de fois (mais mieux) les études mal faites de Séralini. Et quand on ne trouvera rien, ce à quoi on s'attend parce qu'on connaît les mécanismes moléculaires en jeu, les anti-OGM n'y croiront pas et crieront au complot.

Et à plus court terme, pour nous autres scientifiques démontrer toutes les erreurs dans l'étude de Séralini nous demande du temps et de l'énergie qu'on ferait mieux de consacrer à autre chose. Alors on va me repprocher de ne pas expliquer les problèmes ici. C'est que c'est fait ailleurs : Tom Roud, Bacterioblog et encore, Philippe Julien, pour ne citer que ceux du C@fé des sciences.

Qui a perdu dans cette histoire ?

  • Les scientifiques, dont le travail est mal représenté, calomnié, et qui auront du mal à communiquer sur des résultats pertinents quand il y en aura.

  • Les militants écolos, qui creusent un fossé entre eux et les scientifiques dont beaucoup sont (étaient ?) a priori de sensibilité proche.

  • Séralini et amis, qui ont perdu toute crédibilité auprès de leurs confrères.

  • Les journalistes scientifiques sérieux, qui essayent d'expliquer le fond des choses par-dessus le fracas ambiant.

  • Les personnes et l'environnement pouvant bénéficier d'OGM bien faits.


Qui a gagné ?

  • Monsanto, qui avec des ennemis pareils n'a pas besoin d'amis. Le jour où il y aura un résultat réellement embarassant pour eux (et ça arrivera, ils sont gros et ont plein de produits), il auront beau jeu de rappeler ce fiasco.

  • Les journalistes pas sérieux, qui ont vendu plein de journaux.

  • Ceux des militants écologistes qui s'en fichent des scientifiques de toutes façons.

  • Séralini et amis, qui vont vendre plein de livres et de films (oui ils ont perdu comme scientifiques, ils ont gagné comme personnages publics).


Au fait, le lien à l'entretien avec Olivier Godard est très intéressant, mais ne change pas le fond de ce que j'avais à dire. Qui ne tenait pas tout-à-fait dans 140 caractères.

Mise à jour : j'ai rajouté des liens vers l'excellent billet "Quand l’alterjournalisme rencontre l’alterscience". Et si vous avez le temps, écoutez Denis Duboule sur l'évaluation réellement scientifique des OGM.

vendredi 12 octobre 2012

Libre accès, mais ouvert à quel point ? #openaccess

[caption id="attachment_500" align="aligncenter" width="361"] cliquez sur l'image (ça faisait longtemps que je voulais mettre un lien à cet excellent blog BD)[/caption]

Des acteurs majeurs de la publication libre accès ont pris l'excellente initiative de développer une échelle de l'ouverture des éditeurs, sur différents critères. L'idée est de sortir d'une dichotomie ouvert / fermé, qui masque des situations plus complexes, et de fournir aux scientifiques, aux libraires, et aux autres parties concernées une vue claire de la position des éditeurs.



Si vous cliquez sur le tableau ci-dessus, vous verez qu'ils ont pris en compte différents aspects de l'ouverture des publications :

  • Le droit des lecteurs à lire sans entraves ni coût.

  • Le droit de réutilisation (par exemple dans Wikipedia ou dans un livre).

  • Si le copyright reste aux auteurs ou à l'éditeur.

  • Si les auteurs peuvent mettre le papier à disposition sur le web dans sa forme finale, ou brouillon, ou pas du tout.

  • La déposition dans des archives centralisées publiques (comme PubMed Central).

  • La structuration du papier permettant sa lecture automatique, donc l'exploitation aisée de l'information à grande échelle (par exemple une compilation automatique des résultats d'études d'impacts d'OGM en fonction de la durée de l'étude et du type de rats utilisés...).


Ils ont eu la bonne idée de demander des commentaires, et voici ce que je leur ai proposé d'ajouter à leurs critères (faut jamais me demander mon avis, c'est risqué) :

  • Les expertises (peer review) sont-elles disponibles à côté de l'article, de manière anonyme ou non ? (Note : c'est très rare qu'elles le soient, mais je souhaiterais que ça devienne systématique. Je suis pour maintenir l'anonymat des experts, ce qui est assez débattu en ce moment.)

  • Est-ce qu'il est possible d'ajouter des commentaires libres directement sur le site web de l'article (comme dans PLOS et BMC) ?

  • Est-ce que l'éditeur a une politique d'embargo systématique envers la presse, les présentations dans les conférences, etc (comme Science ou Nature) ?

  • Est-il obligatoire de fournir du code source Open Source si les résultats incluent un programme ou dépendent d'un programme informatique ? (Par exemple c'est obligatoire dans PLOS Computational Biology mais pas dans OUP Bioinformatics.)

  • Est-il obligatoire de déposer les données brutes dans des banques de données indépendantes le cas échéant (telles que GenBank/EMBL pour l'ADN) ?


J'ai manqué des points ? Vont-ils tout prendre en compte ? Ne ratez pas la suite de ce feuilleton halletant.

vendredi 5 octobre 2012

Des gènes soit presque morts soit presque vivants

[caption id="attachment_526" align="aligncenter" width="295"] cliquez sur l'image[/caption]

On sait depuis longtemps que les gènes naissent, vivent et meurent. Forcément, puisqu'on observe des gènes dans certaines espèces mais pas d'autres (par exemple y a des récepteurs aux estrogènes chez les vertébrés mais pas chez les mouches, encore moins les plantes ou les champignons), donc ils du "naître" à un moment, et on observe parfois que la distribution doit s'expliquer par une perte (par exemple presque tous les mammifères ont l'enzyme de synthèse de la vitamine C, sauf un sous-groupe de primates dégénérés dont nous sommes), donc le gène a du "mourir".

Un article récent dans Nature (dont d'accès fermé, désolé) propose un très joli modèle sur la façon dont ce cycle vie-mort des gènes peut se produire, et met en avant surtout l'aspect graduel de la transition entre ADN codant pour un gène fonctionnel ("vivant") ou non.

Ils ont utilisé plusieurs avantages du modèle "levure" : la levure S. cerevisiae (de boulanger et autres fermentations) est très bien étudiée du point de la fonction des gènes ; les levures ont des génomes très compacts où presque tout est fonctionnel, donc c'est facile d'étudier le reste ; et on a les génomes de 13 autres levures plus ou moins apparentées à S. cerevisiae, qui permettent de faire des comparaisons à différents degrés de divergence évolutive (comme on pourrait comparer le génome humain à ceux du chimpanzé, du gorille, du macaque, d'un lémurien, de la souris, etc).

Dans le génome de la levure (quand je dis la levure, je veux dire S. cerevisiae, OK ?) on connait des gènes bien définis, clairement fonctionnels. On connaît aussi des pseudo-gènes, qui sont des cadavres de gènes ayant perdu leur fonction mais ayant encore une ressemblance notable au gène dont ils sont issu. Les pseudo-gènes n'étant pas protégés par la sélection naturelle accumulent beaucoup de mutations, et deviennet peu-à-peu indistinguables de l'ADN non fonctionnel aléatoire.

Mais les gènes et pseudo-gènes connus ont un biais de taille si je puis dire : on sait très mal détecter les plus petits des gènes. On manque de signal statistique.

Pourquoi donc ? Parce qu'une séquence courte peut sembler avoir les propriétés d'un gène par hasard. Tiens donc. Et alors une séquence courte ne pourrait-elle pas réellement avoir les propriétés d'un gène par hasard ? L'hypothèse que testent (et démontrent c'est pour ça qu'on en cause) les auteurs est que des séquences courtes peuvent générer au hasard des "proto-gènes", des gènes naissant. Pour tester cela, ils prévoient qu'il y ait non pas une division nette entre gènes clairement actifs et conservés dans l'évolution, et séquences non géniques inactives et non conservées, mais un continuum entre les deux, avec les proto-gènes généralement plus courts, moins actifs (ils sont encore en train de devenir des gènes), et moins conservés dans l'évolution (ils viennent d'apparaître).

Et c'est ce qu'ils observent : plus une séquence qui ressemble à un gène (clairement fonctionnelle ou proto-gène potentiel) est longue, plus elle est exprimée (en première approximation, plus elle produit de protéine), plus les protéines potentielles sont codées efficacement (codon bias index, fréquence des acides aminés), plus les protéine potentielles sont solubles (moins hydrophobe, moins de régions transmembranaires, moins de régions désorganisées). De plus, si on ne regarde que les gènes potentiels courts, ceux qui sont partagés seulement entre la levure et des espèces très proches, donc sont apparus récemment, ressemblent moins à des gènes fonctionnels que ceux qui sont partagés par des espèces éloignées, et donc existent depuis longtemps. On voit donc les différentes étapes du passage de proto-gène à vrai gène, en comparant des séquences qui ont des âges évolutifs différents.

Donc il y a bien naissance progressive des gènes à partir des séquences aléatoires, de manière approximativement symmétrique à la mort progressive des gènes, qui deviennent des séquences aléatoires. A noter que ce sont des processus réversibles : un proto-gène peut être inactivé par une vilaine mutation et redevenir non fonctionnel. Et il y a des cas connus de pseudo-gènes réactivés par une gentille mutation, et redevenus donc des gènes actifs. Et bien sûr dans l'ADN non fonctionnel "aléatoire", on ne sait pas quel fraction est composée de pseudo-gènes tellement dégénérés qu'on ne les reconnaît plus, mais peuvent maintenant donner naissance à des pseudo-gènes.

Et on a donc le "cyle de la vie" des gènes suivant :

[caption id="attachment_528" align="aligncenter" width="599"] cliquez sur l'image si vous avez un abonnement à Nature[/caption]