vendredi 25 mai 2012

Histoire d'un article : la solution de la conjecture orthologue




Aujourd'hui un billet un peu particulier. Nous avons publié récemment un papier sur la fonction de gènes orthologues et paralogues (voir aussi ce billet), et mon co-auteur Christophe Dessimoz a écrit un billet invité sur le blog de Jonathan Eisen, qui donne "l'histoire derrière le papier". Je vais vous proposer ici une traduction de son billet, avec des modifications pour accommoder le fait que son histoire est à la première personne (à savoir Christophe), et qu'ici c'est mon blog, et donc ça sera à la première personne à savoir moi. Je remercie Christophe de m'avoir autorisé à ré-utiliser ainsi son texte.

Avertissement : ce billet est un peu technique ; mais je pense qu'il est intéressant de montrer comment fonctionne la recherche en vrai.

Dans cet article, nous avons soutenu la "conjecture orthologues", à savoir l'idée très répandue mais peu testée que les orthologues tendent à être davantage conservés fonctionnellement que les paralogues.

Dans ce billet nous allons également explorer quelques problèmes plus généraux, y compris les écueils de l'analyse statistique sur des données très hétérogènes comme la Gene Ontology, et le rôle clé de l'expertise par les pairs (peer-reviewing).

Comme beaucoup d'autres projets en bioinformatique, celui-ci a démarré comme une analyse rapide qui allait prendre "quelques heures", et a fini par nous occuper pendant plusieurs années...

La conjecture orthologue et les hypothèses alternatives

La conjecture orthologue est l'hypothèse que, en moyenne et pour des niveaux de divergence de séquence similaires, des gènes qui ont divergé par spéciation (des "orthologues") sont plus similaires en fonction que des gènes qui ont divergé par duplication ("paralogues"). Elle est basée sur l'idée que la duplication de gènes est un moteur principal de l'innovation fonctionnelle. Ceci fait sens, intuitivement, parce que la copie supplémentaire obtenue par duplication devrait avoir la liberté d'évoluer une nouvelle fonction. Tout ceci forme le "dogme" conventionnel.

Alternativement, pour des niveaux similaires de divergence de séquence, il pourrait ne pas y avoir de différence particulière entre orthologues et paralogues. C'est le modèle le plus simple, et il fait sens si la fonction d'un gène est uniquement porté par sa séquence protéique (nous ne considérons ici qu'un produit protéique par gène). D'après cette hypothèse, nous attendons une corrélation forte entre similarité de séquence et de fonction.

Mais ce ne sont pas les seules hypothèses possibles. Notamment, Nehrt et collègues ont trouvé une conservation de fonction plus forte entre homologues dans la même espèce, qu'entre homologues d'espèces différentes, ce qui les a amené à conclure que "l'aspect le plus important de la similarité de fonction n'est pas la similarité de séquence, mais plutôt la similarité de contexte". Si l'environnement (le "contexte") est bien la force évolutive principale, il n'est pas déraisonable de spéculer que les paralogues dans la même espèce puissent évoluer de manière corrélée, et soient ainsi fonctionnellement plus similaires que leurs équivalents entre espèces.

Pourquoi s'embêter à tester ces hypothèses ?

Tester ces hypothèses est important non seulement pour une meilleure compréhension générale de l'évolution de la fonction des gènes, mais aussi parce que cela a des implications pratiques. La grande majorité des annotations fonctionnelles des gènes (98% des annotations Gene Ontology) sont propagées computationnellement, depuis des données expérimentales dans une poignée d'organismes modèles. Et la propagation utilise souvent des modèles du type de la conjecture orthologue.

Comment notre travail a commencé

Notre projet est né durant une pause à la conférence pour le 10ème anniversaire de l'Institut suisse de bioinformatique, en septembre 2008. Christophe m'expliquait son travail avec Adrian Althenhoff sur l'évaluation de méthodes de détection d'orthologues, dans lequel ils avaient utilisé la similarité de fonction comme indicateur de l'orthologie. Ils avaient implicitement supposé que la conjecture orthologue était correcte, ce que je leur ai fait remarquer. J'étais assez sceptique de cette conjecture, et vers cette époque, avec mon doctorant Romain Studer, nous avions publié un article d'opinion dans Trends in Genetics, intitulé "How confident can we be that orthologs are similar, but paralogs differ?" (chez Elsevier pas libre d'accès, désolé ; exemplaire gratuit ici). Avec toutes les données en main, nous avons décidé de retourner l'analyse d'Adrian et Christophe, et de comparer la similarité d'annotation Gene Ontology des orthologues et des paralogues. Loin de nous l'idée que cette analyse nous occuperait plus de 3 ans !

Première tentative

Cela nous a pris seulement quelques semaines pour obtenir nos premiers résultats. Mais nous étions très intrigués. Comme Nehrt et al. allaient le publier plus tard, nous avons observé que les paralogues au sein de la même espèce tendaient à être plus conservés fonctionnellement que les orthologues. Au départ nous étions très sceptiques. Après tout, Christophe s'attendait à confirmer la conjecture orthologue, et je penchais en faveur d'une divergence uniforme. Nous avons commencé à contrôler pour toutes sortes de biais potentiels, et à contrôler la structure des données (par exemple la source des prédictions d'orthologie / paralogie, les mesures de similarité de fonction ou de séquence, la variation entre groupes d'espèces). Après un an, nos annexes étaient devenus un PDF de 67 pages rempli à craquer de graphes. Mais l'observation de départ tenait sous toutes sortes de conditions. A ce point, nous commencions à penser que nos résultats n'étaient pas artéfactuels, et qu'il était temps de les rendre publics. (Nous commencions aussi à manquer d'idées pour des contrôles supplémentaires, et espérions que les experts pourraient nous aider !)

Rejets

Nous avons essayé de publier le papier dans des journaux prestigieux, mais notre manuscript a été rejeté avant d'être expertisé. Nous avons trouvé frustrant que, bien que le travail soit jugé important, il soit rejeté avant expertise pour raison invoquée de problème technique. L'éditeur devrait juger de l'importance, et les experts de la qualité technique, en principe.

Finalement Genome Research a envoyé notre manuscript à expertiser, et nous avons reçu un rapport critique mais informatif. L'expert a dit que nos résultats étaient dus à des facteurs espèce-spécifiques, dus à ce que "les paralogues dans la même espèce tendent à être 'manipulés' ensemble, par les expérimentateurs et les annotateurs". L'argument était construit sur un exemple que nous avions discuté dans le papier : Cdc10/Cdc12 chez S. cerevisiae et Spn2/Spn4 chez S. pombe sont des paralogues au sein de chaque espèce (des levures - des champignons unicellulaires), tandis que Cdc10/Spn2 et Cdc12/Spn4 sont les paires d'orthologues. Les annotations Gene Ontology des orthologues étaient très différentes, tandis que les annotations des paralogues étaient très similaires. L'expert a regardé les articles d'origine des annotations en détail, et a remarqué que "la divergence fonctionnelle entre ces gènes est davantage apparente que réelle". Les deux paires de paralogues sont des composants de l'anneau de septines (Wikipedia en anglais). Les différences d'annotation semblent dues à des différences dans les expériences faites et la façon dont elles ont été transcrites. L'expert a écrit :

"Un unique papier va souvent examiner les phénotypes [effets sur l'organisme] de plusieurs paralogues dans une espèce, menant à un papier, qui est probablement traité par un annotateur GO à la fois. Par contre, les phénotypes des orthologues dans différentes espèces proviennent presque toujours de papiers différents, via des équipes d'annotateurs différentes."

L'effet 'auteur' : un biais facile à rater

Au départ, c'était tentant de simplement écarter la critique. Après tout, "le pluriel d'anecdote n'est pas données" [ref]. Plus important, nous avions essayé de prendre en compte plusieurs biais espèce-spécifiques, tels que les différences de fréquence d'annotations entre espèces (par exemple étude surtout de gènes du développement chez le nématode C. elegans). De plus, nous avions été prudents dans nos conclusions, suggérant que nos résultats pourraient être dus à un effet confondant, inconnu jusqu'ici, dans les données Gene Ontology (rappel : on était à court d'idées). Donc l'expert ne nous disais rien que nous ne sachions déjà.

Vraiment ? Stimulés par l'image des paralogues de même espèce manipulés ensemble, nous avons décidé d'étudier s'il pourrait y avoir une corrélation entre le partage d'auteurs et la similarité d'annotation de fonction. Voici ce que nous avons observé :

La similarité d'annotations de fonction à partir d'un papier commun est bien plus élevée qu'autrement ! Même si on se limite aux annotations tirés de papiers différents, mais avec au moins un auteur en commun, la similarité d'annotations fonctionnelles est encore bien plus élevée que pour les papiers sans aucun auteur commun.

Le paradoxe de Simpson

En soi, l'effet des auteurs n'est pas forcément un problème : si les annotations entre orthologues et paralogues sont distribués de manière semblable entre les origines, les différences d'auteur vont se compenser. Le problème dans notre cas est que les paralogues sont un ordre de grandeur plus fréquemment annotés à partir du même labo que les orthologues. D'où le paradoxe de Simpson : les paralogues apparaissent fonctionnellement plus similaires que les orthologues juste parce que les paralogues ont nettement plus de chances d'être étudiés par les mêmes personnes.

Un exemple classique du paradoxe de Simpson est le cas du "biais de genre à Berkeley" : l'université avait été attaquée en justice pour biais contre les candidates féminines, sur la base des nombres d'admissions totaux en 1973 (44% des hommes admis, contre 33% des femmes). En fait, le taux d'admission dans chaque département était similaire pour les deux sexes (et en faveur des femmes dans quelques départements). Le taux d'acceptation plus bas pour les femmes n'était pas du à un biais sexiste, mais à une tendance des femmes à candidater dans les départements les plus sélectifs. Par exemple si 100 femmes et 10 hommes candidatent dans un département avec 40% d'acceptation, et qu'il n'y a pas de biais, on va accepter 40 femmes et 4 hommes ; si en parallèle 100 hommes et 10 femmes candidatent dans un département avec 60% d'acceptation, on va accepter 60 hommes et 6 femmes ; en cumulé, on aura accepté 46 femmes et 64 hommes sans biais sexiste. Fou non ?

Papier de Nehrt et al.

La découverte de biais dû aux auteurs nous a forcé à ré-analyser toutes nos données, et à complètement ré-écrire notre manuscript. Après quelques mois de ce travail, en juin 2011, Matt Hahn et ses collègues ont publié leur papier (Nehrt et al). Matt a écrit l'histoire très intéressante (et parallèle à la notre) derrière son papier sur le blog de Eisen. En bref, ils ont trouvé que les paralogues au sein d'une espèce (seuls humain et souris ont été comparés) sont plus similaires en fonction que les orthologues.

Tout en n'étant pas très surpris par leurs observations sur le fond – elles étaient cohérentes avec notre manuscript rejeté – nous avons été frappés par la similarité dans la présentation des résultats :

[caption id="attachment_166" align="aligncenter" width="999"] A gauche, figure 2A de Nehrt et al., à droite figure de notre manuscript rejeté en 2010. Remarquer que leurs lignes bleues et vertes sont combinées dans notre ligne jaune.[/caption]

La publication de Nehrt et al nous a donné des sentiments mélangés. Clairement, leur travail enlevait une part de la nouveauté dans notre étude. Mais en même temps, ils ont attiré beaucoup d'attention sur le problème (y compris en inventant le nom de "conjecture orthologue"). Et bien sur, nous savions déjà à ce point-là que leurs observations étaient confondues par des facteurs tels que le biais des auteurs, donc ça n'était pas la fin de l'histoire.

Est-il possible de tirer des conclusions fiables de données d'observation telles que les annotations GO ?

Avant de passer à nos résultats, ça vaut le coup de réfléchir encore un peu sur le problème des biais dans les données. Les statisticiens et les épidémiologistes font une distinction forte entre données expérimentales (provenant d'une expérience contrôlée, désignée de sorte que les groupes d'étude et de contrôle soient aussi identiques que possible en tous points sauf le paramètre à étudier), et les données d'observation* (données trouvées posées là n'importe comment par n'importe qui). Les données de la base de données GO tombe clairement dans la deuxième catégorie : des données d'observation. Nous sommes à la merci d'innombrables effets cachés qui peuvent biaiser nos conclusions de toutes sortes de manières.

* je traduis librement de l'anglais observational data

Pouvons-nous compter sur ces données du tout ? Pour certains, la réponse apparaît être un "non" catégorique. Une approche plus pragmatique a été exprimée par le consortium GO dans une réponse récente à Nehrt et al, où ils ont identifié des effets confondants potentiels ignorés dans cette étude, tels que les biais d'annotation espèce-spécifiques (ils ont suggéré sans rire que l'étude soutient plutôt "la conjecture de l'annotation biaisée"), et ont mis en avant que "les utilisateurs de GO doivent s'assurer qu'ils testent pour les biais potentiels et les prennent en compte avant interprétation".

Au final, ce débat et notre expérience mettent en avant les problèmes des données d'observation. En même temps, ce type de données est souvent tout ce que nous avons, et la meilleure stratégie semble d'être en effet d'identifier autant que possible les facteurs confondants, de les prendre en compte, et d'avancer prudemment.

Une réponse

En contrôlant pour le biais d'auteurs et quelques autres – certains déjà connus, d'autres nouvellement identifiés – nous avons trouvé que pour des niveaux similaires de divergence, les orthologues tendent à être plus conservés que les paralogues. Ceci est vrai de différentes méthodes de prédiction des orthologues et paralogues, différents aspects de la fonction, différentes mesures de similarité de séquence, et différentes stratégies d'échantillonnage des données. Mais en termes absolus, la différence est souvent faible, et varie pas mal entre espèces et aspects de la fonction. Notre étude confirme donc la conjecture orthologue, mais en même temps montre qu'elle n'est pas si utile que ça en pratique, puisqu'elle a peu de pouvoir prédictif.

[caption id="attachment_167" align="aligncenter" width="464"] Cliquez pour voir l'original[/caption]

A noter deux contributions cruciales à cette étude : les experts (peer-review), et la science ouverte. Nous avons clairement une dette envers l'expert qui a rejeté notre papier sur la base d'un biais potentiel dans l'origine des annotations. Les experts de la deuxième version ont fourni des avis détaillés et compétents. En ce qui concerne la science ouverte, comment ferions-nous de la bioinformatique sans ? Sans données publiquement disponibles de génomique et d'annotations fonctionnelles, une telle étude serait impossible.


Ceci n'est pas la fin de l'histoire, nous organisons un symposium à Dublin en juin sur le sujet, et je sais que plusieurs collègues travaillent encore à montrer que nous avons tous raté un point clé ou quelque chose comme ça. Et vous pouvez suivre mon collègue Christophe Dessimoz sur twitter @cdessimoz.

mardi 15 mai 2012

Un an de blog

[caption id="attachment_97" align="aligncenter" width="152" caption="cliquez sur l'image"][/caption]

Le premier billet sur l'incarnation précédente de ce blog (sur blogger.com) est paru il y a tout juste un an. Les début furent assez minables, mais j'ai ensuite trouvé un rythme qui me plaît bien, et après tout personne d'autre n'est obligé à me lire. Le plus difficile au début a été d'écrire à propos de science en français, alors que presque toute mon activité professionnelle est en anglais. C'est également intéressant de voir ce qui est clair ou pas pour mes lecteurs, ce qui vous intéresse plus ou moins, et aussi pour moi ce que j'arrive à expliquer facilement, ce que j'écris vite et sans effort, et au contraire les brouillons que je n'ai jamais fini, ou les billets qui ont demandé plus de travail que je n'aurais pensé.

Au passage, ceci m'aura permis de découvrir un univers de passionnés de science et de vulgarisation en français que je ne connaissais pas du tout, moi qui lisais toujours sur internet en anglais.

Et puis tiens, je vais reproduire le résumé de mon blog que j'avais envoyé pour me présenter aux membres de l'association C@fé des sciences :
J'ai commencé à blogger en mai dernier, parce que je lis beaucoup de blogs en anglais tenus par des scientifiques actifs, souvent chefs de groupe. J'apprécie beaucoup ces blogs, et je constate qu'ils sont lus par un mélange de collègues et de personnes intéressées par la science. Je pense que beaucoup de lecteurs apprécient de communiquer directement avec les chercheurs. J'ai donc cherché à faire un blog similaire en français, parce que je trouve que ça manque.

 

Je suis français mais je suis parti depuis 2003, alors j'ai un point de vue un peu externe sur les débats de politique scientifique française. Donc je m'aventure peu là-dedans, et quand je le ferais j'aurais des chances d'être à contre-courant.

 

vendredi 11 mai 2012

Les humains modernes n'échappent pas à la sélection naturelle

[caption id="attachment_147" align="aligncenter" width="189" caption="ne cliquez pas si vous êtes facilement choqués"][/caption]

Un papier récent dans PNAS a fait beaucoup de bruit, peut-être parce que tout le monde croît comprendre les conclusions, mais peut-être aussi parce qu'elles vont contre une intuition très répandue : les auteurs ont montré par une étude détaillée de mariages et de naissances en Finlande entre 1760 et 1849 qu'il existait de fortes variations entre individus. Les rapports sur cet article (Science magazine payant ici, dites-moi si vous avez une source gratuite ou francophone) rapportent ceci comme montrant que la sélection naturelle agissait encore sur les humains très récemment. Or beaucoup de gens ont l'intuition que grâce au confort de la civilisation nous échappons à la sélection naturelle.

Deux remarques :

  1. L'article ne démontre pas de sélection naturelle, puisqu'il ne montre pas de composant héréditaire de la variabilité dans les taux de survie et de natalité. D'ailleurs les auteurs écrivent dans leur résumé qu'ils montrent que les changements de ces derniers 10'000 ans "n'ont pas rendu impossible la sélection naturelle ou sexuelle potentielle dans notre espèce" ("did not preclude the potential for natural and sexual selection in our species"). Pas exactement renversant, hein ?

  2. L'étude porte sur une société pré-industrielle, et en tant que telle ne porte pas sur les conditions en société industrielle moderne. Or l'intuition notée ci-dessus correpondant à un monde avec des supermarchés pleins, des antibiotiques, et des lunettes de vue.


Mais profitons de ce coup de projecteur pour évoquer quelques autres données pertinentes.

D'abord une équipe a étudié il y a deux ans les données correpondant à une cohorte (un ensemble de personnes étudiées médicalement sur la durée) étudiée depuis très longtemps pour suivre les problèmes cardiaques (noter que les personnes sont choisies au hasard au départ, ce ne sont pas des personnes avec problèmes cardiaques). Il y a 5'209 personnes examinées 29 fois entre 1948 et 2008, et leur 5'124 enfants, examinés 8 fois entre 1971 et 2008. Les données des petits enfants sont disponibles en partie, mais n'ont pas été utilisées ici. Les auteurs n'ont pas plus que ceux de l'étude finlandaise accès à la génétique, mais ils ont accès aux traits caractéristiques des individus. Et ils ont les généalogies, qui leur permettent d'estimer l'héritabilité (à noter qu'il peut y avoir une pseudo-héritabilité culturelle). Ils ont donc cherché des traits qui expliquent la variation en succès reproducteur, au lieu de juste mesurer la variation. Le résultat le plus intéressant est qu'ils détectent une tendance à l'augmentation de la durée de reproduction des femmes, à savoir un premier enfant plus jeune et une ménopause plus tardive. Une interprétation est que, dans la mesure où la sélection n'est effectivement plus très forte sur la survie adulte, il est avantageux d'investir dans la reproduction au maximum. Dans des conditions pré-industrielles, il est probable que d'investir trop d'effort (au sens biologique - répartition de l'énergie au sein du corps si on veut) dans la reproduction pouvait mettre en cause la résistance aux maladies ou à la malnutrition. Dans l'Amérique contemporaine, votre corps sera aidé par la société pour ces problèmes, et peut donc mettre le paquet avec moins de risques sur la reproduction.

Pour le point suivant, je n'ai pas de référence précise (c'est mal, je sais), mais dans une présentation récente par Andy Clark, pointure mondiale de la génétique évolutive et notamment humaine, il a affirmé que le gros de la sélection naturelle chez les humains se faisait in utero, et persiste malgré les changements sociaux. A savoir que la plupart des mutations detrimentales ne permettent pas à l'embryon précoce de survivre, et il y a avortement spontané.

La conclusion de l'étude de la cohorte, qui est cohérente avec d'autres études de ce type, est que la sélection naturelle continue d'agir sur les humains y compris dans les sociétés industrielles riches, mais porte d'avantage sur la reproduction que sur la survie post-natale. Un corolaire est qu'il est probable que la sélection sur les hommes soit en faveur d'une reproduction acharnée même si elle est au détriment de l'espérance de vie. En effet du point de vue succès reproducteur, mieux vaut mourir à 70 ans avec 4 enfants qu'à 90 ans avec 1 enfant.

Darwin not dead.

vendredi 4 mai 2012

L'amphioxus, un génome fossile vivant ?

[caption id="attachment_132" align="aligncenter" width="300"] cliquez sur l'image[/caption]

Je vais parler d'un petit article de revue que nous avons publié récemment avec des collègues, sur l'amphioxus.

Les amphioxus sont des chordés, comme nous, mais contrairement à nous pas des vertébrés (voir ce billet de Tom Roud). Ils sont notamment intéressants à étudier parce qu'ils resemblent morphologiquement aux fossiles les plus anciens d'ancêtres de vertébrés. On pense donc que leur anatomie et son contrôle génétique ont beaucoup à nous apprendre sur l'évolution des vertébrés. On a remarqué en préparant notre revue que beaucoup d'articles qui parlent de l'amphioxus utilisent le mot "ancêtre" dans leur titre ou leur résumé, nettement plus souvent que pour d'autres organismes proches des vertébrés (hydres, ascidies). Même si tout le monde sait (ou devrait savoir) que l'amphioxus a continué à évoluer après que nos chemins se soient séparés il y a 700 à 800 millions d'années, on a souvent tendance à le considérer comme un "fossile vivant", et à le traiter dans les analyses comme représentant notre ancêtre. Y compris pour les études génomiques. Nous avons donc décider de vérifier à quel point l'évidence disponible soutient l'idée que le génome d'amphioxus représente celui de l'ancêtre des chordés (y compris des vertébrés, veaux vaches cochons couvée truites  requins et lamproies).

Problème : comme pour la plupart des espèces d'intérêt en biologie évolutive, mais pas d'intérêt en recherche biomédicale, le génome de l'amphioxus a été séquencé, assemblé et annoté avec un budget réduit. Or une séquence de génome ça n'est pas un résultat expérimental. C'est le résultat du traitement de données expérimentales qui sont des centaines de millers de petites séquences d'ADN (selon la technique de séquençage). Ces petites séquences doivent être assemblées en grandes séquences correspondant idéalement aux chromosomes. Mais quand on a n'a pas assez de sous pour faire du séquençage supplémentaire, ni assez de sous pour payer des experts à tout vérifier, on se retrouve avec plein de morceaux d'ADN dont on a la séquence, mais dont on ne sait pas sur quel chromosome ils vont. Pire, comme ça n'est pas une bestiole de laboratoire, on a pour chaque gène deux copies (ou allèles), du papa amphioxus et de la maman amphioxus. Pire de chez pire, l'amphioxus comme beaucoup de bestioles marines (j'essaye de ne pas dire invertébré, ça ne se fait pas) a une variation entre allèles très importante, similaire à celle observée entre deux espèces de mammifères voire plus. Ajoutez à cela que détecter les gènes dans l'ADN une fois séquencé et assemblé pose le même genre de problèmes, et qu'on n'a toujours pas de sous pour payer des experts à tout vérifier, on a une séquence de génome bien malpropre.

Avançons quand même.

Quand on pose la question : "le génome de l'amphioxus est-il similaire au génome ancestral ?", on peut répondre de différentes manières. Nous avons donc choisi différentes métriques, et pour chacune nous avons regardé si l'amphioxus était plus similaire à l'ancêtre prédit (par reconstruction statistique) que d'autres espèces. Nous avons pris comme points de comparaison plusieurs vertébrés : humain, poulet, poisson zèbre, ainsi que des ascidies, une hydre et un oursin, tous relativement proches de vertébrés sans en être (des deutérostomes sauf l'hydre [merci Gabriel pour la correction!]), et plus loin la mouche drosophile, le vers nématode, et une anémone comme espèce ayant divergé il y a très longtemps.

Première métrique : les duplications de gènes. Si on duplique un gène, on passe de une à deux copies dans le génome (ne pas confondre avec des allèles, merci), qui peuvent potentiellement diverger en fonction (objet d'un futur billet de blog, promis). Cela donne une forme de divergence par rapport à l'ancêtre. On sait que l'ancêtre des vertébrés a subi deux duplications complètes du génome, donc tous les gènes fois quatre au moins temporairement, et qu'en plus l'ancêtre des poissons téléostéens (99% des poissons que vous connaissez) en a eu une troisième. Malgrès des pertes très importantes de dupliqués redondants après ces duplications de génomes, on constate qu'elles dominent le paysage des duplications chez les animaux étudiés. Donc l'amphioxus a bien moins de dupliqués que les vertébrés, alors que le poisson zèbre (téléostéen bon teint) en a le plus. Donc l'amphioxus est plus ancestral que nous, mais pas plus que les autres qui ne sont pas des vertébrés.

Deuxième métrique : les pertes de gènes. Encore une petite note méthodologique d'abord. On détecte les gènes à comparer (homologues) par similarité de séquence. Donc on ne peut pas vraiment distinguer des gènes ayant beaucoup divergé en séquence, de gènes ayant été vraimement perdu. On va faire avec ce qu'on a. On constate d'abord que l'amphioxus est l'espèce qui a gardé le plus de gènes en commun avec l'anémone ; l'amphioxus marque des points d'ancestralité ici. Si on compare à l'ancêtre des chordés reconstruit par bioinformatique, l'amphioxus et les vertébrés en ont perdu peu, alors que les ascidies en ont perdu plein (le diagramme de Venn ci-dessous représente une partie de ces résultats). Donc selon les métriques, l'amphioxus gagne tout seul ou ex-aequo.

[caption id="" align="alignnone" width="308"] Diagramme de Venn des pertes de gènes[/caption]

En combinant ces résultats, on trouve que l'amphioxus se trouve à la fois dans le groupe avec peu de duplications, et dans celui avec peu de pertes. Il est donc bien le plus proche de l'ancêtre. Mais il n'est pas ancestral pour autant, car il y a bien dupliqué environ 10% de ses gènes, et perdu environ un tiers.

Enfin, nous avons vérifié la conservation de position des gènes sur les chromosomes. Les ascidies c'est n'importe quoi, aucune conservation ces pauvres bêtes. Les plus conservés sont le poulet parmi les vertébrés, et l'amphioxus parmi les autres. Alors si les duplications de génome ne vous dérangent pas, le poulet représente mieux l'ordre ancestral ; si vous voulez la version non dupliquée, c'est l'amphioxus. A noter que l'amphioxus part avec un désavantage, vu le mauvais assemblage de son génome par nous autres biologistes feignants. Il est possible qu'avec des progrès techniques on trouve une meilleure conservation encore.

Observation intéressante, grâce à la conservation de position des gènes, on a pu étudier des séquences régulatrices conservées entre amphioxus et vertébrés, quelque chose que l'on n'a pas pu faire chez les ascidies. Ce qui veut dire que l'on peut étudier l'évolution du contrôle de l'expression des gènes.

Notre conclusion est donc que l'amphioxus n'a pas un génome fossile, mais qu'il évolue effectivement plus lentement. Donc prendre l'amphioxus pour l'ancêtre, non. Comparer à l'amphioxus pour comprendre notre évolution, oui.