vendredi 25 janvier 2013

Pourquoi est-ce que j'ai dit non à un "challenge" de Philip Morris International ?

[caption id="attachment_763" align="aligncenter" width="215"]snazzy Cliquez sur l'image[/caption]

J'ai récemment été contacté pour participer à un challenge intéressant et pertinent à ma recherche, dans le cadre du Systems Biology Verification (SBV) IMPROVER project. Le hic, c'est que c'est organisé et financé par Philip Morris International, une petite compagnie de tabac dont vous avez peut-être entendu parler.

J'ai dit non.

Alors ceci pose la question : pourquoi ai-je dit non, alors que j'aurais peut-être dit oui si c'était financé par une autre industrie ?

Dans une industrie normale, la recherche & développement peut avoir des objectifs légitime. Même que s'il n'y en avait pas, ça serait bien embêtant. Ces industries répondent à des besoins légitimes. On peut discuter de la mise en oeuvre, et penser que certaines chose pourraient être mieux faites, mais quelque chose doit être fait. Par exemple le junk food c'est pas bien, mais faut bien manger, donc il y a la place pour pour une R&D légitime et utile dans l'agro-alimentaire. Les gros 4x4 c'est pas bien, mais faut bien se déplacer, et y a de la place pour une R&D légitime et utile sur des moteurs économes et peu poluants. Etc.

Mais quel peut être l'objectif de la R&D dans l'industrie du tabac ? Rendre le tabac légèrement moins dangereux ? Y a plus simple : y a qu'à pas fumer. Ce n'est pas un besoin légitime. Et la recherche soutenue par l'industrie du tabac a un autre intérêt : semer le trouble et le doute sur la recherche qui montre de manière claire et non ambigue que le tabac est un abominable poison. Ca peut être subtil, souvent en soutenant de la recherche sur des causes légitimes permettant de mettre le projecteur ailleurs.

Dans le cas de ce "Challenge", le thème est "Species translation", et semble être sur les problèmes de transfer des résultats expérimentaux entre espèces. Par exemple les problèmes à étendre à l'humain des résultats de toxicologie établis chez des rats ou des souris. C'est bien une question légitime, mais on sent qu'il y a un certain avantage pour le producteur de produits toxiques à mettre ceci en avant.

Mise à jour : version anglaise du billet sur mon nouveau blog universitaire en anglais, pour ceux qui veulent partager avec des non francophones.

vendredi 18 janvier 2013

Pas si petits, les mammifères du temps des dinosaures ?

[caption id="attachment_717" align="aligncenter" width="122"]mammal
Cliquez sur l'image[/caption]

On a tous en tête le cliché des mammifères petits comme des souris qui vivent dans l'ombre des mammifères dinosaures. D'abord, je ne sais pas vous mais moi j'ai toujours en tête les "reptiles mammliens", qui sont aussi nos ancêtres après tout, ne sont pas si ridicules que ça :

[caption id="" align="alignnone" width="420"] Dimetrodon en jette, non ? Un ancêtre à moi[/caption]

Mais ça n'est pas de ça que je veux parler aujourd'hui, mais bien des bestioles qui vivaient au crétacé. Généralement parlant, on connait les ancêtres des mammifères placentaires (tous les mammifères sauf les marsupiaux [kangourous, koalas, tout ça] et les monotrèmes [ornithorynque, echnidés, c'est tout]) par quelques dizaines de fossiles pas très gros. Donc on suppose qu'ils étaient petits, et pas très répandus. Dans un nouvel article, Romiguier et al. se sont basés sur les séquences d'ADN des génomes de mammifères plaentaires vivants pour arriver à une estimation indirecte.

Nicolas Galtier, le dernier auteur de cet article (place prestigieuse en biologie), développe depuis longtemps des méthodes bioinformatiques permettant de reconstruire avec une bonne confiance des caractéristiques de séquences ancestrales à partir des séquences modernes. Notamment le taux de GC. A savoir que l'ADN est constitué de 4 bases, A, C, G, T, qui forment des paires de liaison qui tiennent ensemble la double hélice d'ADN : G-C ou A-T. Le taux de GC est tout simplement la fréquence des G et des C dans la séquence totale. Si tout était au hasard et équilibré, on aurait toujours 50%, avec la variance due à une loi de Poisson. Mais en fait le taux de GC varie très largement, entre génomes et entre régions de génomes. Et de manière intéressante il corrèle avec plein d'autres paramètres, tels que la température optimale de survie des bactéries (vrai seulement pour le taux de GC de certains ARN). C'est ainsi que dans le passé, avec un modèle de prédiction du taux de GC ancestral, il a calculé que l'ancêtre commun de tout le vivant ne vivait probablement pas aux hautes températures que l'on pensait jusqu'alors.

Dans ce nouvel article, ils utilisent deux autres corrélations : les mammifères avec la vie la plus courte ont d'une part un taux de GC plus élevé, et d'autre part une sélection naturelle sur les protéines plus forte (dN/dS plus faible, pour les pros). Pour ces deux paramètres on sait reconstruire l'état ancestral si on a assez de données. Ici ils ont utilisé 787 gènes partagés par 33 espèces de placentaires, ce qui est tout-à-fait correct comme échantillonage.

D'abord une précision, dans ce que l'on appelle "traits d'histoire de vie" il y a plein de corrélations qui font que la causalité est parfois difficile à établir. Les espèces qui ont une vie courte ont donc un temps de génération court, ont des individus petits, un métabolisme élevé (quoique le contraire vient d'être trouvé dans des papillons, bizarre autant qu'étrange), etc. Ce que l'on voit au final c'est un genre de résumé de tout ceci.

Et paf, l'ancêtre commun des placentaires est prédit avec une longévité de 33,3 ± 7,6 années (dans la litérature scientifique on note généralement ± l'écart-type, ce qui veut dire que l'intervalle de confiance à 95% est ici 18,4 à 41,2 48,2 années) par le GC, et de 19 à 45 années par la sélection sur les protéines. Pas exactement le cliché de la souris cachée sous un rocher (pour les souris la longévité est estimée à 4 ans max). De telles espérences de vie correspondent à un gros mammifère terrestre, ou à un moyen arboréal (les corrélations sont légèrement différentes pour les espèces vivant dans les arbres).

Pourquoi l'incohérence avec les fossiles ? D'abord, on n'en a pas beaucoup, 81 bien documentés d'après cet article. Ensuite, de grosses espèces peuvent être plus rares et moins fossiliser. Plus important, certains environnements se prêtent bien à la fossilisation, d'autres moins. Par exemple la forêt tropicale, au sol très acide, préserve très mal les restes d'animaux morts. J'ai entendu un paléontologue plaisanter une fois que les lémuriens sont tous apparus ces derniers 1000 ans, puisqu'ils n'ont laissé aucun fossile dans leur île tropicale (on ne les trouve qu'à Madagascar). Alors si nos ancêtres placentaires du temps des dinosaures vivaient dans ce genre d'environnement, pas de chance. A noter que les résults intermédiaires de l'analyse, vérifiables par des fossiles plus abondants (évolution des chevaux ou des éléphants), sont cohérents avec ces fossiles.

Un avantage des données génomiques, c'est que l'on peut échantilloner les espèces modernes de manières équilibrée, sans être victime de ce genre de biais, et que l'on peut utiliser des modèles qui prennent en compte et la variation des modes et taux d'évolution au cours du temps, et la structure en arbre de l'évolution. Ce que je veux dire par là c'est que même si beaucoup d'espèces modernes sont de petits rongeurs, comme ils sont tous proches parents ils nous en apprennent moins qu'un dauphin, un chien et une chauve-souris. Enfin, les données moléculaires ont l'avantage d'être en grande quantité et relativement standardisée (A, C, G, T, plutôt que "orientation de l'oreille interne"). Bien sûr les fossiles restent notre seule fenêtre directe dans le passé lointain.

Finalement les auteurs font remarquer à juste titre que pas mal d'espères grosses et à espérance de vie élevée ont survécu à la météorite qui a tué les dinosaures et pas mal d'autres groupes : les crocodiles ou les tortues par exemple.

Ce papier n'est surement pas le dernier mot sur l'étude de l'évolution ancienne des mammifères, mais j'aime bien l'éclairage nouveau qu'il donne.

vendredi 11 janvier 2013

Rions un peu avec les méthodes scientifiques et Twitter

[caption id="attachment_727" align="aligncenter" width="289"]twitteradict Cliquez sur l'image pour faire un quizz[/caption]

Ces derniers jours il y a eu une floraison de tweets humouristiques de scientifiques, sur le thème, "les vraies méthodes utilisées en science qu'on n'ose jamais écrire". C'est sous le hashtag (mot-clé Twitter) #overlyhonestmethods. Y en a plein de hilarants, je vous conseille de lire ça tant que c'est disponible. Ca a été lancé par un neuropharmacologue apparemment. Y a des résumés et des best-of ici, ici, ici, et surement ailleurs. (Mise à jour : voir aussi liens dans commentaires.)

Quelques-un de mes favoris (parmi ceux que j'ai réussi à retrouver ou me rappeler), en traduction approximative, avec commentaire dessous des fois :
J'ai utilisé des étudiants comme sujets, parce que les rats coutent cher et on s'y attache.

Mon préféré !
Quand on a fait tomber un échantillon à terre, on a totalement respecté la règle des 5 secondes

"Règle" que si quelque chose est resté à terre moins de 5 secondes (3 selon certains) ça n'est pas contaminé. Je ne l'ai jamais vu appliqué à autre chose qu'un biscuit pour de vrai.
On a fait tourner les échantillons à 1300 rpm, parce qu'après la machine fait un bruit inquiétant.

Ah vous voulez des méthodes que vous pouvez suivre ? Pff, regardez la couverture du journal, c'est Nature ici

Dans les journaux très prestigieux comme Nature et Science, il n'y a presque pas de place pour les méthodes, qui sont généralement peu détaillées et incompréhensibles.
On voulait voir ce qui se passerait si on faisait X, juste pour s'amuser. Super explosion ! On a trouvé une hypothèse plus tard.

On a laissé incuber pour la durée du repas.

Y a beaucoup de variantes sur le thème "on a choisi un temps d'expérience correspondant au repas, à la pause café, à rentrer dormir une bonne nuit, à avoir un week-end peinard".
Le pH du tampon a été ajusté avec du HCl, puis dans l'autre sens avec du NaOH... puis encore un peu de HCl...

On a utilisé ce programme, parce que tout le monde le fait, non ?

Vous pouvez télécharger notre code à l'URL fournie. Bonne chance pour télécharger la seule personne qui arrive à le faire fonctionner.

Les données sont anciennes parce qu'entre la première version du papier et la finale, j'ai eu un bébé.

Et ceux que j'ai écrit moi-même :
Nous avons utilisé une méthode que nous ne connaissons ni ne comprenons parce que le reviewer 2 nous l'a demandé et les résultats ne nous dérangent pas de toutes façons.

Je n'ai jamais fait ça ! Mais j'ai été tenté, et j'ai parfois utilisé une méthode dont je pense qu'elle n'apporte rien parce qu'on me l'a demandé et qu'en effet ça ne contredisait pas mes résultats (mais je comprenais pourquoi - je crois). Ma contribution la plus retweetée à ce bazar.
Nous n'avons pas utilisé la parsimonie parce que les cladistes étaient tellement arrogants dans les années 90.

Très technique, et d'ailleurs pas retweeté. Les intéressés se reconaitront.
Les calculs ont été effectués sur un super-ordinateur, un cluster, un grid et le cloud pour justifier nos financements. Résultats montrés : viennent de mon PC.

Alors c'est une grosse exagération, mais ça arrive qu'on doive justifier de l'usage d'une resource informatique alors qu'on n'a pas encore l'application pertinente, et qu'on fasse un calcul qui aurait pu se faire ailleurs. Normalement, c'est parce qu'on va vraiment utiliser la resource bientôt et qu'il faut mettre au point. Mais j'ai expertisé des papiers où j'ai vraiment l'impression qu'ils ont fait ça.
On a utilisé Uniprot pour la Figure 1 et Ensembl pour la Figure 2 parce qu'ils ont été faits par des postdocs différents à 2 ans d'écart.

Un peu simplifié pour le tweet, mais il m'est arrivé en gros ça : des sources de données différentes utilisées à différents endroits du papier parce qu'il a été tellement long à préparer. Dans ces cas-là, on ajoute normalement un contrôle pour vérifier que ça ne biaise pas le résultat.

Moi j'ai trouvé beaucoup de ces tweets hilarants. Un truc auquel on pourrait s'attendre c'est que des anti-science ou anti-intellectuels se précipitent dessus pour dire "voilà la face noire et cachée de la science, voilà à quoi ils dépensent nos sous, j'avais bien dit qu'on ne pouvait pas leur faire confiance". Plus inatendu pour moi, des scientifiques s'inquiètent de ce que ces tweets montrent des pratiques scientifiques douteuses (par exemple ici). A quoi je répond, détendez-vous les gars.

Et à tout seigneur tout honneur, il faut noter que PhD Comics avait anticipé cet humour :

[caption id="attachment_729" align="aligncenter" width="508"]phdcomicsmethods cliquez dessus[/caption]

 

vendredi 4 janvier 2013

Redif : test de l'oignon

Pendant les fêtes, je vais faire quelques rediffusions de billets de mon ancien blog sur blogspot. Voici la troisième et dernière redif. Billet original ici.









cliquez sur l'image

Intuitivement, on s'attends à ce que les organismes plus complexes aient besoin d'un génome plus complexe pour coder tout ça. Pas du tout, il n'y a aucun rapport évident entre complexité de l'organisme et taille du génome. Cela s'appelle le "paradoxe C". (Parce qu'au temps où on savait peu de choses sur l'ADN, on avait remarqué que tous les individus d'une espèce en avaient autant ; oh une constante dirent les biologistes envieux des physiciens, appellons-la "C" ; ergo C = quantité d'ADN par cellule dans une espèce, et on s'en fout ; pourquoi ? on y vient.)

Solution au paradoxe C : c'est pas tout des gènes, loin de là. Donc les organismes plus complexes ont plus de gènes, peu importante l'ADN pourvu qu'on ait les protéines. Alors et de une, ça ne marche pas non plus. Vers nématode, 1000 cellules à tout casser, 20 000 gènes. Humain, capable d'inventer des bombes atomiques, 20 000 gènes (vous me direz, il a des transcrits alternatifs ; allez lire Sandwalk et laissez-moi tranquille). Argl gosh. Et de deux, ça laisse un autre problème vexant : à quoi sert tout cet ADN qui n'est pas des gènes ?

Alors il y a deux écoles en gros :

  1. Ceux qui disent que ça doit forcément servir à quelque chose, mais on ne sait pas encore à quoi. Ils poussent des cris de victoire chaque fois qu'un article découvre une nouvelle fonction pour 0,1% du génome humain. Curieusement, ils se recrutent dans deux camps : les né0-Darwinistes orthodoxes, pour qui toute l'évolution s'explique forcément par la sélection naturelle, donc tout doit servir à quelque chose. Et les créationistes, pour qui tout a été crée par le Père Noël pour une raison, et donc doit servir à quelque chose. (Pas si curieusement que ça au fond : le Darwinisme est une réponse à la théologie naturelle, les deux répondent à la question de l'adaptation fonctionnelle des organismes, et s'opposent aux approches dites structuralistes, qui répondent à la question de la forme des organismes, y compris ce qui ne sert à rien.) (trop de parenthèses aujourd'hui, vous ne trouvez pas ?) (trop de parenthèse tue la parenthèse.

  2. Et ceux qui disent que non c'est de la merde ("junk" en jargon technique), ça ne sert à rien. Plutôt des neutralistes, à savoir des gens qui pensent que la plus grande partie de l'évolution moléculaire est due au hasard.


Et c'est là que viennent les onions oignons. T. Ryan Gregory, qui étudie les variations de taille des génomes, a proposé le test de l'oignon pour tous ceux qui déclarent avoir trouvé l'explication ultime pourquoi tout cet ADN sert à quelque chose (quelle phrase moche mais j'ai la flemme de chercher mieux). Le test c'est que votre explication doit expliquer deux choses simples : pourquoi l'oignon que l'on mange, Allium cepa, a 17 pg d'ADN alors que nous les humains n'en avons que 3,5 pg. Et pourquoi des espèces d'oignonoïdes qui se ressemblent et vivent heureusement à l'état de nature ont entre 7 et 31,5 pg d'ADN. S'il y a des biologistes moléculaires qui me lisent, tous les détails techniques du défi sur le blog de Gregory.

 

Vous aurez deviné que je me classe dans les neutralistes bien sûr. Comme tous les gens beaux, drôles et intelligents. Voir aussi cette excellente collection d'essais sur le blog Sandwalk (par un prof de biochimie canadien).