vendredi 20 juillet 2012

Jetez pas le bébé revue par les pairs avec l'eau du bain arsenic

[caption id="attachment_340" align="aligncenter" width="193"] Cliquez sur l'image[/caption]

Dans un commentaire sur la conclusion récente (ici et ici) de l'affaire de la bactérie à l'arsenic (voir ici, ici et ici pour quelques rapports de blog sur la découverte à l'époque, ici pour ma réaction), dans Libé, il y a des citations de Phlippe Marlière, qui est apparemment un spécialiste de la biologie synthétique (quelques refs trouvées sur internet : CNRS, Libé, article récent) (j'aimerais bien que les chercheurs français aient des pages web, mais bon). Je ne suis carrément pas d'accord avec ce qu'il dit. Vu que j'ai trouvé l'article en question un peu tard, et que mon commentaire est relativement long, je vais commenter ici et non sur le site de Libé.

Je cite des morcaux choisis :

"la saga de l’arsenic nous donne comme une démonstration par l’absurde de ce que la solennité de l’évaluation par les pairs et le prestige de certaines revues peuvent n’être d’aucun secours dans la recherche de la vérité scientifique. J’irai jusqu’à dire que le processus de publication est devenu l’obstacle majeur à la recherche" ... "Manifestement, l’évaluation des manuscrits par les pairs, cette tradition venue du fond des âges ecclésiastiques, ne garantit plus la qualité ni l’intérêt des publications dans les revues de haut niveau. Elle s’est allégée de sa puissance purificatrice et alourdie de toutes les nuisances de la peopolisation, du conformisme intellectuel et du marketing. La science doit dorénavant faire appel aux subversifs venus des autres domaines culturels pour libérer la publication de ses découvertes."

Premièrement, merci de s'exprimer clairement quand on parle de science.

Deuxièmement, l'évaluation par les pairs ne vient ni du fond des âges, ni de l'Eglise (histoire dans Wikipedia anglophone). Elle s'est imposée au cours du 20ème siècle comme le moyen le plus efficace de trier les articles scientifiques, souvent les améliorer au passage, en minimisant le copinage (oui ça n'est pas parfait, mais c'est mieux qu'être copain de l'éditeur en chef). Bien sûr, on peut imaginer des améliorations, et plusieurs sont en discussion, voire testées (voir ce billet).

Troisièment, cette évaluation n'a jamais prétendue garantir la vérité, mais aider autant que possible à publier des articles pertinents, nouveaux, lisibles et comprenant les contrôles nécessaires. Oui le journal Science s'est planté pour le papier sur les bactéries à l'arsenic, mais si vous avez une solution qui fait 0% d'erreurs, merci d'appeler l'industrie aéronautique, ils sont intéressés.

Quatrièmement, obstacle majeur à la recherche ? A l'heure où on peut tous déposer des résultats non évalués sur ArXiv, voire sur un blog, où des journaux comme PLoS One publient sans critère d'impact (déclaration de conflit d'intérêts : je suis membre du comité éditorial bénévole) ? Sérieux ?

Ce qui est grave avec des interviews comme celle-ci, c'est qu'elle présente dans un grand média un point de vue extrême et non justifié sur le fonctionnement de la science comme factuel. Ceci ne peut que nourir les incompréhensions existant déjà sur le fonctionnement de la science (voir les commentaires en anglais ici par exemple). Comment expliquer que le refus des médecines alternatives de se soumettre à la revue est un problème, quand on vient de dire que c'est cette revue qui est le problème ? Comment distinguer une hypothèse farfelue (les sirènes existent ! voir aussi ici) d'une vraie découverte scientifique (un ancien fossile hominidé vu par scanner ) ? On peut aussi comparer cette discussion surréaliste sur la page Facebook de créationistes (archivée sur Panda's Thumb) à la réponse sur un blog par un journaliste scientifique sérieux... basée sur des articles "revus par les pairs".

Alors oui, la revue par les pairs n'est pas parfaite (je me répète), oui il se publie des erreurs, mais non il n'y a pas une clique de grands prêtres scientifiques qui décident de manière arbitraire de mettre un imprimatur "scientifique" sur certaines choses et pas d'autres au gré de leurs envies (voire des complots auxquels ils participent bien entendu). Et oui, dans le cas général l'évaluation par les pairs trie efficacement le bon grain de l'ivriae, et améliore significativement les articles scientifiques, en amont (on fait des contrôles parce qu'on a peur sait que les experts les demandent) et en aval (leurs remarques sont souvent pertinentes, même si elles ne font pas plaisir).

mercredi 18 juillet 2012

vendredi 13 juillet 2012

Grandeur et chute de la bioinformatique ? Promesses et progrès

[caption id="attachment_301" align="aligncenter" width="400"] cliquez sur l'image[/caption]

De manière exceptionnelle, ce billet va consister pour l'essentiel en la traduction d'un article paru dans une revue spécialisée. Il s'agit d'un article d'opinion, écrit par Christos Ouzounis, bioinformaticien grec, qui décrit de manière que je trouve intéressante l'histoire de la bioinformatique, discipline jeune, et de ses relations avec le reste de la biologie.

J'ai le droit de traduire et publier cet article parce qu'il est publié dans PLoS Computational Biology sous copyright Creative Commons, ce qui nous rappelle l'utilité de la publication ouverte en sciences. J'ai quand même demandé l'autorisation de Christos, par politesse, et il me l'a volontiers donnée. Ma traduction n'a pas préservé les citations bibliographiques, ce qui m'aurait réclamé un travail supplémentaire que je n'avais pas le temps de faire. Déjà, je dois dire que si je m'étais rendu compte du travail que cela représenterait, je n'aurait pas entrepris de le faire.

En plus de traduire l'article, je vais ajouter mes commentaires dans un format un peu différent, comme ceci.


Dernier point : j'ai déjà tendance à faire des anglicismes en temps normal (mon activité scientifique étant en anglais), donc dans la traduction il y en aura surement d'autant plus. Je m'en excuse par avance.

 

vendredi 6 juillet 2012

Annoter un gène, un génome, c'est quoi ?

[caption id="attachment_258" align="aligncenter" width="267"] cliquez sur l'image[/caption]

En réponse aux questions obtuses de JRobinss (ex Julien) sur le billet "conjecture orthologue", je vais expliquer le mot annotation en contexte de bioinformatique / génomique, et au passage montrer que dans la biologie moderne, les expériences fournissent des données incompréhensibles et inutiles à moins que de bons et nobles bioinformaticiens ne leur donnent du sens.

Au début, était le génome. On l'a séquencé. Qu'est-ce que ça veut dire ? Ca veut dire qu'on a lu la suite des nucléotides, ou bases, qui le constituent. Et ça nous apprend quoi ? En première approximation, rien. Pour expliquer plus avant, nous allons plonger à corps perdu dans les analogies. Les analogies sont de mauvais guides pour le raisonnement, mais parfois une bonne manière d'expliquer (sauf quand c'est moi, mais c'est mon blog).

Alors un génome est une suite de bases comme du texte écrit est une suite de lettres. Ou d'idéogrammes, ça dépend comment c'est écrit. Prenons justement l'exemple des idéogrammes. Supposons que vous ne lisiez pas le chinois (une supposition peu risquée pour la plupart de mes lecteurs je pense), et qu'on vous offre l'oeuvre intégrale de Confucius en version originale. Si vous parcourez toutes les pages, et regardez tous les caractères, vous aurez d'une certaine manière "lu" Confucius. Mais on est d'accord que ça ne vous aura pas apporté grand-chose. Si je vous montre la séquence complète du génome humain, ça sera à-peu-près pareil.

Bien sûr on ne sait pas rien du génome, alors disons que vous avez pris un an de cours de chinois. Vous commencez à reconnaître des caractères ici et là, vous pouvez lire une phrase simple, vous reconnaissez la structure. Mais le plus gros ne fait toujours pas sens.

Alors ça c'est trop simple, vous savez que dans le livre tous les caractères font sens, et sont utiles à la compréhension du tout. Dans un génome, vous ne savez pas où sont les gènes, les séquences régulatrices, et les morceaux qui ne font rien. Donc on va compliquer l'analogie. Maintenant on va recoder Confucius en Unicode, et ajouter à des endroits au hasard (y compris donc au milieu des phrases) des séries de caractères alphanumériques aléatoires.

Je vous donne ceci, et votre mission est de : trouver les codes correspondant à des caractères chinois, les décoder, comprendre le sens de ces caractères (qui n'aura pas toujours une traduction française non ambigue), comprendre le sens des phrases qu'ils composent, et finalement comprendre l'oeuvre de Confucius. Facile.

Eh bien annoter un génome, c'est ça. On doit trouver les éléments fonctionnels (gènes - qui peuvent être coupés en morceaux, séquences régulatrices des gènes, etc), définir au moins d'une certaine manière ce qu'ils font (leur fonction), et si possible définir la façon dont ces éléments fonctionnent ensemble pour faire de la biologie, une cellule, un organisme.

Comme le programme complet est très ambitieux, et franchement pas faisable en l'état de nos connaissances (on est en 2ème année de chinois là), on se focalise généralement sur deux objectifs :

  • Définir les éléments fonctionnels du génome ; pour les gènes codant pour des protéines c'est presque facile, pour le reste on galère encore pas mal mais on progresse.

  • Définir la fonction au moins des gènes à un niveau simple, genre "c'est une enzyme impliquée dans la digestion". C'est de ce type-là d'annotation qu'on causait dans le billet précédent sur les orthologues. La question était donc de voir si on avait annoté les orthologues avec des fonctions similaires, et on trouvé trouvait surtout que les annotations dépendaient de la personne qui avait fait l'étude.


Je pousse mon analogie un peu loin, là, mais disons que si deux groupes d'étudiants "annotent" comme ceci deux versions différentes de Confucius (en mandarin et en cantonais, allez), et qu'ils ont étudié avec des profs différents et qu'ils ont des intérêts différents, on aura peut-être des traductions plus similaires entre chapitres d'une même version, qu'entre chapitres correspondant des deux versions, non pas parce que les textes sont vraiment plus similaires, mais parce qu'ils se focalisent sur les mêmes ensembles limités de mots, et font les mêmes choix lorsque c'est ambigu. (Pour que l'analogie marche vraiment faudrait des chapitres dupliqués qui ont presque mais pas tout-à-fait le même sens, mais ça devient vicieux.)

Bon j'espère que c'est plus clair, sinon enguelez-moi dans les commentaires. En tous cas, vous pouvez constater que la biologie c'est bien compliqué, allez, et c'est pour ça qu'en même temps que lire une séquence d'ADN devient de plus en plus facile, la comprendre reste un défi.