vendredi 27 janvier 2012

#Wikipedia est une excellente source d'informations scientifiques et médicales

cliquez sur l'image (et n'oubliez pas de cliquer sur le point rouge)
Je commence ce billet par une constatation double : beaucoup de mes collègues et moi-même faisons un usage abondant et pertinent de Wikipedia dans notre vie professionnelle (vous croyez que je connais tous les gènes, tous les organes, toutes les bestioles ?) ; et d'autre part beaucoup de personnes à l'université continuent à décourager les étudiants d'utiliser Wikipedia, et à le traiter comme une sous-resource, pour paresseux. Je trouve ça choquant, et je le prouve.

Une étude récente (malheureusement d'accès payant paradoxalement) dans le journal Psychological Medecine a comparé l'information concernant des pathologies liées à la schizophrénie (5 pathologies) ou à la dépression (5 pathologies) entre différentes sources d'information : les sites internet arrivant en tête de recherches pour "depression" ou "schizophrenia" (14 sites au total), y compris Wikipedia mais aussi des sites plus officiels, comme celui du National Institute of Mental Health, ainsi que l'Encyclopedia Britanica en ligne, et un livre de psychiatrie utilisé en études de médecine.

En comparant ces différentes ressources, ils trouvent, et je cite :

The quality of information about depression and schizophrenia on Wikipedia was generally rated higher than other centrally controlled resources, including 14 mental health-related websites, Encyclopaedia Britannica and Kaplan & Sadock’s Comprehensive Textbook of Psychiatry.

En d'autres termes, et comme ils précisent plus loin, les articles de Wikipedia sur des sujets de santé contiennent peu d'erreurs factuelles, malgré un certain manque de couverture. Ils sont également bien référencés, mais paradoxalement peuvent être difficiles à comprendre. Ils sont généralement meilleurs en moyenne que les autres sources, y compris le livre spécialisé.

De manière intéressante aussi, bien qu'un avantage majeur de Wikipedia sur le livre est sa mise à jour fréquente et rapide, le livre fait mieux que la plupart des sites web officiels. Ces sites sont moins bons que le livre, mais pas plus à jour. Au moins, ils sont gratuits.

Ceci nous amène à un second point, qui est qu'il est difficile de maintenir de l'information scientifique ou médicale à jour de manière centralisée, avec des ressources forcément limitées.

Il y a un autre article récent sur ce sujet dans le numéro spécial annuel sur les bases de données en biologie (NAR Database, entièrement gratuit) : les auteurs discutent de l'intégration entre Wikipedia, ou d'autres approches participatives, avec des bases de données spécialisées de biologie. Ils partent de leur expérience positive avec les bases de données Pfam (domaines protéiques) et Rfam (ARNs fonctionnels) : les données structurées sont dans une base de données SQL dédiée, mais les annotations en texte qui décrivent la fonction des molécules passent par Wikipedia. Plus précisément, à un moment ils ont exporté toute leur information vers Wikipedia, et depuis ils récupèrent toutes les modifications qui sont faites dans les pages Wikipedia correspondantes, et les remettent dans Pfam et Rfam.

Par exemple, l'article sur mon domaine préféré, de liaison aux hormones des récepteurs nucléaires d'hormones : dans la page Pfam il y a de l'information textuelle, avec un bouton "Edit in Wikipedia". On clique dessus, et on arrive sur la page Wikipedia correspondante, en mode édition directement qui plus est. Et là-dedans vous avez de jolies boîtes avec de l'information structurée venant de Pfam. C'est beau c'est grand c'est magnifique.

Ils ont des curateurs qui vérifient les infos venant de Wikipedia, et ils en acceptent 99%. Ils ont des milliers d'éditions par an, donc beaucoup d'informations pertinentes, à jour, et ... gratuites. Et disponibles à tous !

Ils regardent aussi d'autres modèles d'intégration avec Wikipedia, et les limitations. Par exemple, Wikipedia a un critère d'intérêt général, qui fait qu'on peut avoir une entrée par gène humain, ou par domaine protéique (partagé par plein de protéines), mais pas une entrée par gène de poisson épinoche, ou par variant de gène humain. Une autre limitation est la règle "pas de travaux inédits", qui interdit d'ajouter des infos que vous avez obtenu de vous-même, même par une méthode toute bête et simple. Or une base de données scientifique ne peut pas toujours accepter ces limitations. Et les wiki spécialisés ne marchent généralement pas aussi bien que Wikipedia, c'est peu de le dire.

Leur conclusion, et c'est là où je trouve que ces deux articles à priori bien distincts se rejoignent, est que nous ne pourrons maintenir à jour une information pertinente en biologie (et médecine donc) qu'en s'alliant à Wikipedia (et autres ressources des foules) de manière intelligente. Je suis bien d'accord, d'ailleurs j'utilise déjà Wikipedia. Il ne me reste plus qu'à devenir intelligent.

vendredi 20 janvier 2012

Le Muséum #MNHN est bien mais nous montre une classification pré-moléculaire et erronée des mammifères

cliquez sur l'image
Récemment j'ai visité la grande galerie de l'évolution du Muséum national d'histoire naturelle (MNHN). L'expo est très bien faite, pour les enfants et pour les adultes, et contient plein d'infos scientifiques pertinentes. En plus ils font un excellent boulot d'expliquer clairement des concepts compliqués, comme la génétique ou la notion d'espèce. Mais voilà, je suis un chieur scientifique, alors voici mon ralâge.

Une des notions essentielles en biologie évolutive, et plus généralement pour comprendre le monde vivant, est la phylogénie, ou arbre des espèces. D'ailleurs ils expliquent cela très bien avec un arbre tout simple et mignon (vous ne trouvez pas ça mignon ?) :

Cet arbre simple est correct, c'est cool
Cet arbre a plusieurs avantages. L'un, c'est qu'il montre des espèces bien distinctes, dont les relations ne font pas débat. Un autre c'est qu'il permet bien d'expliquer ce qu'est un arbre évolutif : les branchements de l'arbre montrent comment les espèces ont divergé les unes des autres au cours de l'évolution, avec en bas le temps ancien de l'origine des animaux, et en haut les espèces modernes (oui un vers de terre c'est moderne, oui monsieur, oui madame, une étoile de mer aussi, parfaitement). Donc en lisant du haut en bas on voit que les branches lient ensemble d'abord les espèces les plus proches (deux mammifères, un minou-oïde et un humanoïde), puis un peu moins proches (trois vertébrés), puis de moins en moins proches (l'étoile de mer, un deutérostome comme vous et moi), puis enfin des espèces qui n'ont en commun que d'être des animaux (c'est pas mal déjà remarquez). Un troisième avantage de cet arbre, c'est qu'il est illustré par le type d'évidence que l'on utilise pour reconstruire de tels arbres évolutifs.

A savoir que les deux mammifères, qui sont aussi les deux seuls tétrapodes de l'arbre, sont regroupés par le fait d'avoir des membres de tétrapode, et les trois vertébrés (qui sont tous des vertébrés à mâchoire, contrairement aux lamproies par exemple) sont regroupés par le fait d'avoir un crâne avec une mâchoire. Dans ces deux cas, le type d'évidence est morphologique : on observe qu'un ensemble d'espèces partagent des structures morphologiques, qui ne sont pas partagées par les autres espèces ; la façon la plus simple d'expliquer cela est que ces structures ont été héritées d'un ancêtre commun, et que donc ces espèces sont apparentées de manière plus proche entre elles qu'avec les autres espèces. Il y a plusieurs avantages à cette approche, et plusieurs désavantages.

L'avantage principal, c'est qu'on a des fossiles pour les structures morphologiques, donc on peut dans une certaine mesure dater les caractères, et tester les hypothèses d'ancêtres communs.

Les désavantages sont plus nombreux à mon avis. Premièrement, la reconnaissance et la classification de chaque caractère morphologique est quelque part subjective : la mâchoire, c'est un caractère ou plusieurs ? Deuxièmement, la morphologie peut évoluer de manière convergente. Dans les cas évidents, c'est ... bin évident, comme par exemple ailes de chauves-souris et d'oiseaux. Mais la forme des dents a été beaucoup utilisée pour classifier les mammifères, alors que des expériences ces 10 dernières années montrent que, sous l'influence d'un petit nombre de gènes, les dents peuvent changer très vite ("vite" pour un biologiste évolutif c'est cent mille ans, je dis ça comme ça), et aboutir à des formes convergentes qui trompent les meilleurs paléontologues. Troisièmement, il n'y a pas toujours de caractères morphologiques qui distinguent et regroupent les espèces qui nous intéressent.

(Je peux être biaisé, parce que je fais de l'évolution moléculaire (donc pas morphologique), mais force est de constater que l'ensemble du domaine bouge depuis 20 ans dans la direction d'une importance moindre de l'évidence morphologique.)

Alors l'autre type d'évidence montré dans l'image ci-dessus, c'est l'évidence moléculaire, venant des gènes, des protéines, ou du génome. En première approximation, les espèces qui partagent un ancêtre commun récent ont des gènes qui se ressemblent davantage que les espèces qui partagent un ancêtre commun plus ancien. Il y a plein d'avantages à utiliser les gènes ; le désavantage c'est qu'on ne peut pas utiliser les fossiles. Premier avantage, c'est qu'on a des critères objectifs pour les identifier et les comparer. Deuxième, comme ils sont tous composés des mêmes éléments de base, on peut faire des modèles statistiques élaborés, et aller au-delà du simple "ce qui se ressemble s'assemble". Troisième, des gènes y en a plein et dans tous les êtres vivants, donc on peut accumuler assez de données pour résoudre les relations de presque n'importe quel groupe d'organismes. Par exemple ci-dessus, trouver la relation entre vertébrés, étoile de mer, et vers de terre, pour lesquels les caractères morphologiques à comparer ne se bousculent pas (et induisent en erreur, c'est une autre histoire).

Donc tout ça pour dire que l'arbre suivant, c'est une honte :

Cet arbre des mammifères m'offense profondément

Ce que montre cet arbre, c'est les relations entre mammifères telles qu'elles étaient comprises en 1991, juste avant que les données moléculaires (les gènes) et les méthodes statistiques / bioinformatiques ne révolutionnent tout le domaine. Durant toutes les années 1990 il y a eu beaucoup de débats sur cet arbre, et il me paraitrait normal qu'en 1994 on n'ait pas voulu mettre en avant des résultats nouveaux et controversés, dont certains se sont d'ailleurs révélés faux. Mais quand même, depuis 2001, il y a consensus sur le fait que les données moléculaires ont montré, entre autres, que les cétacés (baleines et autres) font partie des artiodactyles (bestioles à sabots), plus précisément comme cousins des hippopotames ; que rongeurs et lagomorphes (lapin-oïdes) sont proches cousins des primates ; que les insectivores sont un groupe erroné ; ou que les périssodactyles (chevaux et autres) sont cousins des carnivores.

L'arbre des mammifères a beaucoup fait débat, parce qu'on a beaucoup de données morphologiques et fossiles, étudiées par beaucoup de gens depuis longtemps, et que les relations entre les grands groupes ("ordres", les groupes cités ci-dessus) ne sont vraiment pas évidentes. Autant grouper les bestioles qui ont des pattes c'est facile, autant comment ordonner une souris, une baleine, et un chien ? Et aussi parce qu'il faut bien le dire, les relations pas évidentes en morphologie étaient souvent pas évidentes en génétique non plus. Mais, voir ci-dessus, avec plus de données et de meilleurs modèles, on y est arrivé. C'est très clair, très bien soutenu, et confirmé par plein d'autres études depuis, y compris de nouvelles découvertes fossiles.

Un point intéressant à noter, c'est que dans le débat des années 1990, les défenseurs de l'orthodoxie morphologique contre les petits morveux moléculaires et bioinformatiques étaient en grande partie concentrés dans les grands muséums d'histoire naturelle.

Et donc, je trouve que plus de 10 ans après la conclusion de cette grande aventure scientifique, les aimables collègues du muséum de Paris pourraient faire l'effort de présenter un arbre des mammifères à jour dans leur grande galerie. Merci de votre attention.


Ce billet était parti pour être court. Sa longueur tend à indiquer que le sujet sur lequel on a fait sa thèse vous tient toujours à coeur, quelques années plus tard. :-)


(Les images sont des photos que j'ai prises en visitant le Muséum, c'est pour ça qu'elles sont moches.)

vendredi 13 janvier 2012

Génétique médicale : plus c'est gros, moins c'est beau

cliquez sur l'image
Sur l'excellent blog Genomes Unzipped, plusieurs scientifiques des génomes (génomiciens ?) ont eu une discussion d'un effet curieux et intéressant de génétique médicale et surtout psychiatrique. Il n'y a pas si longtemps, ces études se basaient sur des échantillons tout petits, pour des raisons pratiques. Et il se publiait régulièrement des corrélations très fortes entre gènes (ou plutôt variants génomiques) et maladies psychiatriques. Plus les tailles d'échantillons ont augmenté, grâce aux progrès techniques, et plus les effets sont devenus faibles, jusqu'à être non significatifs dans toutes les études sérieuses récentes. Le graphe ci-dessous montre cet effet, avec des effets très fortement positifs ou négatifs pour les petits échantillons à gauche, et des effets presque nuls (rapport de 1 pour la fréquence de symptômes entre personnes avec et sans une mutation) pour les gros échantillons à droite.

L'explication est corrélée (haha) à celle traitée dans un billet récent pour Google correlate. Les études petites ont une forte variance (il y a beaucoup d'erreur sur la mesure), et on en fait beaucoup de ces études. A force d'essayer de tout corréler avec un symptôme, il sort des corrélations fausses positives, qui semblent fortes mais ne reflètent aucune relation causale sous-jacente. Dans les études récentes, on fait peu d'études mais à grande échelle, où le bruit aléatoire est minimisé. On voit alors le vrai signal, à savoir qu'il n'y en a presque pas.

Comme le disent les collègues, les petites études se comportent comme des générateurs aléatoires de résultats, lorsqu'il n'y a pas d'effet fort à détecter.

Par exemple, en 1992 une mutation du gène ACE a été trouvée qui augmentait les chances d'attaque cardiaque d'un facteur 3. Mais les études suivantes ont échoué à reproduire le résultat, tandis que le même gène se retrouvait dans plein d'autres études supposément lié à toutes sortes de pathologies. Ce gène était apparu sur le radar par hasard au début, et ensuite tout le monde l'a étudié. Les résultat négatifs (probablement plein, va savoir) n'ont pas été publiés, les résultats (faux) positifs, si. Avec le recul, ACE ne semble pas jouer de rôle particulier dans les attaques cardiaques.

Ce qui motive les collègues de Genomes Unzipped, c'est une étude récente qui fait comme si 20 ans d'expérience ne s'étaient pas accumulés, et rapporte un lien entre la "prosocialité" et un gène très étudié (récepteur à l'oxytocine), sur la base de 23 personnes. Pourtant, des études à large échelle (5117 personnes, 1'252'387 marqueurs génétiques) montrent qu'on ne trouve avec les données présentes aucun lien entre personnalité et gènes.

Les Genomes Unzipped boys ne jettent pas le bébé avec l'eau du bain, mais notent que les liens qui existent probablement entre génétique et traits complexes, tels que la personnalité, demanderont des études très larges pour être établis, étant donné que ce sont des effets faibles (et probablement avec des interactions complexes entre gènes, mais c'est une autre histoire).

Le blog de Nature montre que le même phénomène peut affecter des tests génétiques qui sont d'ores et déjà approuvés et commercialisés : le test pour CYP2C19 est approuvé par la FDA, pour déterminer quel traitement utiliser pour des maladies cardiovasculaires. Dans une méta-analyse (analyse combinée de plein d'études précédentes) avec 42'016 patients et 32 études, il n'y a aucun lien entre le gène et le médicament ! Je cite :

While there initially appeared to be a relationship, there was evidence it was biased by the small size of studies. When analysis was restricted to larger studies the association disappeared.

Je finirais en notant, en dehors de la génétique, que les faux positifs sont aussi un problème pour les tests HIV conduits sur le terrain en Afrique. Comme quoi comprendre les statistiques et le design expérimental peut être vraiment important.

(Ah et puis je vois un autre exemple de problèmes de faux positifs, avec les ennuis de santé de la présidente argentine)

vendredi 6 janvier 2012

Corrélation et causalité : la bioinformatique décline avec Visual Basic

cliquez sur l'image
Le blog du journal Oikos (excellent blog si vous intéressez à l'écologie et à la pratique des sciences naturelles, soit dit en passant) a attiré mon attention sur le nouvel outil de corrélation de Google, et sur son potentiel pégagogique.

Cela fait un moment que Google trends vous permet de voir l'évolution au cours du temps du volume de recherche sur différents termes (voir billets sur l'iphone et sur l'incident du gaz au poivre). Ils se sont aussi aperçus, chez Google, que la corrélation des recherches sur différents termes permettait de prévoir la propagation de l'épidémie de grippe, en avance sur les rapports de médecins : les gens recherchent "fièvre" et "enfant qui tousse" sur Google avant d'aller chez le docteur, et Google a cette information en temps réel, alors que les médecins mettent du temps à faire remonter l'info.

L'étape suivante, c'est qu'ils ont décidé de rendre cette fonctionalité disponible à tous : vous tapez un terme de recherche, par exemple "ordinateur", et vous trouvez que c'est corrélé avec "écran", "réseau", etc. Les gens cherchent ces différents termes à-peu-près en même temps (quand ils achêtent des ordinateurs je suppose). On peut corréler par semaine, par mois, ou par Etat américain, ce dernier peu pertinent pour les recherches en français.

cliquez pour une explication officielle en BD

Là où ça devient pédagogique, c'est que quand on essaye de tout corréler avec tout, on obtient de magnifiques faux positifs. Explication : un faux positif, c'est quand le résultat d'un test indique un résultat significatif, de manière erronée. Si un test est bien fait, c'est rare. Typiquement, on calibre les tests pour avoir environ un test sur 20 faux positif. Mais là où le bât blesse, c'est que même 1/20 ça fait beaucoup d'erreurs quand vous faites des milliards de tests. Cela s'appelle le problème de la répétition des tests, et est un problème très courant dans l'analyse de toutes sortes de données. Or c'est très peu intuitif : lorsque l'on obtient un très bon résultat statistique, on a tendance à l'interpréter, et ne pas vouloir le jeter sous prétexte que l'on a fait d'autres tests avant et après.

C'est là où Google correlate est utile : il permet de trouver aisément des corrléations apparemment très fortes, qui sont visiblement des faux positifs, au sens où il n'y a pas de lien causal entre les termes corrélés. Par exemple le collègue d'Oikos a trouvé que le terme le mieux corrélé à Darwin est ... satellite. Regardez la corrélation, et dites-vous qu'on en voit rarement d'aussi belles avec des paramètres qui sont liés causalement, en tous cas en biologie.

Google, combien de tests ? Bin je ne sais pas le nombre de termes indexés par Google, mais pour avoir un ordre de grandeur sous-estimé, il semble que la langue anglaise compte environ 750'000 mots ; au carré : 562 milliards de tests. Bien sûr, il y a d'autres langues, des noms de marques, des fautes de frappe... On comprend qu'on puisse obtenir beaucoup de faux positifs, même en exigeant une significativité très élevée.

J'ai fait le test avec bioinformatique. C'est corrélé à des termes informatiques, jusque-là OK, mais pas ceux auquels l'on s'attendrait par rapport aux outils informatiques utilisés en biologie : pas Perl, database, ou dynamic programming, mais Postscript, Visual Basic, ou printer.

Voici la superbe corrélation avec Visual Basic (qui n'est à-peu-près jamais utilisé en bioinformatique).

La corrélation s'éclaire si on la présente différemment : ce qui relie Bioinformatics à tous ces autres termes, c'est qu'il a eu une heure de gloire (de recherches Google), qui est bien passée, et que depuis ça décline régulièrement.

Et ça c'est déprimant.