vendredi 16 mars 2012

Races et génétique, c'est reparti, au Café-sciences.org


Ce blog migre au C@fe des Sciences. Mon premier billet là-bas est :

Races et génétique, c'est reparti (lien corrigé ; and remplacé par et ; oups)


Au plaisir de vous revoir là-bas, et désolé pour la longue interruption.

vendredi 27 janvier 2012

#Wikipedia est une excellente source d'informations scientifiques et médicales

cliquez sur l'image (et n'oubliez pas de cliquer sur le point rouge)
Je commence ce billet par une constatation double : beaucoup de mes collègues et moi-même faisons un usage abondant et pertinent de Wikipedia dans notre vie professionnelle (vous croyez que je connais tous les gènes, tous les organes, toutes les bestioles ?) ; et d'autre part beaucoup de personnes à l'université continuent à décourager les étudiants d'utiliser Wikipedia, et à le traiter comme une sous-resource, pour paresseux. Je trouve ça choquant, et je le prouve.

Une étude récente (malheureusement d'accès payant paradoxalement) dans le journal Psychological Medecine a comparé l'information concernant des pathologies liées à la schizophrénie (5 pathologies) ou à la dépression (5 pathologies) entre différentes sources d'information : les sites internet arrivant en tête de recherches pour "depression" ou "schizophrenia" (14 sites au total), y compris Wikipedia mais aussi des sites plus officiels, comme celui du National Institute of Mental Health, ainsi que l'Encyclopedia Britanica en ligne, et un livre de psychiatrie utilisé en études de médecine.

En comparant ces différentes ressources, ils trouvent, et je cite :

The quality of information about depression and schizophrenia on Wikipedia was generally rated higher than other centrally controlled resources, including 14 mental health-related websites, Encyclopaedia Britannica and Kaplan & Sadock’s Comprehensive Textbook of Psychiatry.

En d'autres termes, et comme ils précisent plus loin, les articles de Wikipedia sur des sujets de santé contiennent peu d'erreurs factuelles, malgré un certain manque de couverture. Ils sont également bien référencés, mais paradoxalement peuvent être difficiles à comprendre. Ils sont généralement meilleurs en moyenne que les autres sources, y compris le livre spécialisé.

De manière intéressante aussi, bien qu'un avantage majeur de Wikipedia sur le livre est sa mise à jour fréquente et rapide, le livre fait mieux que la plupart des sites web officiels. Ces sites sont moins bons que le livre, mais pas plus à jour. Au moins, ils sont gratuits.

Ceci nous amène à un second point, qui est qu'il est difficile de maintenir de l'information scientifique ou médicale à jour de manière centralisée, avec des ressources forcément limitées.

Il y a un autre article récent sur ce sujet dans le numéro spécial annuel sur les bases de données en biologie (NAR Database, entièrement gratuit) : les auteurs discutent de l'intégration entre Wikipedia, ou d'autres approches participatives, avec des bases de données spécialisées de biologie. Ils partent de leur expérience positive avec les bases de données Pfam (domaines protéiques) et Rfam (ARNs fonctionnels) : les données structurées sont dans une base de données SQL dédiée, mais les annotations en texte qui décrivent la fonction des molécules passent par Wikipedia. Plus précisément, à un moment ils ont exporté toute leur information vers Wikipedia, et depuis ils récupèrent toutes les modifications qui sont faites dans les pages Wikipedia correspondantes, et les remettent dans Pfam et Rfam.

Par exemple, l'article sur mon domaine préféré, de liaison aux hormones des récepteurs nucléaires d'hormones : dans la page Pfam il y a de l'information textuelle, avec un bouton "Edit in Wikipedia". On clique dessus, et on arrive sur la page Wikipedia correspondante, en mode édition directement qui plus est. Et là-dedans vous avez de jolies boîtes avec de l'information structurée venant de Pfam. C'est beau c'est grand c'est magnifique.

Ils ont des curateurs qui vérifient les infos venant de Wikipedia, et ils en acceptent 99%. Ils ont des milliers d'éditions par an, donc beaucoup d'informations pertinentes, à jour, et ... gratuites. Et disponibles à tous !

Ils regardent aussi d'autres modèles d'intégration avec Wikipedia, et les limitations. Par exemple, Wikipedia a un critère d'intérêt général, qui fait qu'on peut avoir une entrée par gène humain, ou par domaine protéique (partagé par plein de protéines), mais pas une entrée par gène de poisson épinoche, ou par variant de gène humain. Une autre limitation est la règle "pas de travaux inédits", qui interdit d'ajouter des infos que vous avez obtenu de vous-même, même par une méthode toute bête et simple. Or une base de données scientifique ne peut pas toujours accepter ces limitations. Et les wiki spécialisés ne marchent généralement pas aussi bien que Wikipedia, c'est peu de le dire.

Leur conclusion, et c'est là où je trouve que ces deux articles à priori bien distincts se rejoignent, est que nous ne pourrons maintenir à jour une information pertinente en biologie (et médecine donc) qu'en s'alliant à Wikipedia (et autres ressources des foules) de manière intelligente. Je suis bien d'accord, d'ailleurs j'utilise déjà Wikipedia. Il ne me reste plus qu'à devenir intelligent.

vendredi 20 janvier 2012

Le Muséum #MNHN est bien mais nous montre une classification pré-moléculaire et erronée des mammifères

cliquez sur l'image
Récemment j'ai visité la grande galerie de l'évolution du Muséum national d'histoire naturelle (MNHN). L'expo est très bien faite, pour les enfants et pour les adultes, et contient plein d'infos scientifiques pertinentes. En plus ils font un excellent boulot d'expliquer clairement des concepts compliqués, comme la génétique ou la notion d'espèce. Mais voilà, je suis un chieur scientifique, alors voici mon ralâge.

Une des notions essentielles en biologie évolutive, et plus généralement pour comprendre le monde vivant, est la phylogénie, ou arbre des espèces. D'ailleurs ils expliquent cela très bien avec un arbre tout simple et mignon (vous ne trouvez pas ça mignon ?) :

Cet arbre simple est correct, c'est cool
Cet arbre a plusieurs avantages. L'un, c'est qu'il montre des espèces bien distinctes, dont les relations ne font pas débat. Un autre c'est qu'il permet bien d'expliquer ce qu'est un arbre évolutif : les branchements de l'arbre montrent comment les espèces ont divergé les unes des autres au cours de l'évolution, avec en bas le temps ancien de l'origine des animaux, et en haut les espèces modernes (oui un vers de terre c'est moderne, oui monsieur, oui madame, une étoile de mer aussi, parfaitement). Donc en lisant du haut en bas on voit que les branches lient ensemble d'abord les espèces les plus proches (deux mammifères, un minou-oïde et un humanoïde), puis un peu moins proches (trois vertébrés), puis de moins en moins proches (l'étoile de mer, un deutérostome comme vous et moi), puis enfin des espèces qui n'ont en commun que d'être des animaux (c'est pas mal déjà remarquez). Un troisième avantage de cet arbre, c'est qu'il est illustré par le type d'évidence que l'on utilise pour reconstruire de tels arbres évolutifs.

A savoir que les deux mammifères, qui sont aussi les deux seuls tétrapodes de l'arbre, sont regroupés par le fait d'avoir des membres de tétrapode, et les trois vertébrés (qui sont tous des vertébrés à mâchoire, contrairement aux lamproies par exemple) sont regroupés par le fait d'avoir un crâne avec une mâchoire. Dans ces deux cas, le type d'évidence est morphologique : on observe qu'un ensemble d'espèces partagent des structures morphologiques, qui ne sont pas partagées par les autres espèces ; la façon la plus simple d'expliquer cela est que ces structures ont été héritées d'un ancêtre commun, et que donc ces espèces sont apparentées de manière plus proche entre elles qu'avec les autres espèces. Il y a plusieurs avantages à cette approche, et plusieurs désavantages.

L'avantage principal, c'est qu'on a des fossiles pour les structures morphologiques, donc on peut dans une certaine mesure dater les caractères, et tester les hypothèses d'ancêtres communs.

Les désavantages sont plus nombreux à mon avis. Premièrement, la reconnaissance et la classification de chaque caractère morphologique est quelque part subjective : la mâchoire, c'est un caractère ou plusieurs ? Deuxièmement, la morphologie peut évoluer de manière convergente. Dans les cas évidents, c'est ... bin évident, comme par exemple ailes de chauves-souris et d'oiseaux. Mais la forme des dents a été beaucoup utilisée pour classifier les mammifères, alors que des expériences ces 10 dernières années montrent que, sous l'influence d'un petit nombre de gènes, les dents peuvent changer très vite ("vite" pour un biologiste évolutif c'est cent mille ans, je dis ça comme ça), et aboutir à des formes convergentes qui trompent les meilleurs paléontologues. Troisièmement, il n'y a pas toujours de caractères morphologiques qui distinguent et regroupent les espèces qui nous intéressent.

(Je peux être biaisé, parce que je fais de l'évolution moléculaire (donc pas morphologique), mais force est de constater que l'ensemble du domaine bouge depuis 20 ans dans la direction d'une importance moindre de l'évidence morphologique.)

Alors l'autre type d'évidence montré dans l'image ci-dessus, c'est l'évidence moléculaire, venant des gènes, des protéines, ou du génome. En première approximation, les espèces qui partagent un ancêtre commun récent ont des gènes qui se ressemblent davantage que les espèces qui partagent un ancêtre commun plus ancien. Il y a plein d'avantages à utiliser les gènes ; le désavantage c'est qu'on ne peut pas utiliser les fossiles. Premier avantage, c'est qu'on a des critères objectifs pour les identifier et les comparer. Deuxième, comme ils sont tous composés des mêmes éléments de base, on peut faire des modèles statistiques élaborés, et aller au-delà du simple "ce qui se ressemble s'assemble". Troisième, des gènes y en a plein et dans tous les êtres vivants, donc on peut accumuler assez de données pour résoudre les relations de presque n'importe quel groupe d'organismes. Par exemple ci-dessus, trouver la relation entre vertébrés, étoile de mer, et vers de terre, pour lesquels les caractères morphologiques à comparer ne se bousculent pas (et induisent en erreur, c'est une autre histoire).

Donc tout ça pour dire que l'arbre suivant, c'est une honte :

Cet arbre des mammifères m'offense profondément

Ce que montre cet arbre, c'est les relations entre mammifères telles qu'elles étaient comprises en 1991, juste avant que les données moléculaires (les gènes) et les méthodes statistiques / bioinformatiques ne révolutionnent tout le domaine. Durant toutes les années 1990 il y a eu beaucoup de débats sur cet arbre, et il me paraitrait normal qu'en 1994 on n'ait pas voulu mettre en avant des résultats nouveaux et controversés, dont certains se sont d'ailleurs révélés faux. Mais quand même, depuis 2001, il y a consensus sur le fait que les données moléculaires ont montré, entre autres, que les cétacés (baleines et autres) font partie des artiodactyles (bestioles à sabots), plus précisément comme cousins des hippopotames ; que rongeurs et lagomorphes (lapin-oïdes) sont proches cousins des primates ; que les insectivores sont un groupe erroné ; ou que les périssodactyles (chevaux et autres) sont cousins des carnivores.

L'arbre des mammifères a beaucoup fait débat, parce qu'on a beaucoup de données morphologiques et fossiles, étudiées par beaucoup de gens depuis longtemps, et que les relations entre les grands groupes ("ordres", les groupes cités ci-dessus) ne sont vraiment pas évidentes. Autant grouper les bestioles qui ont des pattes c'est facile, autant comment ordonner une souris, une baleine, et un chien ? Et aussi parce qu'il faut bien le dire, les relations pas évidentes en morphologie étaient souvent pas évidentes en génétique non plus. Mais, voir ci-dessus, avec plus de données et de meilleurs modèles, on y est arrivé. C'est très clair, très bien soutenu, et confirmé par plein d'autres études depuis, y compris de nouvelles découvertes fossiles.

Un point intéressant à noter, c'est que dans le débat des années 1990, les défenseurs de l'orthodoxie morphologique contre les petits morveux moléculaires et bioinformatiques étaient en grande partie concentrés dans les grands muséums d'histoire naturelle.

Et donc, je trouve que plus de 10 ans après la conclusion de cette grande aventure scientifique, les aimables collègues du muséum de Paris pourraient faire l'effort de présenter un arbre des mammifères à jour dans leur grande galerie. Merci de votre attention.


Ce billet était parti pour être court. Sa longueur tend à indiquer que le sujet sur lequel on a fait sa thèse vous tient toujours à coeur, quelques années plus tard. :-)


(Les images sont des photos que j'ai prises en visitant le Muséum, c'est pour ça qu'elles sont moches.)

vendredi 13 janvier 2012

Génétique médicale : plus c'est gros, moins c'est beau

cliquez sur l'image
Sur l'excellent blog Genomes Unzipped, plusieurs scientifiques des génomes (génomiciens ?) ont eu une discussion d'un effet curieux et intéressant de génétique médicale et surtout psychiatrique. Il n'y a pas si longtemps, ces études se basaient sur des échantillons tout petits, pour des raisons pratiques. Et il se publiait régulièrement des corrélations très fortes entre gènes (ou plutôt variants génomiques) et maladies psychiatriques. Plus les tailles d'échantillons ont augmenté, grâce aux progrès techniques, et plus les effets sont devenus faibles, jusqu'à être non significatifs dans toutes les études sérieuses récentes. Le graphe ci-dessous montre cet effet, avec des effets très fortement positifs ou négatifs pour les petits échantillons à gauche, et des effets presque nuls (rapport de 1 pour la fréquence de symptômes entre personnes avec et sans une mutation) pour les gros échantillons à droite.

L'explication est corrélée (haha) à celle traitée dans un billet récent pour Google correlate. Les études petites ont une forte variance (il y a beaucoup d'erreur sur la mesure), et on en fait beaucoup de ces études. A force d'essayer de tout corréler avec un symptôme, il sort des corrélations fausses positives, qui semblent fortes mais ne reflètent aucune relation causale sous-jacente. Dans les études récentes, on fait peu d'études mais à grande échelle, où le bruit aléatoire est minimisé. On voit alors le vrai signal, à savoir qu'il n'y en a presque pas.

Comme le disent les collègues, les petites études se comportent comme des générateurs aléatoires de résultats, lorsqu'il n'y a pas d'effet fort à détecter.

Par exemple, en 1992 une mutation du gène ACE a été trouvée qui augmentait les chances d'attaque cardiaque d'un facteur 3. Mais les études suivantes ont échoué à reproduire le résultat, tandis que le même gène se retrouvait dans plein d'autres études supposément lié à toutes sortes de pathologies. Ce gène était apparu sur le radar par hasard au début, et ensuite tout le monde l'a étudié. Les résultat négatifs (probablement plein, va savoir) n'ont pas été publiés, les résultats (faux) positifs, si. Avec le recul, ACE ne semble pas jouer de rôle particulier dans les attaques cardiaques.

Ce qui motive les collègues de Genomes Unzipped, c'est une étude récente qui fait comme si 20 ans d'expérience ne s'étaient pas accumulés, et rapporte un lien entre la "prosocialité" et un gène très étudié (récepteur à l'oxytocine), sur la base de 23 personnes. Pourtant, des études à large échelle (5117 personnes, 1'252'387 marqueurs génétiques) montrent qu'on ne trouve avec les données présentes aucun lien entre personnalité et gènes.

Les Genomes Unzipped boys ne jettent pas le bébé avec l'eau du bain, mais notent que les liens qui existent probablement entre génétique et traits complexes, tels que la personnalité, demanderont des études très larges pour être établis, étant donné que ce sont des effets faibles (et probablement avec des interactions complexes entre gènes, mais c'est une autre histoire).

Le blog de Nature montre que le même phénomène peut affecter des tests génétiques qui sont d'ores et déjà approuvés et commercialisés : le test pour CYP2C19 est approuvé par la FDA, pour déterminer quel traitement utiliser pour des maladies cardiovasculaires. Dans une méta-analyse (analyse combinée de plein d'études précédentes) avec 42'016 patients et 32 études, il n'y a aucun lien entre le gène et le médicament ! Je cite :

While there initially appeared to be a relationship, there was evidence it was biased by the small size of studies. When analysis was restricted to larger studies the association disappeared.

Je finirais en notant, en dehors de la génétique, que les faux positifs sont aussi un problème pour les tests HIV conduits sur le terrain en Afrique. Comme quoi comprendre les statistiques et le design expérimental peut être vraiment important.

(Ah et puis je vois un autre exemple de problèmes de faux positifs, avec les ennuis de santé de la présidente argentine)

vendredi 6 janvier 2012

Corrélation et causalité : la bioinformatique décline avec Visual Basic

cliquez sur l'image
Le blog du journal Oikos (excellent blog si vous intéressez à l'écologie et à la pratique des sciences naturelles, soit dit en passant) a attiré mon attention sur le nouvel outil de corrélation de Google, et sur son potentiel pégagogique.

Cela fait un moment que Google trends vous permet de voir l'évolution au cours du temps du volume de recherche sur différents termes (voir billets sur l'iphone et sur l'incident du gaz au poivre). Ils se sont aussi aperçus, chez Google, que la corrélation des recherches sur différents termes permettait de prévoir la propagation de l'épidémie de grippe, en avance sur les rapports de médecins : les gens recherchent "fièvre" et "enfant qui tousse" sur Google avant d'aller chez le docteur, et Google a cette information en temps réel, alors que les médecins mettent du temps à faire remonter l'info.

L'étape suivante, c'est qu'ils ont décidé de rendre cette fonctionalité disponible à tous : vous tapez un terme de recherche, par exemple "ordinateur", et vous trouvez que c'est corrélé avec "écran", "réseau", etc. Les gens cherchent ces différents termes à-peu-près en même temps (quand ils achêtent des ordinateurs je suppose). On peut corréler par semaine, par mois, ou par Etat américain, ce dernier peu pertinent pour les recherches en français.

cliquez pour une explication officielle en BD

Là où ça devient pédagogique, c'est que quand on essaye de tout corréler avec tout, on obtient de magnifiques faux positifs. Explication : un faux positif, c'est quand le résultat d'un test indique un résultat significatif, de manière erronée. Si un test est bien fait, c'est rare. Typiquement, on calibre les tests pour avoir environ un test sur 20 faux positif. Mais là où le bât blesse, c'est que même 1/20 ça fait beaucoup d'erreurs quand vous faites des milliards de tests. Cela s'appelle le problème de la répétition des tests, et est un problème très courant dans l'analyse de toutes sortes de données. Or c'est très peu intuitif : lorsque l'on obtient un très bon résultat statistique, on a tendance à l'interpréter, et ne pas vouloir le jeter sous prétexte que l'on a fait d'autres tests avant et après.

C'est là où Google correlate est utile : il permet de trouver aisément des corrléations apparemment très fortes, qui sont visiblement des faux positifs, au sens où il n'y a pas de lien causal entre les termes corrélés. Par exemple le collègue d'Oikos a trouvé que le terme le mieux corrélé à Darwin est ... satellite. Regardez la corrélation, et dites-vous qu'on en voit rarement d'aussi belles avec des paramètres qui sont liés causalement, en tous cas en biologie.

Google, combien de tests ? Bin je ne sais pas le nombre de termes indexés par Google, mais pour avoir un ordre de grandeur sous-estimé, il semble que la langue anglaise compte environ 750'000 mots ; au carré : 562 milliards de tests. Bien sûr, il y a d'autres langues, des noms de marques, des fautes de frappe... On comprend qu'on puisse obtenir beaucoup de faux positifs, même en exigeant une significativité très élevée.

J'ai fait le test avec bioinformatique. C'est corrélé à des termes informatiques, jusque-là OK, mais pas ceux auquels l'on s'attendrait par rapport aux outils informatiques utilisés en biologie : pas Perl, database, ou dynamic programming, mais Postscript, Visual Basic, ou printer.

Voici la superbe corrélation avec Visual Basic (qui n'est à-peu-près jamais utilisé en bioinformatique).

La corrélation s'éclaire si on la présente différemment : ce qui relie Bioinformatics à tous ces autres termes, c'est qu'il a eu une heure de gloire (de recherches Google), qui est bien passée, et que depuis ça décline régulièrement.

Et ça c'est déprimant.

samedi 24 décembre 2011

Joyeuses fêtes

cliquez sur l'image


cliquez sur l'image
cliquez sur l'image

vendredi 23 décembre 2011

Il faut fumer en sautant sans parachute, ou la difficulté d'être objectif

Cliquez sur l'image
Vous avez peut-être entendu parler dans les médias d'un papier scientifique qui se proposait de montrer que de fumer des cigarettes est bon pour les coureurs de fond. Dans le Canadian Medical Association Journal, classé 9ème parmi les journaux médicaux au niveau mondial.

L'auteur fait une revue de la littérature scientifique, et trouve qu'il a été établi que :
  • La consommation de tabac a été associée avec des niveaux élevés d'hémoglobine : de fumer au moins 10 cigarettes par jour est associé à une augmentation de 3,5% d'hémoglobine. Contrairement à un séjour en altitude, l'effet est durable ; et contrairement au dopage, c'est légal. L'effet semble même augmenter avec l'âge, les personnes âgées ayant fumé ayant des taux d'hémoglobine encore d'avantage élevés par rapport à la moyenne. De plus l'effet du tabac semble augmenté par "une thérapie complémentaire d'éthanol", à savoir la consommation d'alcool. (Tous ces résultats viennent d'une même référence sérieuse.)
  • Les fumeurs ont 50% de chances d'attraper une maladie chronique qui résulte en une augmentation du volume pulmonaires. Qui c'est d'autre qui a des gros poumons ? Les sportifs endurants. CQFD.
  • Les coureurs de fond bénéficient d'un poids plus faible. Qu'est-ce qui diminue l'appétit ? Le tabac. Qu'est-ce qui l'augmente ? L'exercice. Faites les maths.
L'auteur termine en discutant que les effets du tabac sont surtout visibles sur le long terme, or il existe des législations contraignantes rendant plus difficile l'accès au tabac pour les enfants dans la plupart des pays développés. Ces obstacles sont moins présent dans les pays pauvres qui justement gagnent souvent les sports d'endurance. Coïncidence ? Une étude sur le tabagisme enfantin chez les sportifs africains reste à faire.


Il s'agit bien entendu d'un exercice parodique, mais avec un fond sérieux. Il s'agit de montrer comment un choix biaisé des sources, et la mise en relation de faits établis mais qui ne sont pertinents, permet de faire dire à la littérature scientifique ce qu'elle ne dit pas. Ce qui peut être très dangereux quand on commence à s'intéresser aux effets des médicaments, à la pollution, à la chasse des espèces rares, etc. Dans ces cas, ça ne sera pas toujours une parodie, et les erreurs seront moins évidentes, surtout pour les lecteurs qui ne demandent qu'à être convaincus.


D'abord un autre exemple : Un article dans le British Medical Journal (à ce propos : cherche exemples d'humour scientifique intelligent d'origine francophone. Hmm. [Benveniste ne compte pas, c'était involontaire]) pose une question tout-à-fait pertinente : où sont les études randomisées double-aveugle sur l'usage du parachute pour prévenir les traumatismes et décès liés aux défis gravitationnels ? En effet on ne devrait jamais prescrire un traitement préventif sans de telles études, en médecine moderne (dite en anglais "evidence-based"). Il existe une évidence anectodique de personnes ayant tombé de haut sans parachute et ayant survécu. En moyenne on voit a posteriori que les personnes ayant sauté avec parachute ont survécu plus souvent et en meilleur état que celles ayant sauté sans parachute. Mais il y a un biais : les personnes qui sautent de haut sans parachute sont souvent en mauvaise santé (au moins psychologique) avant le saut, alors que les personnes qui sautent de haut avec parachute sont souvent en bonne santé. Donc il manque bien une étude sérieuse, randomisée, c'est-à-dire que les personnes sont distribuées au hasard entre les groupes de traitement (ici, avec ou sans parachute). Exercice à faire à la maison pour la prochaine fois : justifier rationnellement pourquoi ne pas faire d'étude randomisée ici, mais en faire pour l'acuponcture, l'homéopathie et le nouveau médicament de Servier.


Plus sérieusement, ces articles attirent l'attention sur des problèmes qui peuvent se poser dans la recherche scientifique (pourquoi scientifique ? dans la recherche en général). Par exemple, un article de International Journal of Obesity discute le bais White hat bias (pour lequel je n'ai pas trouvé de traduction en français - même les hacker White Hat restent en anglais sur le wikipedia francophone). Cela consiste à sélectivement choisir les information, ou les interpréter de manière biaisée, en raison de bonnes intentions. Exemples donnés dans le papier:
  • Deux papiers ont été publiés qui rapportent certains résultats significatifs, et d'autres non significatifs, sur la relation entre obésité et d'autres facteurs (mode de vie etc.). Parmi les articles citant ces études, plus des deux tiers les citent comme soutenant sans réserve ces relations, pourtant mal établies.
  • Les articles financés par l'industrie trouvent des effets moins négatifs de l'alimentation sur l'obésité, que ceux financés par le public. Il semble que cela soit du aux chercheurs publics ne publiant que des résultats très significatifs, alors que ceux financés par l'industrie publient aussi les études peu significatives.
  • De même, pour les études sur les effets de l'allaitement maternel, les études plus significatives sont d'avantage publiées. Dans ce cas, il n'y a apparemment aucun effet industriel, ou autre biais évident.
  • Des rapports supposément basés sur la recherche (par exemple Organisation mondiale de la santé) citent de manière biaisée les parties des articles qui soutiennent leur conclusion globale.

Ce qui est important dans ces exemples, c'est que les biais sont de bonne foi : les personnes veulent améliorer la santé ou l'information du public. Mais manquent de rigueur, là où la rigueur serait apparemment contradictoire avec leurs objectifs. C'est privilégier le court terme (tout-de-suite dire que les aliments gras c'est vil) sur le long terme (la crédibilité de la recherche, et notre meilleure connaissance du monde), à mon avis.

Tout ceci n'est pas sans rappeler les IgNobel : des résultats qui nous font rire, puis nous font réfléchir. Une excellente combinaison somme toute.

vendredi 9 décembre 2011

Moi je fais de la science, pas toi

cliquez sur l'image
Il y a un livre célèbre "The two cultures" sur la relation (ou absence de) entre les humanités et les sciences.

Mais y a aussi des différences de culture importantes au sein meme d'une science, comme la biologie. Une collègue m'a fait observer une fois la différence entre les séminaires (présentations orales de résultats) des biologistes moléculaires et des biologistes évolutifs.

Les biologistes moléculaires commencent par une présentation détaillée des données expérimentales (10 points bonus si vous présentez une nouvelle technique que vous avez mise au point), pour finir sur une éventuelle interprétation. Le message est clair : l'important c'est l'expérience, c'est les données, c'est cela qui prouve que ma présentation est intéressante et fait du sens. Ceci est de la science car il y a des expériences.

Les biologistes évolutifs commencent par une présentation détaillée des principes théoriques, des questions posées dans le domaines (10 points bonus si Darwin avait déjà évoqué le problème), pour ensuite présenter comment les données collectées permettent de répondre à la question. Le message est également clair : l'important c'est le cadre théorique et la question posée, qui guide la mise au point de l'expérience, c'est cela qui prouve que ma présentation est intéressante et fait du sens. Ceci est de la science car on teste des modèles.

Ce qui est aussi intéressant, c'est que dans bien des cas, les personnes concernées ne vont pas en conclure que tiens c'est rigolo on a des façons différentes de présenter, mais vont voir ceci comme une confirmation de ce dont ils se doutaient bien au fond, que les rigolos de l'autre coté du couloir ne sont pas vraiment des scientifiques comme nous.

vendredi 2 décembre 2011

Mieux vaut faire du vélo dans la bonne direction, que courir dans la mauvaise

Cliquez sur l'image
"Before, a leader was someone who could convince people to act in the absence of clear evidence. Today, it's someone who knows what questions to ask."

Extrait d'une interview de Alistair Croll sur O'Reilly Radar.

En contexte, il explique qu'avant on manquait d'information, et qu'il fallait avancer quand même. L'avantage allait à celui qui avançait pertinemment malgré le manque de données. Maintenant on a trop de données, et l'avantage va à celui qui sait les utiliser rapidement et à bon escient.


En bioinformatique, cela s'applique très bien, depuis l'analyse évolutive des données (ce que je fais d'habitude) jusqu'à la génétique médicale.

Par exemple dans le papier récent de Hernandez et al discuté sur le blog de nos étudiants, les auteurs ont utilisé des données déjà générées concernant les génomes de 179 humains, pour montrer que l'évidence de sélection naturelle que l'on pensait y trouver facilement n'y est pas évidente. Donc la sélection n'a pas été très forte, ou a peu affecté de gènes, dans notre évolution. Perso, je parie pour une sélection pas très forte sur beaucoup de gènes, mais on verra les prochaines analyses.

Autre exemple, on a utilisé plein de données publiques diverses pour montrer en 2008 qu'il y a peu de possibilités de changements évolutifs au début du développement embryonnaire vertébré, mais nettement plus à la fin.

lundi 28 novembre 2011

La publication Open Access : juste et efficace ?

cliquez sur l'image
J'y connais rien en économie, mais j'aime bien la publication Open Access. Ce qui veut dire que les auteurs (ou plutôt leur université ou financement de recherche) payent les frais de publication, et ensuite les articles sont disponibles à tous gratuitement. Ca veut dire que ceux dont les impôts ont payé la recherche peuvent la lire s'ils veulent.

Alors j'aime bien une analyse simpliste qui dit que les seuls profits des éditeurs privés pourraient couvrir tous les frais de publication Open Access. Vos impôts et dons leur permettre permettent de dégager plus en profit qu'ils ne devraient faire de chiffre d'affaire, et après ça vous n'avez pas accès aux résultats. Moi je trouve ça dégoutant.