lundi 28 juillet 2014

Redif : Probablement

Tiens c'est l'été, je vais rediffuser des billets de mon ancien blog. Pour commencer, un qui essaye d'expliquer les statistiques bayésiennes et de vraisemblance (billet d'origine sur le vieux blog).

Un exemple cliché dans l'enseignement des probabilités concerne la manière dont sont habillés les étudiants dans la salle. Le produit des probabilités que chacun ait mis exactement ces habits-là ce jour-là est très faible, et pourtant cela s'est produit. Ceci illustre le fait que des évènements très peu probables peuvent se produire, et parfois doivent se produire. La probabilité que tous les étudiants soient habillés d'une manière ou d'une autre était proche de 1. Ce qui correspond à la somme de toutes les manières (peu probables chacune) qu'ils soient habillés.

Un autre exemple classique d'évènement peu probable qui doit se produire est le tirage du loto. Chaque combinaison de chiffres est très peu probable, mais il est certain que l'une de ces combinaisons (aussi peu probable que les autres) sera tirée. Pour donner un sens intuitif à cette notion de "peu probable" en l'occurrence, essayez de vous rendre compte que la série tirée la dernière fois avait la même probabilité que de tirer 1, 2, 3, 4, 5, 6, 7, 8, 9 (s'ils tirent neuf boules, je ne suis pas très au fait du loto).

Vous suivez ? Bon.

Parce que ça m'a donné l'idée d'une façon d'illustrer des stats plus élaborées, nommément la vraisemblance et le Bayesien (qui a droit à une majuscule car nommé d'après le révérend Bayes). Je veux dire l'exemple des habits, le loto c'est chiant. Je ne suis pas sur que mon idée soit originale, mais on va faire comme si.

Supposons que vous entriez dans un amphi de fac au hasard, et vous voyez des étudiants tous habillés de manière très formelle (cravates pour les garçons, tailleurs pour les filles). Dans quelle filière êtes-vous arrivé ? Biologie ou finances ? Et si vous entrez et que vous voyez les étudiants habillés avec des châles et des grandes jupes pour les filles, des pulls tricotés et des chemises Mao pour les garçons, et des lunettes rondes de partout ? Littérature ou médecine ?

La combinaison exacte de cravates, costumes, tailleurs, chemisiers, etc, que vous voyez dans l'amphi est très peu probable de toutes façons (voir raisonnement précédent). Mais elle est plus probable dans un amphi de finances que dans un amphi de biologie. Donc quand vous entrez dans cet amphi, vous vous dites que vous êtes probablement en finances (ou en droit admettons). C'est l'idée de base de la vraisemblance en statistiques : on cherche sous quelle hypothèse (étudiants de biologie ou de finances ?) les données sont les plus probables.

Ce qui paraît tarabiscoté, vu qu'on sait que les données sont vraies, et qu'en plus les probabilités sont très faibles. Mais c'est exactement le raisonnement qui conduit à penser que l'amphi plein de costards-cravates n'est probablement pas la biologie ou la littérature.

Donc la vraisemblance de l'hypothèse H (étudiants de biologie) est la probabilité des données (comment qu'ils sont fringués) sous cette hypothèse. Et on retiendra l'hypothèse du maximum de vraisemblance, donc dans le cas costard-cravate, finances. On peut même noter qu'on n'a pas les données pour distinguer deux hypothèses de vraisemblance également élevée, finances ou droit.

C'est très utile en biologie, parce que souvent on a des données très peu probables sous un raisonnement probabilistique classique (par exemple des séquences d'ADN uniques), mais pour lesquelles on peut proposer une hypothèse de maximum de vraisemblance (concernant l'homologie, la structure, etc, ça dépend de la question posée).

(Oui parce qu'on peut poser différentes questions avec les mêmes données. Avec les habits, on pourrait voir la vraisemblance de la saison, d'une situation d'examen / cours / travaux pratiques, etc.)

Ce qui n'est pas intuitif dans cette histoire, c'est qu'on aimerait bien connaître non la probabilité des données, mais celle de l'hypothèse qu'on teste. C'est vrai quoi, on s'en fout de la probabilité ultra-faible de toutes ces paires de chaussettes.

Entre en scène le révérend Bayes.

Il a donné son nom à un théorème qui est pratiquement une évidence. Parfois formaliser les évidences c'est utile, voir aussi l'équilibre de Hardy-Weinberg en génétique.

Reprenons d'abord les étudiants habillés. Maintenant on n'entre plus dans un amphi au hasard, mais dans un amphi qui a écrit sur la porte "Grand amphithéâtre de Lettres". On s'attend a priori avant même d'entrer à trouver des étudiants de lettres. On a donc une probabilité a priori forte pour l'hypothèse "étudiants de lettres", et faible pour les autres hypothèses. Si on entre et que l'on voit plein de châles et de lunettes rondes et de barbiches, on confirme notre a priori. Mais si on entre et que l'on voit un amphi plein de costards-cravates et de tailleurs ? Est-ce que les nouvelles données (la façon dont ils sont habillés) sont suffisants pour modifier notre a priori ? C'est ce que formalise Bayes.

Proba(Etudiants de lettres, sachant Habillés en costards) = Proba(Etudiants de lettres) x Proba(Habillés en costards, sachant Etudiants de lettres) / Proba(Habillés en costards)

(Jolies équations dans Wikipedia)

Proba(Etudiants de lettres) c'est notre idée a priori que l'amphi de lettres sera plein d'étudiants de lettres ;

Proba(Habillés en costards, sachant Etudiants de lettres) c'est la probabilité que les étudiants de lettres aient tous mis des costards ;

Proba(Habillés en costards) c'est la probabilité pour les gens en général de mettre des costards, qu'ils soient en lettres ou non.

Donc à la fin c'est à voir qui gagne : la probabilité d'avoir des étudiants en lettres dans l'amphi de lettres est-elle suffisamment forte pour accepter l'idée farfelue qu'ils se soient tous habillés en costard ? Ou la probabilité d'avoir des lettreux en costard est-elle suffisamment faible pour accepter l'idée que l'amphi de lettres a été occupé par les étudiants en finances ?

Deux choses sont très intéressantes dans la formulation de Bayes : D'une part, on obtient le nombre qu'on veut vraiment, qui est la probabilité de l'hypothèse étant donné les données (on dit plutôt "sachant les données"). Et d'autre part, on prend en compte explicitement notre a priori. Or lorsque l'on obtient de nouvelles données, on a toujours un a priori, qui conditionne la confiance que l'on a dans les conditions autant que les données elles-mêmes. Votre réaction au rapport d'un miracle à Lourdes sera très différente selon que vous soyez catholique (a priori = les miracles à Lourdes sont probables) ou athée (a priori = les miracles sont très improbables). C'est pareil en sciences. Si l'analyse d'un gène m'indique que les humains sont proches parents des chimpanzés, cela est cohérent avec mon a priori, et je l'accepte facilement. Si un autre gène m'indique que les humains sont plutôt proches de la bactérie E. coli, j'aurais tendance à bien bien vérifier s'il n'y a pas eu d'erreur expérimentale, puis proposer un scénario de transfert de ce gène uniquement entre E. coli (qui vit dans notre système digestif) et l'ancêtre des humains. Il me faudrait beaucoup plus de données qu'un seul gène pour réviser mon fort a priori concernant les relations de parenté humain - chimpanzé - bactérie.

Ca peut paraître de la triche comme ça, mais c'est en fait une bonne façon de faire. Il faut être un peu conservateur, étant donné que la plupart de nos a priori largement acceptés (ceux avec une forte probabilité) sont acceptés pour de bonnes raisons. Exemple : les premières analyses moléculaires de l'évolution des mammifères séparaient les rongeurs. Dans une logique "vraisemblance", on retient cette hypothèse ; dans une logique Bayesienne, on note qu'on avait 200 ans de paléontologie et morphologie comparée regroupant les rongeurs ensemble, donc on demande une évidence vraiment forte de la part des données moléculaires. Ce qu'elles étaient incapables de fournir au début des années 1990. Par la suite, avec d'avantage de données moléculaires, un signal fort a émergé regroupant les rongeurs à nouveau. Donc prudence. Même si des fois les révolutionnaires ont raison bien sûr. Les mêmes études du début des années 1990 plaçaient les cétacés (baleines et dauphins) comme cousins des hippopotames, en contradiction aussi avec les paléontologues. Avec plus et mieux de données moléculaires, le signal est devenu tellement fort que les paléontologues ont du convenir que c'était la meilleure interprétation des données.

Le problème majeur de l'approche Bayesienne, c'est de donner une valeur précise à la probabilité a priori (appelée aussi "prior"). Il y a deux réponses à cela. L'une que je n'aime pas beaucoup (mais ça se discute) est de donner égale probabilité à toutes les possibilités. Dans ce cas, je ne vois pas l'intérêt de faire du Bayesien. L'autre (que je préfère) est d'utiliser le Bayesien lorsque l'on a une bonne estimation du prior, et d'utiliser la vraisemblance sinon.

En conclusion, j'aime bien le Bayesien, a priori.

vendredi 25 juillet 2014

Des lobbies proposent de supprimer le conseiller scientifique à la commission européenne

[caption id="attachment_2351" align="aligncenter" width="97"]Cliquez sur l'image Cliquez sur l'image[/caption]

Un ensemble de groupes de pression a écrit une lettre ouverte à Jean-Claude Juncker, président élu de la commission européenne, pour lui demander de supprimer le poste de conseiller scientifique (Chief Scientific Advisor to the President of the European Commission).

Les problèmes ?

  • D'autres groupes, aux intérêts opposés, soutiennent ce poste.

  • Le poste concentrerait trop de pouvoir sur une personne.

  • Les conseils et le mode opératoire du conseiller est insuffisamment transparent.

  • Le conseiller a donné des avis basés sur la litérature scientifique qui vont en sens contraire de ce que ces groupes de pression veulent entendre.


Il est clair que cette demande est inacceptable pour moi en tant que scientifique, et heureusement une organisation, Sense about science, a réagi rapidement avec une lettre ouverte très claire.

Il me paraît évident que la plupart des points cités ci-dessus sont des excuses, et que ce qui gène ces groupes c'est que le conseiller scientifique donne des avis basés sur la litérature scientifique, et non sur leurs intérêts partisans. Sinon ils demanderaient juste de légères modifications dans le fonctionnement du poste. Mais voilà, la science ça refuse de tenir une ligne idéologique ou économique cohérente, mais ça décrit le monde tel qu'il est, et ça visiblement ça gène.

Bas les masques : les signataires de cette lettre sont anti-science.

La lettre ouverte demandant de supprimer le poste :

The position of Chief Scientific Advisor to the President of the European Commission

La lettre ouverte de scientifiques demandant le maintien du poste :

Scientific scrutiny in Europe is essential

(Mise à jour : dans un commentaire, Enro nous signale que l'organisation Sense about science ayant organisé cette deuxième lettre est assez suspecte et politisée. Ach so.)

Il y aurait beaucoup à écrire sur le sujet, mais je n'ai pas le temps. Si vous commentez, merci de noter que j'ai des centaines de spams, et pas le temps de les regarder, alors contactez-moi par Twitter si votre commentaire n'apparaît pas au bout de 24h.

Mise à jour : pour le contexte, voir notamment l'excellent billet sur les "marchands de doute" d'Alexandre Moati.

Suite et éclaircissements dans un billet suivant.

Mise à jour de novembre : le poste a bien été supprimé.

lundi 21 juillet 2014

Petit entretien sur la publication libre accès #openaccess

[caption id="attachment_2332" align="aligncenter" width="129"]Cliquez sur l'image Cliquez sur l'image[/caption]

Ceci est la transcription d'un entretien fait pour le magazine Allez savoir ! de l'Université de Lausanne, pour un article à paraître en septembre 2014. Je remercie David Spring de Allez Savoir ! de m'avoir permis de le publier ici. J'ai juste ajouté quelques liens.


En quoi consiste votre travail d’éditeur scientifique de la revue PLOS ONE ?

Cette activité n’est pas spécifique au fait que le titre est en open access (OA) : le travail est le même partout. Je reçois, de la part de PLOS ONE, un article soumis par un groupe de chercheurs et je me pose une série de questions comme par exemple : le « papier » est-il pertinent ? Les méthodes employées sont-elles correctes ? Les résultats sont-ils frappants ? A-t-il sa place dans la revue ? Je déniche ensuite des scientifiques du domaine traité afin de leur confier la peer review. Ils se trouvent soit dans mes contacts personnels, ou se repèrent grâce à un outil de recherche de spécialistes comme Jane ou encore sur suggestion des auteurs. Je centralise ensuite les remarques faites par les pairs et j’en donne un résumé aux auteurs. L’éditeur décide quels commentaires doivent être pris en compte ou pas. Le document fait ensuite plusieurs allers et retours. Tous les cas de figure surviennent, des changements légers aux modifications importantes. Ensuite, quand les corrections demandées ont été faites, le « papier » est mis en ligne très rapidement. Au moins de juin, PLOS ONE a dépassé les 100 000 articles.

Quelle est votre motivation ? Ce travail est bénévole !

Nous sommes des milliers d’éditeurs volontaires pour PLOS ONE. Je le fais par sens du devoir et pour animer la communauté. C’est nécessaire pour qu’elle vive, tout comme la réalisation de peer reviews ou l’organisation de conférences. Il faut dire également que figurer parmi les éditeurs d’un titre implique une certaine reconnaissance de la part des collègues, qui vous font confiance. Prendre des responsabilités de ce genre est même attendu de votre part si vous visez des postes supérieurs dans la carrière académique.

Combien coûte à l’auteur une parution en OA?

D’après mon expérience personnelle, les prix naviguent entre $1000 et $3000 par article. Certains sont gratuits et d’autres plus chers : PLOS ONE demande $1350, ce qui est assez peu. Dans certains cas d’auteurs désargentés, la revue offre même la parution. Depuis peu, le Fonds national suisse (FNS) paie les frais de publications des auteurs dont il soutient les travaux financièrement.

Quels types d’OA trouve-t-on aujourd’hui ?

Par exemple, le modèle hybride. Il s’agit de revues qui fonctionnent sur le principe de l’abonnement, donc du lecteur-payeur. Mais les auteurs qui le souhaitent peuvent payer un supplément pour que leur article soit en OA… Cela donne un sommaire panaché, où certains papiers sont en lecture libre, et d’autres pas. Un business model disruptif a émergé : celui de PeerJ (biologie et médecine). Les auteurs paient une participation unique, au minimum de 99 $, ce qui leur donne le droit, annuellement, de publier un article mais les contraint à une peer review. Petite subtilité : tous les co-auteurs doivent avoir réglé leur cotisation. De manière plus générale, il ne faut pas croire que toutes les revues en OA ne poursuivent pas de but commercial. De même, certains titres qui ont opté pour le « lecteur payeur » n’ont pas de but lucratif. Tous les cas de figures existent.

Quel bénéfices le grand public peut-il attendre de la publication en OA ?

Notre société compte de nombreuses personnes qui possèdent une formation scientifique : des professeurs du secondaire, des ingénieurs, des médecins. Ils peuvent lire les articles parus dans les revues.

Pour les enseignants, c’est une perte que de ne pas y avoir accès pour des raisons de coûts. Quand ils voient dans les news qu’on a trouvé un nouveau dinosaure, ou qu’on parle des OGM ou du réchauffement, ils devraient pouvoir utiliser la littérature scientifique. Pour moi, un véritable OA propose du contenu sous licence « creative commons », que l’on peut réutiliser et proposer au téléchargement. Je parle de cartes, de graphiques qui enrichissent les cours.

Pensez également à des patients atteints de maladies graves ou chroniques, et aux associations qui les représentent. S’ils entendent parler de nouveaux travaux, voire d’un traitement potentiel, ils devraient pouvoir accéder aux informations qui les concernent…

Mais les articles sont compliqués à lire pour des profanes ?

Ne sous-estimez pas la motivation de personnes dont la vie est concernée. En auto-formation, on peut apprendre beaucoup. Et il est toujours possible de soumettre l’article à son médecin pour avoir des informations. De manière générale, les débats de société, que ce soit au sujet de la mort des abeilles, du changement climatique, des perturbateurs endocriniens ou même du créationnisme sortiraient enrichis d’un accès plus large aux travaux des chercheurs. Les militants, les industriels et les journalistes seraient les premiers intéressés, mais tout le monde est concerné. Chaque personne qui souhaite accéder à l’information doit pouvoir le faire. Quand vous devez payer un « papier » avec votre carte de crédit et que vous vous rendez compte en ouvrant le pdf qu’il est inintéressant ou illisible, vous avez perdu de l’argent et vous ne pouvez pas le rendre au fournisseur !

Quels sont vos collègues qui bénéficient de l’OA ?

Le coût des abonnements empêche les chercheurs africains, par exemple, d’accéder à la recherche. Mais c’est également valable pour les pays européens en difficulté économique, comme la Grèce ou le Portugal. C’est un cercle vicieux : pas de connaissance, pas d’innovation, pas de start-ups, pas d’emplois… Les tenants du modèle traditionnel tentent de contrer cet argument en disant qu’il faut payer pour publier dans l’OA, et que c’est un problème aussi. Mais d’abord, un scientifique lit beaucoup plus qu’il ne publie. Ensuite, si vous n’avez pas lu les travaux des spécialistes de votre domaine, vous ne pouvez jamais faire de la bonne science et en arriver au stade de la soumission d’un article. Il vaut clairement mieux payer pour publier que pour lire !

Pourquoi le modèle traditionnel du lecteur-payeur existe-t-il encore ?

C’est l’inertie du système. Pourquoi les maisons de disques existent-elles encore à l’heure d’iTunes ? Il faut prendre en compte la question du prestige cumulé avec les années de revues comme Nature. Un nouveau venu, en OA, ne l’aura pas avant un moment. Toutefois, PLOS Biology et PLOS Medicine font concurrence à de très bons titres, ce qui prouve qu’un changement de mentalité est possible. Le moyen le plus efficace de faire bouger les choses rapidement, c’est quand les organismes qui financent la recherche, comme le Wellcome Trust en Grande-Bretagne, soutiennent la démarche et contraignent à publier en OA. C’est d’ailleurs une bonne chose pour la recherche elle-même, qui circule davantage quand elle est librement accessible ! Enfin, le piège des abonnements réside dans le fait que leurs coûts sont payés par les bibliothèques et les universités sans que les scientifiques ne les voient passer (ils sont même confidentiels !), alors qu’une publication en OA tombe sur le budget du chercheur lui-même…

Il y a un décalage entre les intérêts général et particulier…

Chaque chercheur a en effet intérêt à progresser dans sa carrière grâce à des parutions dans des titres prestigieux. S’ils publient dans une revue OA, c’est bien souvent sans faire exprès... Même si je fait l’effort de ne publier qu’en OA*, je n’applique pas forcémen cette politique à mes doctorants, qui doivent partir dans la nature munis d’un bon CV.

* ces dernières années.

Que pensez-vous des serveurs institutionnels comme Serval, mis à disposition des chercheurs de l’UNIL et du CHUV par la Bibliothèque cantonale et universitaire de Lausanne ?

En soi, c’est une bonne chose. Mais pour moi, l’OA green road que permet Serval, c’est à dire la publication dans une revue traditionnelle et le stockage local de l’article, ce n’est pas un véritable open access…

… Pourquoi ?

Parce que les éditeurs ne permettent de loin pas toujours de mettre à disposition la toute dernière version du « papier ». Le site Sherpa/Romeo liste les différentes exigences juridiques. Cela pose deux problèmes. Mettre à disposition un article dans sa version originale, c’est à dire avant l’évaluation par les pairs, implique un manque de contrôle et un risque d’erreurs. Ensuite, cela signifie que deux versions du document circulent ce qui provoque une confusion au moment où quelqu’un va vouloir le citer dans un nouvel recherche: duquel va-t-on parler ?

jeudi 17 juillet 2014

J'aime les commentaires sur les blogs et ailleurs

[caption id="attachment_2153" align="aligncenter" width="96"]cliquez sur l'image cliquez sur l'image[/caption]

Il y avait eu il y a quelques temps un débat sur l'opportunité des commentaires en sciences en général (voir aussi ici). Personnellement, je trouve que les retours et questions via les commentaires m'apportent beaucoup, et que cela montre de plus que les scientifiques ne sont pas des autorités dogmatiques, mais que nous écoutons et sommes ouverts au dialogue. Et quand je découvre un nouveau site, une des premières choses que je fais est de regarder les commentaires. Notamment, les auteurs répondent-ils de bonne fois lorsqu'on leur pose une bonne question (voir la thématique admettre que l'on a tort) ? Mais aussi parce que si un article ou un billet a une erreur factuelle grave, je m'attends à voir une correction dans un commentaire.

Parfois les discussions du blog deviennent l'intérêt principal du billet, voire du blog. C'est le cas de Gaïa Universitas à mon avis, et souvent de Sciences2. Dans ce dernier cas, c'est juste dommage que Sylvestre Huet lui-même (le journaliste auteur du blog) ne réponde que très rarement. On peut comprendre qu'il soit occupé, mais des fois ça manque un peu je trouve de remercier quelqu'un pour une correction ou de répondre à une question explicite. Il reste que sur Sciences2 il y a de vraies discussions, et c'est une vraie valeur ajoutée.

Sur un sujet proche, il est aussi intéressant de voir les réponses à ce tweet de Pierre Barthélémy, journaliste scientifique émérite au Monde :
Voilà : 1 000 tweets. Et une question : voulez-vous plus d'infos via mon compte Twitter ou êtes-vous satisfaits par le rythme actuel ?

— Pierre Barthélémy (@PasseurSciences) June 29, 2014

Pierre ne juge pas avoir le temps de s'engager dans des discussions avec des scientifiques ou des lecteurs sur Twitter. Je trouve cela dommage.

Et puis il y a les blogs où on peut commenter, mais il n'y a jamais de réponse. Je trouve cela très étrange. Pourquoi avoir un blog avec commentaires ouverts si on ne veut pas avoir de dialogue ? Par exemple le blog binaire sur le site du Monde. J'ai commenté il y a quelque temps sur le robot Thymio utilisé dans l'éducation, en posant des questions. Aucune réponse. Autre exemple, le site du Café des sciences de Morlaix est un blog ; j'ai commenté sur le saumon OGM, en nouveau en posant des questions. Aucune réponse.

Alors oui je suis favorable aux commentaires, favorable aux discussions, et favorable au dialogue, qui doit aller dans les deux sens ! C'est pas parce qu'il y a des trolls sous les ponts qu'on doit rester coincé de ce côté-ci de la rivière.

(Billet en brouillon depuis longtemps, et merci à une discussion hors ligne qui se reconnaîtra qui m'a permis de le retourner de manière constructive.)

mercredi 16 juillet 2014

Pourquoi je suis favorable à l'enseignement de la programmation à l'école

[caption id="attachment_2322" align="aligncenter" width="142"]Cliquez sur l'image Cliquez sur l'image[/caption]

C'est un débat qui revient régulièrement, et pour une fois avec une certaine symétrie des deux cotés de l'Atlantique : doit-on enseigner la programmation à l'école ?

Les arguments contre, je l'avoue, me convainquent assez peu : la programmation n'est pas vraiment une discipline au même titre que les maths ou la littérature (mais on enseigne aussi la flute à bec, la cuisine et le sport que je sache - et si la définition d'une discipline c'est d'être patiné par les ans, par définition on n'en n'aura jamais de nouvelle) ; pas tout le monde aura besoin de programmer (bin pas tout le monde aura besoin d'avoir lu Victor Hugo et de savoir calculer une dérivée) ; les profs ne sont pas formés (à nouveau, avec cet argument on n'aura par principe jamais de nouvelles matières). L'argument le plus étrange pour moi, mais qui apparemment fait mouche : c'est pas avec ça qu'on va résoudre tous nos problèmes ! (Beaucoup de discussion en suivant ce lien ; l'article lui-même me paraît poser de fausses dichotomies ; et je précise que je n'ai pas lu tous les commentaires.) Euh non, mais si on n'a rien le droit de faire si ce n'est pas la seule solution à tous nos problèmes, c'est un peu limitant (ça me rappelle certains débats sur le riz doré).

Pour être clair : le manque de profs est un problème, mais si c'est le principal problème, alors il n'y a pas d'opposition de principe, et c'est un problème auquel il est possible de chercher des solutions : formation de profs volontaires (et je ne vois vraiment pas pourquoi ça serait limité ni même davantage encouragé pour les profs de maths), embauche en temps partiel d'étudiants, flexibilité sur les diplômes si expérience professionnelle, ... bon après je ne m'aventure pas dans les débats sur les statuts de fonctionnaires en France, mais ce n'est plus une question de principe donc.

Alors pourquoi suis-je favorable à l'enseignement de la programmation à l'école ?

D'abord, l'informatique me paraît une matière importante, et c'est en programmant qu'on l'appréhende le mieux. De même qu'on fait des expériences en chimie et physique, des calculs en maths, des rédactions en français, c'est en programmant qu'on comprend à la base l'informatique. Ceci n'exclut pas d'aller plus loin et plus théorique pour ceux qui le veulent, mais il me semble que la compétence de base s'acquiert vraiment au pied du mur en devenant forgeron (ou quelque chose comme ça). J'ai eu une discussion Twitter avec un collègue bioinformaticien à ce propos, où il défendait qu'apprendre à programmer était comme apprendre la mécanique automobile plutôt que la physique. Je maintiens que c'est plus comme écrire des rédactions ou des dissertations, ou résoudre des calculs. De plus, l'informatique est quand même à mon avis à la fois une science et une technologie (voir les avancées et théoriques et pratiques d'un très bon informaticien dans ce billet). (La bioinformatique aussi d'ailleurs.)

Ensuite, lorsque l'on sait programmer, je pense que même si l'on ne programme pas (ou plus) en pratique, on en retire la compréhension de deux choses importantes :

  • On comprend mieux l'intuition du programmeur, et donc on comprend mieux comment utiliser les logiciels et on comprend mieux ce que l'on peut demander ou pas à l'informatique. On comprend ce qui doit forcément être sauvé dans un fichier, sinon ça ne serait pas gardé, ce qui devrait logiquement être modifiable parce que c'est facile, et ce qui n'est pas vraiment possible. C'est facile de se moquer du maire de New York qui affirme vouloir apprendre à programmer, parce qu'en effet dans son travail il ne doit pas en avoir besoin. Mais s'il comprend mieux ce qu'il peut demander, ce qui améliorerait la vie et serait vraiment facile à faire, ce serait un sérieux progrès pour la gestion des grandes villes à mon avis. Et juste pour prendre en main un nouveau logiciel, ou un nouvel appareil (iBidule ou autre), de comprendre ce qu'est un programme et comment ça marche est un sérieux plus. Vous comprenez ce que ça veut dire, que les apps soient "sandboxés" sur un iphone ? Sans savoir programmer, cela reste forcément un peu obscur je pense.

  • On comprend au moins intuitivement plein de notions qui sont en général pertinentes à notre relation avec le monde, y compris hors informatique. C'est un bénéfice de devoir formaliser la manière de penser et d'exécuter. Ce que sont un algorithme (comment résoudre une tache), une heuristique (une solution approximative, rapide et qui marche la plupart du temps), que de mauvaises données ne donneront pas de bonne solutions (Garbage in garbage out), qu'un ordinateur ne peut pas "comprendre" au même sens qu'un humain, etc etc, sont des notions à mon avis fondamentales. Notions que l'on peut bien sur pousser pour ceux qui le choisissent, mais dont on peut donner une intuition à la plupart des gens en leur faisant utiliser.


Un bénéfice je trouve moins critique mais quand même appréciable est de pouvoir utiliser l'informatique dans la zone grise qui n'est pas vraiment de la programmation au sens strict, mais manipule les mêmes objets et concepts : éditer du HTML pour une page web ou un blog, éditer le code dans Wikipedia, utiliser un logiciel de statistiques avancé comme R, écrire des macros Excel, etc.

Débats secondaires : à quel niveau à l'école ? Dès 6 ans, 10 ans, ou seulement à 17 ans ? Et quel languages ? Il me semble qu'il faut d'abord être d'accord sur les objectifs avant de s'occuper des moyens de les réaliser. En l'état des choses, je vote 10-12 ans, programmation de robots puis Python, mais je suis très ouvert à ce niveau-là. :-)

lundi 14 juillet 2014

Similarités entre la bioinformatique et les humanités digitales (ou numériques)

[caption id="attachment_2313" align="aligncenter" width="130"]Cliquez sur l'image Cliquez sur l'image[/caption]

La semaine dernière mon campus a hébergé la conférence internationale des humanités digitales (en anglais digital humanities ; en français à Lausanne humanités digitales ; en français en France humanités numériques) (blogs à voison sur hypothese.org). L'occasion de traiter un sujet dont je voulais parler depuis longtemps, les similarités entre humanités digitales et bioinformatique.

En bref, la bioinformatique est aux sciences du vivant ce que les humanités digitales sont aux sciences humaines.

Mais encore ? Eh bien dans les deux cas nous avons la nécessité de traiter intelligemment (et automatiquement si possible) des quantités rapidement croissantes de données, qui ont la particularité d'avoir été générées par des gens qui ne savaient pas qu'on aurait à les traiter informatiquement, et de travailler avec une communauté qui n'a pas une culture quantitative ni informatique très forte. Le biologiste typique aimait les sciences mais pas les maths, et l'humaniste typique n'en parlons pas.

Cela fait contraste avec d'autres domaines, comme la physique, ou certes il y a beaucoup de données, un besoin fort d'informatique, mais également une conscience forte de ces nécessités depuis longtemps, et une culture des maths et de l'informatique (la moitié de l'informatique et plus de la moitié des maths ont probablement été inventées en réponse à des défis de la physique), qui font que ceux qui génèrent les données respectent le travail de ceux qui les analysent.

De plus, en physique ou en chimie le cadre théorique est grosso-modo posé depuis longtemps, et donc quand on démarre une grosse expérience on sait ce qu'on cherche. Par contre en biologie ou en sciences humaines, parfois on génère exprès de grandes quantités de données, mais on ne sait pas encore trop quels seront les signaux intéressants, soit on doit traiter un ensemble de résultats acquis au cours du temps par différents laboratoires ou intervenants, pour différentes raisons, avec différents standards et objectifs (exemple dans ce billet).

Suite à discussion avec des collègues des humanités digitales, voici une liste de défis communs aux deux sciences interdisciplinaires :

  • La construction d'ontologies, c'est-à-dire de représentations computationnelles de domaines de connaissances.

  • L'utilisation de ces ontologies, par les spécialistes et par les autres partenaires (biologistes, médecins, littéraires, historiens, etc).

  • La gestion des méta-données, c'est-à-dire qui a collecté quelle information, avec quelles méthodes, à quelle date, avec quels standards, etc etc. Indispensable à l'analyse de données que l'on n'a pas généré soi-même, et à leur ré-utilisation, et souvent négligé voire perçu comme une contrainte inutile par ceux qui génèrent les données.

  • La récupération et la curation de l'information. Très important ! Les méthodes automatiques ont toujours des limites, et donc il faut des personnes dédiées qui collectent, expertisent et annotent les informations. Alors que beaucoup d'aspects sont davantage développés en bioinformatique (qui a une certaine avance historique quand même je pense), la curation est je pense mieux organisée et mieux perçue dans les humanités, et il existe même des masters dédiés.

  • Un sujet proche, la confiance dans les données et dans leur interprétation. Comment reconnaître et coder que certaines informations (résultats d'observations ou d'expériences, témoignages historiques ou manuscripts) soient plus fiables que d'autres ?

  • Last but not least, le défi de la communication entre les geeks et leurs confrères plus traditionnels : utilisabilité des outils, légitimité d'une façon de travailler nouvelle, confiance dans des résultats obtenus de manière peu orthodoxe, difficulté d'être perçu comme collègues et non comme techniciens ou étrangers, etc.


Pour finir, une discussion qui est propre aux humanités est le rôle du multilinguisme dans la communication académique : voir l'excellent blog de Martin Grandjean (aussi billets précédents sur l'enseignement scientifique en anglais ou français par Tom Roud et moi-même). Entre biologistes et informaticiens, on peut au moins être d'accord sur l'usage de l'anglais scientifique. :-)

mercredi 9 juillet 2014

100'000 articles, et la révolution #PLOSOne continue à faire peur

http://www.youtube.com/watch?v=rGaRtqrlGy8

Tiens de la poésie pour changer des petits mickeys.

J'ai récemment réagi à un billet du blog "rédaction médicale", qui émettait des doutes sur la pertinence des 100'000 articles publiés dans PLOS One (voir aussi ce billet). Le billet lui-même est étrange, utilisant les insinuations ("course à la publication qui consiste maintenant en un payement de 1350 $ à PLOS ONE pour être publié" ; "pour la qualité du peer-review, j'entends le meilleur et le pire") sans vraiment ni affirmer que PLOS One serait inférieur, ni donner de faits.

J'ai répondu dans les commentaires, avec le soutien de Pascal de l'Agence Science Presse. Je reproduis les commentaires ci-dessous, mais je voudrais d'abord dire que les réactions que je vois là et ailleurs me paraissent symptomatiques de ce que PLOS One, en modifiant les critères classiques où l'important est de publier des résultats frappants dans des journaux prestigieux, déstabilise l'édifice injuste et inefficace actuel, dans lequel les journaux ont le pouvoir, pouvoir de refuser des articles justes parce que "pas assez importants", pouvoir de publier des articles faux mais sexy (scandale récent des cellules souches), et pouvoir d'imposer des abonnements hors de prix car marché biaisé.

Alors PLOS One a du succès, et ce succès montre que le status quo n'est pas inévitable, et ça ne plait pas à ceux qui en bénéficient ou qui y participent activement. Mais c'est trop tard, la révolution est là et elle avance. Ayez peur, ayez très peur.

J'aimerais bien savoir sur quoi se basent les gens qui disent que PLOS One fait un reviewing moins bon que d'autres journaux. Les critères sont clairs, ils sont ici :

http://www.plosone.org/static/publication

Quand à l'idée que l'open access serait un problème pour la qualité, voir ici :

http://toutsepassecommesi.cafe-sciences.org/2014/03/26/lopen-access-ne-nuit-pas-a-la-qualite-scientifique/

Je trouve personnellement très positif que grâce à PLOS One et d'autres jouraux similaire (1) une grande quantité d'information scientifique soit librement disponible et analysable (text-mining), (2) de nombreux résultats qui auraient moisi dans des tiroirs doit publics. Beaucoup de ces résultats sont peu intéressants seuls, mais ensemble ils forment une énorme quantité de connaissances.

Déclaration de conflit d'intérêt : je suis éditeur bénévole chez PLOS One.


Rédigé par : MRR | mercredi 02 juillet 2014 à 21:23


Bonsoir,

effectivement, vos remarques sont vraies.. Mais les opinions que je rencontre en discutant avec les auteurs, reviewers et éditeurs qui travaillent pour PLOS sont très variables. Rarement, j'ai entendu des commentaires aussi divergents

Donc opinions... et on aurait besoin de faits

Cdlmt
HM


Rédigé par : Maisonneuve | mercredi 02 juillet 2014 à 22:28


Je ne suis pas sur de quels faits vous attendez. Je vous ai fourni les critères de publication de PLOS One.

On peut noter que PLOS One est l'un des journaux à s'être le mieux sorti du hoax d'un journaliste de Science l'an dernier :
http://retractionwatch.com/2013/10/03/science-reporter-spoofs-hundreds-of-journals-with-a-fake-paper/#comment-64133

Pas directement lié à PLOS One, mais les journaux prestigieux à haut facteur d'impact ont aussi les plus forts taux de rétraction :
http://iai.asm.org/content/79/10/3855.full

Ensuite, il me semble que la charge de la preuve est pour ceux qui voudraient dire que PLOS One publierait moins rigoureusement, ou de la science moins correcte ou moins soutenue. Que PLOS One publie des articles moins excitants, c'est assumé dans la mission du journal.


Rédigé par : MRR | vendredi 04 juillet 2014 à 16:11

Pour renchérir sur le commentaire de Marc, il semble que le choix de PLOS One comme cible soit étrange (ou alors, vous gagneriez à mieux l'expliquer). Si vous voulez dénoncer la course à la publication à l'oeuvre dans le monde de la recherche, il y a évidemment de l'espace pour le faire et vous pourriez trouver bien, bien pire. Si vous voulez dénoncer les revues aux critères de publication douteux, il y en aurait des centaines qui mériteraient de passer à la trappe avant PLOS One. Certes, PLOS One sait se promouvoir: est-ce mal?


Rédigé par : Pascal Lapointe | samedi 05 juillet 2014 à 03:38

mardi 8 juillet 2014

Réflexions sur l'apport de l'informatique à la bioinformatique

[caption id="attachment_2288" align="aligncenter" width="219"]cliquez sur l'image cliquez sur l'image[/caption]

J'ai récemment été au séminaire de retraite GNOME (Gonnet is Not Only Molecular Evolution) de Gaston Gonnet, un grand bonhomme de l'informatique (Google Scholar), notamment connu pour le logiciel de calcul Maple, et ces 25 dernières années pour ses contributions parfois remarquées à la bioinformatique et à l'évolution moléculaire. Le séminaire a inclus des informaticiens hard-core aussi bien que des collaborateurs biologistes, et bien sur des bioinformaticiens, certains formés par Gaston à l'interface interdisciplinaire. C'est l'occasion de réfléchir à l'interaction informatique-biologie, et notamment à l'apport de l'informatique.

Bien sur, les ordinateurs plus puissants, les languages de programmation de haut niveau, et les systèmes de gestion de données, sont utiles à la biologie, mais ce n'est pas de ça que je veux parler. La recherche en informatique, ce sont de nouveaux algorithmes, des démonstrations de complexité, voire de nouveaux languages de programmations ou manières de représenter l'information.

Prenons l'exemple de la première contribution (remarquée) de Gaston à la bioinformatique : la matrice de Gonnet (Gonnet et al 1992 Science 256: 1443-1445).

La contribution a été remarquée à la fois grâce au résultat, et à cause du ton du papier, qui contient la phrase "The parameters provide definitive answers to two fundamental questions concerning protein alignment: What does a mutation cost? and What does a gap cost?". Cette phrase n'est probablement pas due à Gaston (communication personnelle), mais elle est quelque part emblématique d'un certain type de relations entre bioinformaticiens issus de la culture de la démonstration de l'informatique et des maths (voir aussi Lior Pachter) et bioinformaticiens issus de la culture empirique de la biologie.

Bref, un peu d'histoire. Le type de matrice dont on parle ici est un genre de tableau qui donne les probabilités de changement d'un acide aminé en un autre lors de l'évolution des protéines. Les protéines sont des chaînes d'acides aminés, qui forment un "alphabet" de 20 lettres. Une protéine peut changer par mutation soit en remplaçant un acide aminé par un autre, soit par délétion ou insertion d'acides aminés. Un acide aminé peut être remplacé par un autre selon une probabilité qui dépend à la fois de propriétés chimiques et du code génétique (certains changements sont plus faciles à obtenir par hasard), et de l'impact fonctionnel sur la protéine (certains changements ont plus de chances de casser la fonction de la protéine, et sont donc éliminés par la sélection naturelle - ce qui diminue la probabilité de les observer en pratique). Dans les années 1960, celle qui a probablement fondé la bioinformatique sans ordinateurs, Margaret Dayhoff, a eu l'excellente idée de comparer beaucoup de séquences de protéines homologues (beaucoup à l'époque : quelques dizaines) (homologues : en gros la même protéine dans différentes espèces ; voir ce billet), et de compter les changements entre tous les types d'acides aminés. Ce qui lui a permis de construire la première matrice de probabilités de changements entre acides aminés, connue comme PAM (point accepted mutation). Y a une explication plus détailée sur le blog bioinfo-fr.

Etape 1 donc : intuition du biologiste, qui lui permet d'obtenir un résultat et un outil utiles.

Ensuite, des informaticiens ont démontré la manière optimale d'aligner des protéines pour savoir quels acides aminés comparer de manière mathématiquement correcte (Needleman-Wunsch). Démonstration cool, bien que limitée à l'époque par la puissance des ordinateurs : les algorithmes exacts sont lents. Mais ces démonstrations ont formé la base de beaucoup de travail suivant.

Etape 2 : des informaticiens démontrent des théorèmes et trouvent des algorithmes exacts, quoique souvent inutiles en pratique (provoc assumée).

Dans les années 1980, Gaston Gonnet avait travaillé sur des algorithmes rapides et efficaces pour chercher dans tous les mots de l'Oxford English Dictionnary. Il a alors été contacté par un biologiste assez original et brillant, Steven Benner, qui lui a proposé, et je cite, "de travailler sur des données intéressantes" (par opposition au dictionnaire apparemment). Ils ont relevé le défi de mettre à jour les vieilles matrices de Dayhoff, avec bien davantage de données, en utilisant les algorithmes de Gaston pour les dictionnaires. Ils ont ainsi calculé la matrice de Gonnet, qui inclut non seulement une mise à jour des probabilités de changement entre acides aminés, mais des estimations des probabiliés d'insertion et de délétion (les "gaps" de la citation ci-dessus) grâce également à l'emploi de la méthode Needleman-Wunsch.

Etape 3a : les informaticiens répètent le travail des biologistes - bioinformaticiens (Dayhoff), mais bien plus efficacement.

Etape 3b : la collaboration entre biologistes et informaticiens qui se s'écoutent et travaillent efficacement ensemble déchire tout.

A noter aussi qu'une partie de l'apport de Gaston était dans la manière de représenter l'information dans un ordinateur pour des recherches rapides, et qu'il a implémenté ses méthodes dans un language qu'il a développé, appellé ... DARWIN.

Voilà bien sur c'est un cas particulier, mais souvent comme ici le point de départ d'une nouvelle approche vient de l'intuition des biologistes, elle est rendue efficace par les informaticiens, et quand on travaille vraiment ensemble on fait de grandes choses.

En plus ils m'ont donné un t-shirt à la conf, avec un gnome cool, et j'ai appris que "gnomes" était un surnom des banquiers zurichois.

Mise à jour : des liens pertinents via Christophe Dessimoz :

lundi 7 juillet 2014

Faut-il arrêter de citer Feynman s'il était un gros cochon sexiste ?

[caption id="attachment_2281" align="aligncenter" width="221"]Cliquez sur l'image Cliquez sur l'image[/caption]

Un retweet de Tom Roud a attiré mon attention sur un débat internet en cours : des personnes qui ont découvert que le célèbre physicien Richard Feynman faisait preuve de sexisme dans ces écrits. Or Feynman n'était pas seulement un physicien brillant, il était aussi un excellent pédagogue, un écrivain très drôle, et un bon vulgarisateur. Et très charismatique, une qualité finalement rare chez les physiciens théoriques. On se retrouve donc souvent à le citer sur le rôle de la science dans la société, et la façon doit on fait ou devrait faire de la science.

Exemples (cliquez pour davantage) :

  • Science is the belief in the ignorance of experts.

  • The first principle is that you must not fool yourself — and you are the easiest person to fool.

  • Is no one inspired by our present picture of the universe? This value of science remains unsung by singers, you are reduced to hearing not a song or poem, but an evening lecture about it. This is not yet a scientific age.


Mais oui, il était sexiste (lien, lien, lien). On peut entrer dans une discussion sur le fait que la plupart des hommes de sa génération blabla, mais ce n'est pas ce qui m'intéresse ici. Je sais d'expérience directe que beaucoup de gens brillants ne sont pas des gens bien, ni personnellement ni d'un point de vue moral plus abstrait. Il parait clair que ceci n'est pas spécifique à mon expérience, mais que de nombreux scientifiques, artistes, philosophes, et autres personnes brillantes et dont nous admirons le travail, étaient (ou sont) sexistes, racistes, égoïstes, brutaux, manipulateurs, et/ou arogants, etc etc.

Ce qui m'intéresse ici, c'est pourquoi cite-t-on quelqu'un ?

Il me semble qu'au départ il y a trois motivations de base :

  • Pour affirmer un argument d'autorité, par exemple lorsqu'un chrétien cite la bible. Ce ne devrait jamais être le cas dans une discussion scientifique ou sur la science.

  • Pour la beauté du texte, par exemple lorsqu'on cite un vers de Rimbaut. En soi, la beauté textuelle n'est pas vraiment informative sur la réalité des choses, et donc pas directement pertinente à la discussion scientifique. Donc pas vraiment pertinent non plus (mais péché véniel, par rapport au péché mortel d'argument d'autorité).

  • Documenter ce qui s'est effectivement dit, dans un souci d'authenticité historique ou légale. Si on est engagé dans un débat sur le racisme de Darwin ou l'honêteté de Séralini, c'est pertinent (et même indispensable), mais ce n'est pas me semble-t-il la principale motivation pour citer quelqu'un comme Feynman.


Non il me semble que les citations dans les discussions sur la science sont utilisées de manière justifiée parce que quelqu'un a trouvé une formulation qui résume d'une manière particulièrement claire et informative (et pourquoi pas belle voire touchante) le concept que l'on veut expliquer. Ce n'est pas la citation qui affirme la vérité de l'assertion, mais elle est utilisée comme peuvent l'être un bon exemple, une analogie parlante, ou une maquette d'atome, elle nous permet de communiquer mieux et plus rapidement ce que nous voulons dire.

Par exemple la première citation ci-dessus résume ce que j'ai essayé laborieusement d'expliquer dans un long billet récent, et le résume sans doute mieux.

Par rapport à cet objectif, est-ce que le sexisme de Feynman, ou autres turpitudes morales de personnes connues, est pertinent ? Il me semble que non. La citation continue à jouer son rôle de transmission élégante et efficace d'un message important et pertinent.

Bien sûr, dans le souci d'honnêteté qui doit nous animer, la pendant de cette réflexion c'est que ces défauts ne doivent pas être cachés, mais honnêtement reconnus. Fisher était un raciste qui défendait l'industrie du tabac, ses contributions aux statistiques et à la génétique restent vraies et très importantes, mais ne nous voilons pas les yeux.

Accessoirement, le seul type de citation pour lequel les qualités de la personne citée me semblent vraiment importantes est la première, l'argument d'autorité. Comme personne n'est parfait, c'est un problème pour les sectes en tout genre, et je le leur laisse.

vendredi 4 juillet 2014

Cellules souches à l'acide, c'est fini. Quelles conséquences pour la recherche et le rôle des réseaux sociaux?

[caption id="attachment_2260" align="aligncenter" width="121"]Cliquez sur l'image Cliquez sur l'image[/caption]

Bin voilà, c'est fini. La grande promesse des cellules souches miracles obtenues rapidement pas cher (voir ce billet) est enterrée par le journal qui l'a publiée : Nature a retiré les deux papiers et le commentaire enthousiaste publié en même temps (voir aussi ce billet).

Je suis sur que beaucoup de choses vont être dites et écrites sur ce bazar, mais je voudrais juste revenir ici sur le rôle des médias sociaux, et l'interaction avec la publication classique (voir ce billet pour les types de publication). Pour simplifier, je vais partir du résumé sur le site retractionwatch et de l'excellent blog ipscell.

On rappelle que de nombreux lecteurs (biologistes) du papier ont remarqué et rapporté très rapidement des problèmes potentiels. Mais Nature dit que l'expertise avant publication (peer review) n'aurait pas pu le détecter. Comment cela se fait-il ? Des experts aguerris ne peuvent pas voir ce que voient des doctorants qui lisent le papier ?

En tous cas, Nature dit qu'ils vont maintenant faire plus attention aux figures. Vrai ? Chiche ? Parce qu'à l'heure d'internet, et contrairement aux bons journaux spécialisés, ils ne demandent toujours pas les photos originales en haute définition apparemment. Et ils ont quand même une phrase très étrange dans leur éditorial :
When figures often involve many panels, panels duplicated between figures may, in practice, be impossible for journals to police routinely without disproportionate editorial effort

Euh, le journal scientifique le plus célèbre du monde, dont les abonnements sont très chers, trouve que c'est trop de boulot de vérifier qu'il n'y a pas d'images dupliquées dans les articles qu'ils acceptent ? Et on nous fait ch..r avec les soit-disant problèmes de qualité de PLOS One ?

Et le point où je veux en venir : dans cet éditorial, Nature ne met pas en avant le rôle clé qu'ont joué les réseaux sociaux et les scientifiques qui y sont actifs. Ce sont des forums anonymes et des billets de blog qui ont pointé les problèmes, qui ont rapporté les tentatives de reproduction, et qui ont poussé à une réaction finalement assez rapide des instituts concernés, et d'abord le RIKEN au Japon (Harvard a été nettement moins réactif). Et ensuite Nature a réagi à l'enquête du RIKEN, mais sans ces médias sociaux, il est douteux que cela se soit passé aussi vite.

Et c'est à nouveau très important : comme discuté dans de précédents billets, les articles qui font sensation, qui rapportent des résultats très surprenants et/ou très intéressants, souvent dans de grandes revues un peu "magazine" comme Nature ou Science, sont maintenant sous le scrutin public de milliers de scientifiques pas forcément prestigieux, qui n'auraient pas voix au chapitre s'ils devaient attendre que Nature ou autre leur demande leur avis, mais qui sont rigoureux et passionés et ne laissent pas passer les bétises. Je pense que Nature en a conscience, et ne voit pas cela comme un progrès, avec leurs éditeurs professionnels et leurs abonnements hors de prix. Mais pour la science, pour la communauté scientifique, et pour la confiance que vous pouvez nous faire au bout du compte, je pense que c'est bien un progrès.

jeudi 3 juillet 2014

Discussion #FacebookExperiment, la suite

[caption id="attachment_2248" align="aligncenter" width="164"]Cliquez sur l'image pour un quizz : how addicted to Facebook are you? Cliquez sur l'image pour un quizz : how addicted to Facebook are you?[/caption]

Suite à la découverte par internet le week-end dernier que Facebook avait publié une étude manipulant leurs utilisateurs, il y a eu beaucoup de discussions, et les débats reviennent pour l'essentiel à deux positions :

  • c'est inacceptable de manipuler les gens, et l'acceptation des conditions générales d'utilisation ne vaut pas consentement ;

  • pourquoi en faire toute une histoire ? de toutes façons la publicité, Google, et l'usage habituel de Facebook, nous manipulent bien plus tout le temps, et rien de plus grave que ça n'a été fait.


Voir par exemple (en français) le forum linuxfr ou la position de l'Agence Science Presse, ou (en anglais) le forum Slashdot.

Le commentaire de Pascal Lapointe (de l'ASP) sur le billet précédent apporte un éclairage intéressant : il distingue l'obligation absolue de consentement éclairé, d'une obligation peut-être moins évidente en sciences sociales. Mais il se trouve que le blog Pharyngula cite les principes de l'association américaine de psychologie, qui dit clairement que le consentement éclairé est nécessaire, dans des termes aisément compréhensibles.

De plus, les auteurs de l'étude en sont conscients, puisque premièrement ils disent qu'ils ont ce fameux consentement dans l'article, et deuxièment, et très grave, ils ont rajouté la mention d'études scientifiques dans les termes d'usage de Facebook... après l'étude ! (via The Guardian.) L'article lié note aussi que des mineurs ont pu participer à l'étude, ce qui est normalement très très encadré.

Ca me semble vraiment un aspect très grave de cette affaire. Ils savaient que le consentement éclairé était nécessaire, et ils ne l'ont pas fait. A mon sens, ceci devrait conduire à la rétraction de l'article dans PNAS.

Concernant l'argument "mais on se fait manipuler tout le temps". On est sensé en être informé. La publicité est séparée de l'information, et marquée en tant que telle. Il est malhonnête, et dangereux, de présenter de la publicité comme de l'information. Or ici Facebook n'a pas "manipulé" les gens sensu publicité, ils ont modifié les nouvelles que des personnes recevaient d'autres personnes, à leur insu, et à des fins d'observer leurs réactions. C'est très différent de la publicité, y compris celle sur Google et Facebook. (Et si vous voulez dire qu'en général Facebook est dangereux... bien d'accord, je n'y suis pas.)

Je remarque cet argument surtout de la part de geeks / informaticiens qui connaissent bien le monde des géants de l'internet, et nettement moins le monde aux règles stringentes de la recherche. Ces règles ont des raisons historiques : il y a eu des abus, et on veut les éviter. C'est pas parce que le web est jeune qu'il peut ignorer cette histoire.

Un excellent article dans le New York Times fait remarquer un autre point : parmi les 700'000 personnes manipulées à leur insu, on n'a aucun moyen de savoir combien étaient dépressives ou suicidaires (et voir ci-dessus sur la possibilité que des adolescents aient participé). Lorsqu'il y a un consentement éclairé et un dispositif expérimental standard, les personnes à risque sont écartées de l'étude. Il peut y avoir des personnes suicidées ou internées suite à cette étude, comment le saurions-nous ? Les 700'000 n'ont toujours pas été informées qu'elles aient participé.

Pour finir sur une note plus légère, j'ai redécouvert via linuxfr un site qui présente les conditions d'utilisation de différents services internet sous forme aisément compréhensibles : cliquez sur l'image ci-dessous. Un excellent service !

facebook_tosdr


Mise à jour importante : le journal PNAS a ouvert les commentaires (via Pascal Lappointe). L'étude et son éthique sont défendues par l'auteur sénior de l'étude mentionnée dans mon précédent billet, qui a manipulé la mobilisation politique des gens durant une élection. Les autres intervenants ne sont pas d'accord avec lui. Moi non plus, pour les raisons expliquées ci-dessus.

mercredi 2 juillet 2014

Mon étudiante a eu un prix : Sélection naturelle polygénique du système immunitaire dans l'évolution humaine

[caption id="attachment_2230" align="aligncenter" width="146"]Cliquez sur l'image Cliquez sur l'image[/caption]

Une doctorante que je co-encadre, Joséphine Daub, vient de gagner un prix, et j'en profite pour me vanter et présenter son travail, qui est effectivement excellent et très intéressant. L'idée de départ est de mon collègue Laurent Excoffier, moi je trainais juste dans le coin (et j'ai peut-être contribué un peu aux méthodes et à la discussion).

Daub et al. 2013 Evidence for Polygenic Adaptation to Pathogens in the Human Genome Mol Biol Evol 30: 1544-1558

Il existe trois grands types d'action de la sélection naturelle : pour garder ce qui marche en l'état (dite négative, la plus fréquente), pour fixer des changements qui améliorent les choses (dite positive, rare), et pour garder de la diversité (dite balançante, rare aussi). Détecter la sélection négative c'est relativement facile, c'est ce qui est conservé lors de l'évolution. Détecter la sélection positive est plus difficile, mais potentiellement plus intéressant puisque c'est ce qui expliquera les différences entre espèces, voire entre populations. Une manière de détecter la sélection positive est de chercher des variants du génome (des polymorphismes ou "SNP") qui ont des fréquences très différentes entre populations. Si certains types de SNP sont très fréquents chez les populations d'altitude (tibétains et andins) mais très rares chez les autres, c'est une indication que ces variants sont avantageux en altitude, et sous sélection positive qui les promeut dans ces conditions. Un des problèmes de cette approche, c'est que chez les humains qui nous intéressent souvent le signal s'il existe est très faible. Donc c'est difficile de détecter de manière fiable une évidence de sélection naturelle dans l'évolution humaine récente ("récente" des biologistes évolutifs : ces dernier ≈100'000 ans).

Et c'est là qu'intervient l'idée de ce travail : utiliser non pas le signal calculé pour chaque gène, mais faire la somme du signal pour des ensembles de gènes qui travaillent ensemble à une même fonction. En effet, les gènes n'agissent jamais seuls pour les fonctions biologiques : ce sont des réseaux métaboliques, des cascades régulatrices, des complexes protéiques, etc. Si une fonction est sous sélection positive, on peut supposer que de nombreuses petites variations dans différents gènes agissant sur cette fonction soient toutes affectées par cette sélection. Donc ce que l'on fait c'est (1) calculer pour chaque SNP le score de différentiation entre populations, (2) corriger ce score en fonction de problèmes connus de démographie, (3) définir des ensembles de gènes fonctionnellement pertinents (en l'occurence de NCBI Biosystems), (4) faire la somme des scores pour tous les gènes de chaque ensemble. Ensuite ça a été un peu compliqué de définir quel est un score significatif parmi des ensembles de gènes de tailles différentes, contenant des gènes de tailles différentes (un grand gène a plus de variants au hasard), avec des gènes en commun entre les ensembles (un gène peut agir dans plusieurs contextes, sans compter que la même fonction peut être décrite deux fois de manières différentes), bref à la fin on peut attribuer un score et une significativité statistique à chaque ensemble de gènes. (Vous êtes en thèse et vous déprimez ? Joséphine a obtenu ses premiers résults en 2 mois, a ensuite passé 2 ans à découvrir des biais et à les corriger, invalidant certains résultats et en découvrant d'autres ; maintenant elle récolte la gloire et les honneurs, mais ce fut dur.)

Et ce qui sort, c'est un petit nombre d'ensembles de gènes soit directement impliqués dans l'immunité, soit indirectement dans la défense contre les pathogènes. Désolé pour ceux qui attendaient des différences d'intelligence et autres bétises, ce qui différencie le plus les populations humaines ce sont les pathogènes (bactéries, virus et autres) auxquels elles ont été exposées dans différents environnements.

La méthode elle-même s'avère très puissante pour de nombreux cas où l'on a un signal faible par gène, mais qui peut se cumuler sur des ensembles de gènes ayant subi la même sélection, et a déjà été appliquée à l'évolution des fourmis (on trouve de la sélection sur le vieillissement, les fourmis vivent bien plus vieux que la plupart des insectes). On est train de l'appliquer à d'autres aspects de la sélection naturelle dans l'évolution humaine, mais pour la suite de l'histoire il faudra attendre qu'on publie les papiers...

mardi 1 juillet 2014

Sexe et genre des animaux de dessins animés

[caption id="attachment_2119" align="aligncenter" width="150"]cliquez sur l'image cliquez sur l'image[/caption]

Malgré les efforts récents pour mettre enfin des héroïnes qui n'attendent pas juste leur prince charmant dans les films pour enfants, les dessins animés se trimballent un lourd bagage de héros masculins. Ce qui est rigolo, et me permet de faire le lien avec la biologie, c'est que c'est le cas même quand ils utilisent des animaux qui devraient être féminins... ou plus si affinité.

L'exemple le plus ridicule est surement la vache masculine de "La ferme en folie", complète avec des pis :

[caption id="" align="aligncenter" width="192"] Otis, "vache masculine" (?) de Barnyard / La ferme en folie[/caption]

Oui parce qu'un film dont les héros sont des vaches ne pouvait pas avoir d'héroïne manifestement. (J'en profite pour saluer l'excellente BD Pi - La Vache, où l'héroïne est clairement femelle et dépote [pas de page Wikipedia ? c'est une honte].)

A peine moins ridicule, les deux gros succès sur les fourmis : fourmiZ et 1001 pattes, ont tous deux des héros masculins, les rôles féminins étant réservés aux reines et princesses bien caricaturales. Alors que c'est tout le contraire, toutes les fourmis sont des femelles, sauf les mâles reproducteurs qu'on pourrait qualifier d'éphémères princes consorts.

Ce qui caractérise tous ces films, c'est qu'alors que pour une fois il y a l'occasion de respecter la vérité en mettant des personnages féminins forts, l'occasion est ratée. Avec les fourmis on avait une super opportunité de guerrières réalistes.

Tout ceci pour nous amener à l'exemple le plus rigolo, qui m'a été rappelé par un billet récent de Dan Graur : Nemo, le poisson clown.

Chez les poissons clowns, une femelle dominante (Coral la maman de Nemo) se reproduit avec un mâle dominant (Marlin le papa de Nemo), plus petit que la femelle. Vivent près d'eux plusieurs jeunes mâles dominés (Nemo !). Quand la femelle meurt, le mâle dominant grossit et devient femelle, et les jeunes mâles se battent, le vainqueur devenant nouveau mâle dominant (aussi expliqué ici). Donc normalement dans Nemo, notre héros aurait du devenir le mari de Marlin devenue Marline. Curieusement, cette version n'a pas été retenue par Pixar / Disney.

Parlant de genres pas reconnus par la Manif contre certains, dans le film relativement récent Turbo, les escargots sont pour la plupart clairement mâles, dont (vous vous en doutiez) le héros (en fait, tous les escargots sauf une - principe de la Schtroumpfette [aussi ici]). Le copain du héros est vexé parce que plusieurs fois on le prend pour une fille, et insiste qu'il est un garçon. Ha ha très drôle, parce que la plupart des escargots sont hermaphrodites, c'est-à-dire qu'ilelles sont à la fois mâles et femelles. D'ailleurs certains peuvent même se reproduire tout seuls. Alors y en a des avec mâles et femelles, mais l'espèce (invasive de France) la plus courante en Californie oùsqu'ils font les films est bien hermaphrodite. C'eut été une occasion amusante de présenter le trans-genre aux enfants, non ?

En ce qui concerne le genre correct des voitures de Cars, je donne ma langue au chat.