Après le
dogme cladiste issu du fond des ages, un nouvel épisode de "maman j'ai raté le 21ème siècle", avec l'éditorial du
New England Journal of Medicine du 21 janvier. Contrairement au journal
Cladistics (voir billet précédent), NEJM est très connu et reconnu, l'un des plus prestigieux de la recherche en médecine :
Dan L. Longo, M.D.*, and Jeffrey M. Drazen, M.D.*
Data sharing N Engl J Med 2016; 374:276-277 * M.D. = medical doctor, parce que pour les chercheurs en médecine les titres sont souvent importants ; no comment.Que dit l'éditorial (j'ai mis une version rapidement annotée
sur Dropbox ici) ? Après avoir dit quelques mots sur la beauté théorique du partage des données, ça se gâte :
The first concern is that someone not involved in the generation and collection of the data may not understand the choices made in defining the parameters.
Les éditorialistes s'inquiètent de ce que des chercheurs n'ayant pas participé à la collecte des données ne comprennent pas les subtilités de ces données, et donc les interprètent mal. Donc ils pensent que le rapport des méthodes dans les articles, et les informations fournies avec les données, ne suffisent pas à comprendre ce qui a été fait ? C'est très inquiétant. En science, on doit rapporter les choses de manière reproductible (voir
débat à propos du code scientifique).
Ca devient pire :
A second concern held by some is that a new class of research person will emerge — people who had nothing to do with the design and execution of the study but use another group’s data for their own ends, possibly stealing from the research productivity planned by the data gatherers, or even use the data to try to disprove what the original investigators had posited.
Et d'une, il risque d'émerger une classe de gens qui volent la productivité des collecteurs de données (noble occupation on le comprend). Enchanté, moi je suis prof de bioinformatique depuis 2005, et je fais ça depuis le milieu des années 1990. Margaret Dayhoff a publié le premier atlas de séquences et structures de protéines en 1965 (pas trouvé de version en ligne), et Grantham et al (conflit d'intérêts : j'ai cosigné des articles avec deux des "et al") ont découvert que différentes espèces utilisaient le code génétique universel de manière subtilement différente en analysant toutes les séquences d'ADN alors disponibles
en 1980.
Et de deux, les éditorialistes ont peur que "même" de vils chercheurs utilisent les données des gentils collecteurs de données pour tenter d'invalider les hypothèses de départ. Mais c'est que ça oserait faire de la science ces vauriens ! (Bon, conflit d'intérêt, c'est ce que je fais moi, voir
ici en anglais par exemple.)
On arrive à la phrase qui a le plus enflammé les réseaux sociaux des scientifiques :
There is concern among some front-line researchers that the system will be taken over by what some researchers have characterized as “research parasites.”
Ah on est des parasites ? Hop, hashtags Twitter
#Iamaresearchparasite,
#researchparasites et
#researchparasite. Alors, là ça a réagi de partout :
le storify.
Soyons justes, l'éditorial propose une solution : quand on veut analyser des données, on doit concevoir une hypothèse non évidente, contacter les auteurs de l'étude d'origine, et établir une fructueuse collaboration entre gens bien nés. Ca n'arrive en effet jamais de manière légitime que l'on veuille analyser les données de centaines d'expériences, que l'on veuille
remettre en cause les analyses telles que publiées, ou que l'on veuille analyser des données publiées il y a des années par des personnes parties à la retraite ou ayant arrété de faire de la recherche. Et bien entendu ceux qui génèrent des données intéressantes ont le temps de prendre en compte et répondre de manière appropriée à toutes les demandes qui pourraient leur être faites (génome humain :
plus de 18000 citations). Le bioinformaticien Claus Wilke
donne sur son blog l'histoire intéressante d'un cas où il a du promettre de co-signer un papier pour avoir les données sur un soit-disant effet du jaune d'oeuf qui serait aussi mauvais pour la santé que le tabac. Ayant eu les données, il a refait l'analyse, trouvé que l'analyse de départ était faussée, et que l'hypothèse ne tenait pas. Les chercheurs en médecine concernés l'ont traité avec mépris, et il n'y a jamais eu de publication. Comme il avait signé de ne pas publier tout seul, ça en est resté là. Voilà le problème de la seule approche "collaborative" bien illustré.
Quelques autres réactions en vrac : Une
traduction rigolote en anglais ordinaire. Un
point de vue qui contraste cet éditorial avec les déclarations du vice-président américain sur le partage de données pour combattre le cancer. Puis un
point de vue d'écologie (la science) discutant comme le partage des données peut en effet être difficile. Et une
interprétation de cet éditorial comme le dernier des dinosaures mourants de l'ancienne façon de faire de la recherche bio-médicale.
Et puis c'est pas comme si ce journal avait un problème de reproducibilité des résultats, par exemple s'il avait un taux élevé d'articles rétractés :
[caption id="attachment_3107" align="aligncenter" width="494"]

corrélation entre facteur d'impact et indice de rétraction, avec flèche vers le journal que dont il est question ici[/caption]
Bon 4 jours plus tard ils ont
publié un correctif (ce qui montre une fois de plus l'impact des médias sociaux sur la façon de fonctionner de la science, y compris ceux qui se croient à l'abri en haut de la tour d'ivoire). Ils disent qu'ils sont gentils, parce qu'ils ont signé des accords de diffusion des données. D'ailleurs même s'ils trouvent que c'est de mauvais goût, ils vont les respecter. Mais ils réitèrent que c'est légitime de considérer ceux qui analysent les données avec suspicion pour le moins. Et dans un article dans
Forbes, l'auteur principal de l'éditorial a refusé de condamner le terme "parasites". Comme dit
sur le blog de Mick Watson, ce n'est pas encore des excuses, et c'est insuffisant.
Finalement le mieux qui soit sorti de tout ceci sont les dessins de RedPenBlackPen, qui
dessine sur la science :