mercredi 9 décembre 2015

ADN partout 3/3 : lire l'ADN est une technique très générale, aux applications infinies donc inconnues

dilbert_kit

Pourquoi est-ce que la démocratisation et la distribution ubiquitaire potentielle du séquençage d'ADN doivent vous concerner davantage que, disons, des microscopes de poche ou des chromatographes moins chers ? C'est parce que l'ADN est une molécule qui code de l'information. Les types d'informations codés et les usages que l'on peut en faire sont donc extrêmement divers. Ils sont illustrés mais certainement pas listés de manière exhaustive dans le billet précédent. L'ADN est le support de l'information, et c'est à cette information que le séquençage nous donnes accès. Quelque part, c'est aussi général que "savoir lire" : on peut tout lire.

Cette généralité du code donne à la démocratisation potentielle du séquençage d'ADN le potentiel d'applications révolutionaires ou triviales, mais doit en tous cas être compris pour bien être préparé à ce qui arrive. L'ADN contient l'information de la généalogie et du groupe ethnique, des maladies génétiques et des variations normales, des microbes que l'on porte et de ce que l'on a mangé.

Pour être clair : je ne suis pas contre le séquençage d'ADN, j'en fais moi-même  ;). Mais il me semble que nos sociétés avancent vers un avenir proche où le pouvoir de cette approche sera libéré, sans être prêtes du tout. Il y a ceux qui ont peur de tout, et ceux qui n'ont peur de rien. Comment faire pour avoir un débat pertinent et qui ne soit pas trop tard ?

mardi 8 décembre 2015

ADN partout 2/3 : Séquençage d'ADN dans vos toilettes et à l'aéroport ?

[caption id="attachment_3043" align="aligncenter" width="223"]une BD sympa même si le rapport est distant une BD sympa même si le rapport est distant : cliquez et lisez[/caption]

Il semble acquis que le séquençage d'ADN suit une trajectoire similaire à celle de l'informatique, mais en plus rapide (voir billet précédent). Lorsque le prix baisse à ce point, des applications qui étaient inimaginables peuvent devenir routinières. Pour l'informatique on voit ce que ça donne (y pas que les smartphones, quand le réparateur est venu j'ai appris que notre frigo a deux cartes mères...). Et pour le séquençage d'ADN, ça peut donner quoi ?

Un article récent propose justement des réponses à cette question, inspirons-nous en. Avec un grain de sel, l'auteur de l'article est très techno-optimiste, et serait probablement qualifié de scientisme par Cécile Michaut (voir ce billet / débat).

Yaniv Erlich 2015 A vision for ubiquitous sequencing. Genome Res. 2015. 25: 1411-1416 doi:10.1101/gr.191692.115

Yaniv distingue les "plateformes de séquençage" des "senseurs de séquençage". Une plateforme de séquençage peut être une grosse machine statique, et doit être précise car lire de nouvelles séquences d'ADN inconnues. Un senseur de séquençage doit être petit et rapide, et doit plutôt reconnaître des séquences d'ADN connues.

T1.medium

Alors, quelles applications imagine Yaniv ?

Séquençage à la maison : des appareils domestiques sensibles à l'ADN
–> des toilettes intelligentes ! Bin oui, y a déjà un branchement à l'eau (pour les réactifs chimiques) et une collecte quotidienne de matériel biologique. Et en général il y a de la place en dessous, là où ça prend la poussière. Que peut-on voir dans ce "matériel biologique" ? La flore intestinale, indicateur de santé et plus généralement d'état physiologique. La nouriture (bin tiens), donc un suivi individuel de si on fait bien son régime, encore plus énervant que les sonneries de ceinture pas attachée en voiture et que les montres qui rappellent qu'on n'a pas assez marché. "Vous avez mangé beaucoup de sucreries aujourd'hui, or votre smartwatch me dit que vous avez à peine marché." L'ADN de la personne, qui normalement ne change pas trop ; mais un cas où il change, ce sont les cancers. Le dépistage très précoce des cancers, ça ça peut être intéressant. On rigole, mais les toilettes sont une piste très sérieuse dans la mesure où il y a très peu de changements à faire à notre maison et à nos habitudes pour que ça marche.

Séquenceur grand public à acheter et utiliser où on veut : j'admets, même si ça devient possible, les applications ne me paraissent pas évidentes. Accessoirement, la régulation d'un séquenceur d'ADN généraliste (pas programmé spécifiquement pour reconnaître la flore intestinale par exemple) ne me paraît pas évidente du tout. Ceci dit, il y a eu beaucoup de réflexions sur ce que les gens accepteraient ou pas avant les smartphones, et quand l'iphone est sorti, on a vu : les gens acceptent tout si ça leur permet de partager des photos de chatons gratos.

Applications médicales et santé : C'est le gros morceau évident. Mais dans les détails, on peut penser à des applications pas si évidentes :
• séquençage rapide aux contrôles de sécurité des aéroports ; Yaniv pense surtout à la détection de maladies contagieuses, pour limiter les épidémies ; tout le monde à part lui se demande s'il fait confiance à la sécurité des aéroports avec son ADN.
• plus évident, le séquenceur portable pour médecins. Obtenir des résultats rapides et fiables sur le terrin, même en cas de crise humanitaire ; ou même à l'hôpital sans délai d'aller-retour à un labo d'analyses.
• et si on branche le séquenceur domestique sur le réseau de l'hôpital ? Des données sur le patient fiables, précises et en temps réel, notamment sur les maladies infectieuses.
• un peu similaire aux contrôles d'aéroport mais peut-être plus faisable (me semble-t-il), un suivi constant de points clés pour connaître la diffusion des maladies, telles que bouches d'aération, points d'épuration d'eau, les systèmes de circulation d'eau de batiments collectifs, etc.
• de même à l'hôpital, un séquenceur qui analyse de petits échantillons à intervalles courts et réguliers, pour un suivi en temps réel des patients.

Applications légales et de sécurité : Ah on rigole moins, là.
• séquençage rapide des "indices ADN" sur la scène même du crime ; admettons, encore qu'il faille avoir accès une base de données de suspects de manière sécurisée sur ledits lieux du crime, ce qui n'est pas évident. Mais ça pourrait je pense permettre d'innocenter rapidement quelqu'un, d'éviter une fausse piste.
• "identification positive de la cible" par les militaires ; permettez-moi d'avoir des doutes sur l'applicabilité pratique dans un contexte militaire de l'attente du résultats d'une analyse ADN.
• identification à la sécurité des aéroports : vous le sentiez venir quand ils mis des séquenceurs pour microbes, hein ? Ce qui est intéressant ceci dit c'est qu'on peut potentiellement identifier une personne sans l'avoir elle-même dans sa bases de données, grâce au partage d'information génétique au sein d'une famille (voir ce vieux billet à moi), par exemple pour retrouver de jeunes fugueurs.
Je me dois à ce point de citer une phrase de l'article (à propos d'identification de noms de familles depuis l'ADN) qui montre à la fois le potentiel des méthodes et (à mon avis) l'optimisme de Yaniv :
With careful implementation that is sensitive to genetic privacy and cultural issues (Kim and Katsanis 2013), such technology at checkpoints could play a role in fighting human trafficking

Oui ça peut marcher avec une mise en place très prudente qui fait très attention à tous les risques et sensibilités culturelles etc, mais ça peut aussi marcher sans. C'est même beaucoup plus facile sans les précautions. Alors, où va-t-on ?

Un point technique à noter sur tous les aspects d'identification d'individus c'est qu'à partir du moment où l'on sait quelle espèce on cherche (contrairement aux pathogènes) et où l'on connait bien la variabilité génétique présente dans l'espèce, bref dans le cas des humains, il y a besoin de peu séquencer pour avoir une identification fiable.

Industrie alimentaire: le séquençage d'ADN peut notamment servir au contrôle qualité :
• intégré dans la chaîne de production.
• spécifique pour des risques connus : champignons vénéneux, niveau de bactéries pathogènes dans la viande, traces d'allergènes, etc.
Par ailleurs, on peut imaginer un système de "code barre" pour authentifier des produits : une séquence d'ADN unique artificielle introduite dans des produits permettant de les reconnaître à coup sûr, pour les éviter ou s'assurer qu'on les a bien obtenus. Au cas où vous pensiez que ce soit difficile, ce type de technique de code barres ADN est utilisé en routine dans de nombreuses expériences de biologie moléculaire.
• codes barres ADN sur les aliments plus toilettes séquenceuses = aide au régime ! Killer app !

Bon c'est sympa tout ça, mais qu'en est-il de la faisabilité ? Parce que même si le prix du séquençage d'ADN baisse, il faut encore le faire. Or à l'heure actuelle il faut quand même préparer les échantillons d'ADN avant séquençage, et cette préparation est relativement longue (autant pour le séquençage en temps réel) et compliquée (autant pour le séquenceur à la maison). Mais : de nouvelles approches en développement promettent de diminuer les étapes de pré-traitement. Il n'est pas inimaginable qu'on puisse diminuer cela à un point où le séquençage ubituitaire devienne réellement praticable. Il faut quand même être conscient que le prix n'est pas la seule limitation. Les réactifs utilisés doivent être pour le moment stockés à différentes températures, souvent +4°C (frigo) ou -20°C (congélo), et se gardent mal. Yaniv propose deux pistes à cela : l'utilisation de réactifs lyophilisés que l'on réhydrate au dernier moment, peut-être même en cartouches toutes prêtes. Et des technologies solides plutôt que liquides, grâce aux nanotechnologies. Là aussi c'est moins science-fiction qu'on ne pourrait le penser, le séquenceur MinION ou la technique de la société BioNano, par exemple, reposent sur des nanopores et une part de nanotechnologie.

Un autre problème pratique est l'analyse des données : les séquences d'ADN sont inutiles sans analyse bioinformatique. On peut mettre le logiciel sur le séquenceur, mais il faut aussi connaître les séquences de référence auxquelles comparer, qui peuvent être très nombreuses (donc prendre beaucoup de place), et qui peuvent n'avoir d'intérêt que si elles sont à jour. On parle beaucoup de "cloud computing", d'envoyer les séquences chez un service via internet qui vous renvoie le résultat du calcul, mais avec les quantités de données que l'on a en séquençage d'ADN il faut prévoir de très bonnes bandes passantes, ce qui limite les applications du type médecine de brousse. Il y a aussi le problème que si le séquençage est rapide et que l'analyse prend 24h, on n'a pas vraiment la réponse de suite. Il faut donc travailler sur des méthodes bioinformatiques permettant une réponse "dès que possible", avec analyse des données en temps réel et rapport dès qu'on a la réponse cherchée (espèce de bactérie, individu recherché, etc). C'est faisable, mais ce sont des défis intéressants.

Il y a d'autres problèmes, statistiques. Par exemple, pour reconnaître un humain d'un groupe très étudié (les européens de l'ouest, au hasard), on aura davantage de résolution que pour une population africaine très peu étudié. Du coup, les chances de se tromper d'individu jusque parce qu'il a la bonne (ou la mauvaise) ethnicité se posera. Pour la microbiologie, reconnaître une espèce que l'on soupçonne être présente (E. coli dans la nourriture non traitée) est facile, reconnaître n'importe quelle espèce quand on ne sait pas ce que l'on cherche, et qu'on ne connait qu'une petite partie de toutes les espèces existantes, et nettement plus difficile.

Et bien sûr, il y a les implications "éthiques, légales et sociales". On sent bien dans le papier que ce n'est pas ce qui intéresse Yaniv le plus, et peut-être a-t-il raison dans la mesure où son travail est d'explorer ce qui est techniquement possible, mais ça m'a quand même un peu mal à l'aise en lisant un papier par ailleurs très intéressant. D'autant que ces implications peuvent être le plus grand obstacle à la mise en place des solutions qu'il imagine.

D'abord, il existe dans de nombreux pays des lois interdisant ou complicant la collecte d'échantillons humains. Il faut noter qu'en fait nous laissons tous des échantillons partout derrière nous tout le temps, la question est donc leur usage délibéré. L'ADN humain est partout.

Yaniv suggère des messages d'avertissement aux utilisateurs, ou des mécanismes de suppression des séquences lues dès qu'elles ont été analysées, voire de suppression des séquences humaines avant analyse lorsque l'on cherche des séquences bactériennes (par exemple). Mouais, parce qu'on sait que tout le monde lit attentivement les messages d'avertissement des logiciels, apps, pages web, et smartphones que nous utilisons. Et nous faisons totalement confiance à Facebook, Ashley Madison, et demain Nesté ou la sécurité des aéroports, pour effacer les données compromettantes ou personnelles.

Un petit exemple de problème de vie privée pour finir : si des toilettes "intelligentes" peuvent lire l'ADN, elles peuvent savoir si quelqu'un d'extérieur à la famille est venu et a utilisé les toilettes, voire si cette personne vient régulièrement, par exemple quand l'un des partenaires d'un couple est absent...

Bref, tout est possible et rien n'est résolu.

lundi 7 décembre 2015

ADN partout 1/3 : Le prix du séquençage baisse encore (plus)

[caption id="attachment_3020" align="aligncenter" width="215"]cliquez sur l'image : Boulet au MIT (zombies inclus) cliquez sur l'image : Boulet au MIT (zombies inclus)[/caption]

Le prix du séquençage de l'ADN vient encore de se casser la gueule un peu plus, en décrochant du "plateau" de décroissance où il était depuis trois ans :

Sequencing graphs JAN_13

Sur le graphe ci-dessus, deux choses doivent être notées en plus du décrochement récent :

  1. L'échelle est logarithmique, c'est-à-dire qu'une ligne droite correspond à un changement exponentiel. Donc même la décroissance apparemment lente de 2012 à récemment est en fait une décroissance exponentielle simplement moins forte qu'avant.

  2. La droite blanche, c'est la "loi de Moore", la croissance exponentielle de la puissance de calcul des ordinateurs. La loi de Moore, c'est ce qui fait que votre téléphone est plus puissant que les ordinateurs disponibles à la NASA pour aller sur la Lune.


En corrolaire de ces deux points, remarquez que le séquençage d'ADN devient moins cher plus vite que la puissance des ordinateurs n'augmente depuis 2003, carrément plus vite depuis 2008. On peut remarquer que la différence entre les deux exponentielles est elle-même une exponentielle : tous les ans, pour le même prix, vous pouvez séquencer encore plus d'ADN par minute de calcul possible. Autrement dit, notre capacité à séquencer de l'ADN croit beaucoup beaucoup plus vite que notre puissance informatique.

Cela a plusieurs conséquences, que nous allons explorer en deux autres billets. Mais un point à noter d'entrée est que la croissance de la puissance informatique à prix constant a eu des conséquences qu'à-peu-près personne n'a prévu. Les smartphones ou le streaming des vidéos légalement ou pas sont essentiellement absents de la science fiction jusqu'à ce qu'ils apparaissent pour de vrai. Alors imaginer ce que va être le monde du séquençage d'ADN très bon marché est difficile. Une certitude : ce monde est déjà là :

Une autre figure, montrant les différentes techniques de séquençage commercialisées. Les points liés par des traits montrent des progrès d'une même machine.

developments_in_high_throughput_sequencing

vendredi 4 décembre 2015

Brève sur l'édition de génomes 2 : quelques faits rapides

[caption id="attachment_3052" align="aligncenter" width="204"]cliquez sur l'image pour lire (et une critique de cette BD ici) cliquez sur l'image pour lire (et une critique de cette BD ici)[/caption]

Un deuxième billet rapide après "Tout se qui est possible sera-t-il fait ?", basé sur un article dans Nature que je viens de voir qui fait un tour succint de la question :

Genome editing: 7 facts about a revolutionary technology. What everyone should know about cut-and-paste genetics. Nature News

1. Jusqu'ici, une seule étude de l'édition de génome humain dans des cellules germinales (permettant potentiellement de développer un embryon) a été publiée dans un article scientifique :

Liang et al 2015 CRISPR/Cas9-mediated gene editing in human tripronuclear zygotes Protein & Cell 6: 363-372

Dans cet article, les embryons n'étaient pas viables, mais on a envie de dire "pas encore".

2. Les législations sur la question sont très différentes selon les pays. Notamment Nature dit qu'ils n'y a que "des réglèments inapplicables" en Chine, Japon, Irelande et Inde ; et que de nombreux scientifiques demandent une législation internationale. Sur laquelle j'ai personnellement des doutes, alors qu'il y a encore des pays qui ne reconnaissent pas le copyright (voir Convention de Berne).

3. Avec CRISPR/Cas9, il est facile de modifier des génomes, et les "biohackers" plus ou moins amateurs s'y intéressent (article dans Nature d'août). Contrairement aux techniques précédentes de génétique moléculaire, et c'est ce qui fait une partie de son potentiel révolutionaire, cette technique n'est pas réservée à quelques laboratoires très équipés avec du personnel très bien formé.

Mise à jour : vu dans cette excellente interview de Doudna et Charpentier (voir point 7), la companie Addgene vend des kits de CRISPR/Cas9.

4. D'autres enzymes que Cas9 sont en train d'être découvertes, ce qui va encore faciliter les choses (techniquement) ou les compliquer (pour réguler).

5. Les expériences les plus avancées ont lieu chez des cochons : super-musclés, mini, ou sur-édités. Pourquoi les cochons ? Notamment dans l'espoir de construire des donneurs d'organes animaux humain-compatibles. En attendant, ils pensent vendre les mini cochons comme animaux domestiques.

6. Les grosses multinationales et les millardaires s'y intéressent : la Gates Foundation, Google ou DuPont investissent dans CRISPR/Cas9.

7. Il y a une guerre de brevets entre Jennifer Doudna (University of California, Berkeley) et Emmanuelle Charpentier (Max Planck Institute) d'un coté, généralement créditées de l'invention du système, et Feng Zhang de MIT & Harvard de l'autre, qui a fait marcher le système dans des cellules humaines.

Et puis un 8ème point qui n'était pas encore connu quand l'article de Nature a été publié : la conférence sur l'édition de génomes a conclu que "Gene-editing technology should not be used to modify human embryos that are intended for use in establishing a pregnancy" (Nature news) : l'édition de génomes ne devrait pas être utilisée pour modifier des embryons humains prévus pour être utilisés pour une grossesse. Mais des cellules humaines chez une personne (thérapie génique), oui, et des embryons humains à fins non reproductives apparemment oui aussi.

jeudi 3 décembre 2015

Tout se qui est possible sera-t-il fait ? Brève sur l'édition de génomes humains #GeneEditSummit

[caption id="attachment_3041" align="aligncenter" width="148"]cliquez pour des savant fous et solitaires cliquez pour des savant fous et solitaires[/caption]

Il y a une conférence en cours sur les aspects éthiques de l'édition de gènes et génomes humains. Ca a notamment été couvert par Le Monde (payant). La conférence a été organisée parce que la technique CRISPR/Cas9 (voir ici et ici) et ses dérivés permettent des modifications aisées des génomes. Et si c'est possible chez la souris ou le cochon, c'est possible chez l'humain (voir ici et ici).

Je ne vais pas écrire longuement sur le sujet maintenant, mais juste noter le tweet suivant de Paul Knoepfler, chercheur et blogueur sur les cellules souches (on a parlé de son blog ipscell ici) :

Philip Campbell est l'éditeur en chef de Nature, le journal scientifique le plus prestigieux de la planète. Et ce qu'il nous dit c'est que (1) des scientifiques font des expériences d'édition de lignée germinale (spermatozoïdes et ovules) humains, (2) ils soumettent les résults à Nature, (3) Nature refuse, (4) parce qu'ils n'ont pas suivi les règles éthiques du journal.

Il parait difficile d'en conclure autre chose que "si c'est faisable, ça sera fait". Et que nos commentaires éthiques n'y changeront pas grand chose. Mais peut-être suis-je trop pessimiste. En tous cas, ça me parait un problème autrement plus urgent que les sempiternelles bisbilles autour des OGM en agriculture.

Voir aussi ce tweet par exemple, George Church étant un généticien très connu et favorable au laissez faire en la matière :

Je recommande de regarder les "top tweets" si vous êtes intéressés : https://twitter.com/hashtag/GeneEditSummit

samedi 21 novembre 2015

Je suis vieux : histoire de ma signature email "la liberté ne s’use que quand on ne s’en sert pas"

[caption id="attachment_3002" align="aligncenter" width="197"]ring cliquez sur l'image[/caption]

Ma signature email professionnelle comprend en bas la phrase "La liberté ne s'use que quand on ne s'en sert pas" depuis longtemps. J'ai essayé de retrouver depuis quand. Je garde tous mes emails envoyés et reçus depuis fin 1997, et à l'époque c'était déjà là.

1997 :

Marc Robinson            tel    : +972-3-6408646
Department of Zoology    fax    : +972-3-6409403
Tel Aviv University      e-mail : marc@kimura.tau.ac.il
Ramat Aviv 69978 Israel
"La liberte ne s'use que quand on ne s'en sert pas."


2015 :

Marc Robinson-Rechavi
Department of Ecology and Evolution
Biophore 3219, University of Lausanne, 1015 Lausanne, Switzerland
tel: +41 21 692 4220    fax: +41 21 692 4165
http://bioinfo.unil.ch/
Twitter: @marc_rr
Swiss Institute of Bioinformatics
http://www.isb-sib.ch/groups/lausanne/eb-robinson-rechavi.html
La liberte ne s'use que quand on ne s'en sert pas


On voit aussi mon grand âge à ce que j'évitais les accents dans les emails (longtemps mal gérés), et je m'apperçois que c'est resté par le miracle du copié-collé. Et que j'ai connu Tel Aviv en des temps d'espoir de paix et de normalisation qui semblent étranges aujourd'hui. :-(

Pour chercher plus loin, j'ai regardé ma participation à des forums internet, qui prédatent le web, et sont maintenant stockés par Google (qui d'autre ?). J'ai trouvé un message de 1994 avec cette signature ! Sur le forum de droits de l'homme, où je trollais pour Amnesty International.

En cherchant ces forums, j'ai trouvé que j'ai discuté avec PZ Myers, qui n'étais pas encore le bloggeur scientifique le plus lu au monde (Pharyngula chez Scienceblogs, chez FreeThought blogs) : lien. Amusant.

lundi 16 novembre 2015

Représentation graphique des victimes d'attentats en France depuis 2 siècles

[caption id="attachment_2990" align="aligncenter" width="300"]cliquez sur l'image cliquez sur l'image[/caption]

En suivant un lien vers les victimes d'attentats au Liban, j'ai découvert que Wikipedia a une liste des attentats avec les victimes au Liban. Du coup j'ai regardé pour la France, et il y a aussi une telle liste, et dans le cas de la France il y a un tableau analysable. Du coup, cela permet de mettre les attentats récents en perspective.

D'abord, je récupère le tableau de chiffres depuis Wikipedia. Il y a des accès programmatiques élégants, mais j'ai fait ça "quick and dirty", donc copier-coller dans un fichier texte puis importation dans R. R est un environnement de statistiques gratuit et open source, puissant si peu facile d'usage pour les débutants (page officielle, petite explication sur le blog bioinfo-fr).

Puis j'ai mis en forme : remplacer les entrées de type "50+" par le nombre seul, par exemple "50" dans ce cas, pour permettre le traitement. Et transformer le format bizarre de dates dans Wikipedia en un format reconnu par R, en mettant des tabulations entre les éléments des dates dans le fichier texte (récupérable ici), puis en important dans R et transformant avec as.Date().

Ensuite, c'est simplement une histoire de faire des graphiques simples avec la fonction plot(). Comme je suis chef d'équipe et que j'utilise à peine R (ou d'autres languages) de nos jours, mon code est tout moche mais le voici :

terror_france<-read.delim("~/Desktop/terror_france.txt")
terror_france$date<-as.Date(with(terror_france, paste(Year, Month, Day, sep='-'), "%Y-%m-%d"))
terror_france<-terror_france[order(terror_france$date),]
terror_france$cumulative_dead<-cumsum(terror_france$Dead)
terror_france$cumulative_injured<-cumsum(terror_france$Injured)


plot(terror_france$date, terror_france$cumulative_dead, type='o', xlab="date", ylab="cumulative number of dead", col=ifelse(terror_france$Dead>50, "red", "black"))
text(x=2000, y=350, "These are the dead of 13th November 2015", col="red", pos=2)
text(x=2000, y=330, "in context of 2 centuries of terrorism", col="red", pos=2)


plot(terror_france$date, terror_france$cumulative_injured, type='o', xlab="date", ylab="cumulative number of injured", col=ifelse(terror_france$Injured>200, "red", "black"))
text(x=2000, y=1900, "These are the injured of 13th November 2015", col="red", pos=2)
text(x=2000, y=1800, "in context of 2 centuries of terrorism", col="red", pos=2)


Voici les résultats :cumulative_dead

On voit immédiatement que les attentats de ce vendredi 13 novembre ont fait beaucoup plus de morts que n'est habituel (je n'ai pas envie d'utiliser le mot "normal" pour des attentats qui ne devraient pas l'être). On voit aussi que la guerre d'Algérie n'a pas fait tant de morts que ça en France métropolitaine par attentats (clairement d'autres sources de victimes ne sont pas comptées ici). Mais que les années 1980 ont été marquées par de nombreux attentats, chacun d'amplitude pas très forte, mais qui cumulent un grand nombre de morts au final.cumulative_injuredPour les blessés les années 1980 sont encore plus marquantes, et les attentats récents moins, ce qui met en avant à quel point ces attentats ont été meurtriers en nombre de morts relativement au nombre total de victimes.

En réagissant à une version préliminaire de ces graphiques, Alexander Doria a remarqué :

Bonne question, je ne sais pas. Lecteurs historiens ?

Mise à jour suite au commentaire de MAthieu : courbe en escalier :

staircase_deadMise à jour 2 : un article similaire sur le site Les Décodeurs du Monde.

Mise à jour 3 : suite à demande populaire, le graphe en non cumulé, que personnellement je trouve moins clair mais voici.

non_cumumative_dead

La science est universelle, et un scientifique qui ne l'accepte pas voit son article rétracté

[caption id="attachment_2977" align="aligncenter" width="110"]cliquez sur l'image cliquez sur l'image[/caption]

Gangolf Jobb est un chercheur à son propre compte (on pourrait aussi dire au chômage dans son cas) qui travaille sur la bioinformatique de l'évolution, et est notamment l'auteur d'un logiciel de manipulation d'arbres évolutifs, TreeFinder. Il est relativement connu dans la communauté de biologie évolutive pour ses messages étranges sur des listes e-mail, ou sur son site. Toutefois, récemment ses bizarreries ont passé un cap.

  • En février 2015, il a modifié la licence d'utilisation de son logiciel pour en interdire l'utilisation aux chercheurs dans les Etats-Unis d'Amérique.

  • En octobre 2015, il a à nouveau modifié la licence pour en interdire l'utilisation aux chercheurs dans les pays suivants : Allemagne, Autriche, France, Pays Bas, Belgique, Royaume Uni, Suède et Denmark.

  • En novembre 2015, l'article scientifique principal décrivant son logiciel a été rétracté.


Gangolf a interdit aux personnes travaillant dans ces pays européens d'utiliser TreeFinder parce que ce sont les pays qui acceuillent le plus d'immigrants non européens. Je ne vais pas reproduire ici son texte, qui est une diatribe haineuse et sans grand intérêt. Vous pouvez le trouver aisément par une recherche web. Le journal BMC Evolutionary Biology a rétracté l'article parce que le logiciel n'est plus disponible pour tous les scientifiques qui désirent l'utiliser, ce qui est en opposition avec la politique éditoriale du journal. (Déclaration de conflit d'intérêts : je suis éditeur associé bénévole à ce journal.) Il est notable que les autres auteurs de l'article, Arndt von Haeseler et Korbinian Strimmer, approuvent la rétraction étant donné les circonstances.

Le site Retraction Watch a une analyse plus détaillée de la rétraction, dans laquelle ils citent ledit Korbinian Strimmer, qui note que si le logiciel avait été placé d'entrée sous une licence de type GNU GPL, les restrictions de Gangolf Jobb auraient été impossibles, et qu'il va donc être strict sur l'usage de telles licences pour les logiciels publiés par son laboratoire dans le futur. (On a d'ailleurs remarqué récemment dans mon labo qu'on n'avait pas fait très attention à nos licences - il faut qu'on soit plus rigoureux nous aussi.) Retraction Watch reflète aussi les réactions que j'ai vues très généralement dans la communauté biologie évolutive : ce ne sera pas un problème de se passer de TreeFinder, et c'est ce qu'on va faire.

Cette rétraction est importante parce qu'au delà du cas étrange de Gangolf Jobb, il faut insister sur l'universalité de la science. Nous construisons ensemble une connaissance et une compréhension du monde pour l'humanité. La liberté de communiquer, de penser, de débattre, de se parler, de construire sur les résultats des autres ou de les invalider, de collaborer ou de se disputer, sont indispensables au progrès de cette connaissance et cette compréhension. La science n'est pas une affaire individuelle, c'est une aventure collective ; c'est vrai pour les personnes individuelles comme pour les pays individuels.

C'est aussi pour cela qu'à terme la publication open access est importante, comme le sont les licences libres. Parce que rien ni personne ne peut empêcher un cubain, un américain, un chinois, un taiwanais, un israélien, un palestinien, un russe et un ukrainien de lire un article dans PLOS ou BMC, qui que ce soit qui l'ait écrit. Et quels que soient les évènements politiques à venir.

Je vais finir ce billet en allant un peu au-delà du cas particulier de la communauté scientifique pour rappeler qu'en 1939, les autorités françaises ont interné les citoyens allemands qui étaient en France. Largement des réfugiés anti-Nazis, des juifs, des communistes. Parmi eux étaient quelques agents allemands infiltrés (je ne retrouve pas la référence exacte, mais il y a un cas décrit dans les mémoires de Marthe Cohn), mais cet internement était quand même injustifié et inhumain pour la masse des réfugiés. Et c'est cela qui me vient à l'esprit quand j'entend des appels à rejeter tous les réfugiés qui fuient la barbarie, comme illusion de protection contre cette barbarie.

jeudi 1 octobre 2015

Qu'est le scientisme, et quelles questions ne pas poser en recherche ?

[caption id="attachment_2949" align="aligncenter" width="158"]cliquez pour voir la BD (et ici pour du contexte) cliquez pour voir la BD (et ici pour du contexte)[/caption]

Ce billet fait suite à une discussion Twitter avec MrPourquoi (un peu) et Cécile Michaut (surtout).

Donc, suite à un dialogue avec MrPourquoi concernant le site "Alerte Environement", je fais pars de mon étonnement toujours renouvelé de l'existence d'anti écologistes militants sur internet, suite à quoi Cécile intervient :








Donc ce billet a deux objectifs : premièrement, permettre à Cécile d'expliciter en commentaire pourquoi et comment elle pense qu'il ne faille pas autoriser tous les sujets de recherche fondamentale. Et deuxièmement, d'exprimer mon étonnement face à son usage du mot "scientisme".

Quand j'ai dit que je comprenais jamais ce que l'on voulait dire, ce n'est pas que je ne sache pas chercher une définition bien sur. Et celle de Wikipedia, par exemple, est cohérente avec mon intuition : en gros, le scientisme c'est de faire confiance à la science et à elle seule, même quand elle n'a rien à dire ou n'est pas la bonne source. Ce que je voulais dire, avec le parallèle au politiquement correct, c'était que ce terme ne me semble employé que négativement, en tant qu'accusation envers ceux dont on n'aime pas les arguments, les positions, ou l'usage de la science. Et en tant que terme péjoratif, il me semble en effet mal défini, pouvant être appliqué à toute invocation de la science, ses méthodes ou ses résultats, qui déplait à quelqu'un.

La définition donnée par Cécile au travers de ses exemples semble être d'être des gens qui sont anti-science. J'espère qu'elle pourra expliquer cela plus clairement dans les commentaires.

lundi 31 août 2015

Les scientifiques en conférence en costard-cravate, je vois pas souvent. Démonstration.

[caption id="attachment_2930" align="aligncenter" width="229"]cliquez cliquez[/caption]

Y a un truc que je trouve toujours bizarre dans les films et séries télés où on voit des scientifiques, c'est que quand ils vont à une conférence tout le monde est habillé en costume-cravate ou tailleur trois pièces. Et ils font un effort particulier pour s'habiller quand c'est eux qui doivent parler devant tout le monde. Par exemple il y a un épisode de Big Bang Theory dans lequel Léonard est stressé par la manière dont il doit s'habiller pour donner une présentation de ses résultats, et il y va éventuellement en costume cravate.

Dans mon expérience, les scientifiques vont aux conférences et donnent des présentations comme ils sont habillés d'habitude, c'est-à-dire dans un mélange de t-shirts, jeans, chemises, jupes et parfois cravates (y en a qui aiment – rarement les plus jeunes).

Ce qui me donne l'occasion de ramener ma fraise sur le sujet, c'est la conférence européenne de biologie évolutive ESEB. Elle s'est tenue très récemment dans mon université, et les photos viennent d'être mises en ligne : Lien Picasa.

Le gars en costard cravate au début est le recteur (≈ président) de l'université. Après, je vous laisse voir. Voici mon directeur de département, et nouveau président de la société de biologie évolutive, debout sur une table pour la conclusion de son discours de cloture :

[caption id="attachment_2928" align="aligncenter" width="200"]Laurent Keller avec sa plus belle cravate Laurent Keller avec sa plus belle cravate[/caption]

Bien sûr, ça peut être différent entre domaines. Je suis quand même allé à des conférences de biologie moléculaire, de biologie évolutive, d'informatique, et de biologie médicale. Les seuls que je voit s'habiller avec cravate etc systématiquement, ce sont certains médecins et certains biologistes en recherche médicale. Et bien sûr les représentants de l'industrie, qui du coup se voient à 100 km en général.

Alors appel aux nombreux réalisateurs et costumiers qui me lisent : la prochaine, pas la peine de déguiser les scientifiques en pingouins, merci.

Mise à jour depuis Twitter :

vendredi 28 août 2015

Pacman ! Avec de l'ADN et des acides aminés !

[caption id="attachment_2910" align="aligncenter" width="210"]cliquez sur le lien, c'est trop beau, trop cool, trop tout, allez sérieux cliquez sur le lien, c'est trop beau, trop cool, trop tout, allez sérieux[/caption]

Syed Hussain Ather, un étudiant d'un collègue américain (Matthew Hahn, mentionné ici), vient de rendre disponible sur github un programme Python rigolo qui reproduit PacMan mais en version biologie moléculaire : on mange de l'ARN, et on fabrique des protéines.

https://github.com/HussainAther/dnapacman

Pour traduire l'ADN en protéines, il est en effet transcrit en ARN. Les nucléotides d'ADN sont A, C, G et T (comme dans "Bienvenue à GATACA"), alors que ceux de l'ARN sont A, C, G, U (donc "Bienvenue à GAUACA"). L'ARN peut alors être traduit en protéines, composé de 20 acides aminés. Pour faire correspondre 4 nucléotides à 20 acides aminés, il y a un code basé sur des triplets de nucléotides. En effet, 41 = 4, pas assez ; 42 = 16 pas assez ; 43 = 64, davantage que 20, cool. Ces triplets s'appellent "codons". (Notez que ça veut dire qu'il y a plusieurs codons pour un même acide aminé.) Pour que la traduction démarre, il faut un codon "start", AUG (codé par ATG dans l'ADN), qui code pour l'acide aminé méthionine (symbole M). Il y a dans le code standard trois codons "stop", qui arrêtent la traduction.

[caption id="attachment_2915" align="aligncenter" width="300"]code génétique de Wikipedia code génétique standard (depuis Wikipedia)[/caption]

Dans DNA-PacMan (qui à mon avis devrait s'appeler RNA-PacMan, mais passons), il faut donc se balader en mangeant des nucléotides, et dès qu'on a mangé un AUG on commence à fabriquer des acides aminés, jusqu'à manger un codon stop ... ou se faire manger par un fantôme.

C'est un programme simple qu'il faut lancer directement avec Python, et les résultats s'affichent dans une console terminale. Ce qui accentue encore le coté geek. ;-)

pacman1pacman2

mercredi 26 août 2015

Introduction au bricolage de significativité des tests statistiques

[caption id="attachment_2893" align="aligncenter" width="205"]cliquez pour lire la BD cliquez pour lire la BD[/caption]

Il y aurait beaucoup à dire si la manipulation volontaire ou involontaire de la significativité statistique, et d'ailleurs si vous êtes sages c'est un sujet sur lequel j'ai l'intention de revenir. Mais en attendant un billet plus sérieux, voici un jeu proposé par le site de statistiques FiveThirtyEight.

Le paragraphe suivant est un peu chiant, vous pouvez le sauter pour aller à la partie amusante. Ou le lire, c'est un blog sciences ici après tout.

Lorsque l'on veut déterminer si une relation observée pourrait l'être aisément par hasard, ou est suffisamment peu probable pour être intéressante, on calcule la valeur dite "p". De manière pas très intuitive, c'est la probabilité d'observer les données (ou un résultat encore plus extrême) si "l'hypothèse nulle était vraie", c'est--à-dire s'il ne se passait rien d'intéressant. Par exemple si on compare deux mesures pour voir si elles sont corrélées (la taille des gens et le nombre de chansons dans leur ipod/smartphone), si on a un p élevé ça veut dire qu'on a une probabilité élevée de voir ces mesures alors qu'il n'y a pas de corrélation. Alors qu'on a un p faible si on avait peu de chances d'observer ça par hasard. Habituellement, on fixe une limite en dessous de laquelle on rejette l'hypothèse nulle. Par exemple, limite à 5%, p observé à 2%, on rejette l'hypothèse "pas de relation entre taille et nombre de chansons". Du coup on accepte implicitement l'hypothèse "il y a une relation", même si c'est un peu sioux (pour critique voir billets bayésiens ici et ailleurs au cafe-sciences). Mais ces maths ont été calculées en supposant que vous n'observiez qu'une série de mesures, et rapportiez votre résultat fidèlement. Or si vous observez plein de séries, même s'il ne se passe rien (l'hypothèse nulle est vraie), on aura parfois des valeurs extrêmes par hasard (par exemple dans 1 cas sur 50 p ≤ 2% = 1/50ème) (voir ancien billet sur Google Trends). Si on fait ça assez et qu'on ne rapporte sournoisement que le p le plus faible, on a un magnifique résultat "significatif" qui ne signifie rien du tout. La plupart des choses peuvent se mesurer de plusieurs manières. La taille, c'est la taille en cm, ou divisée par l'âge, ou le poids ; le nombre de chansons, c'est leur nombre, leur longueur d'écoute totale, seulement celles écoutées récemment ? Donc avec une seule série d'observations on peut faire plein de comparaisons.

Le site FiveThirtyEight, dans un billet sur les problèmes de la science ("Science Isn’t Broken. It’s just a hell of a lot harder than we give it credit for.") propose aux lecteurs d'essayer plusieurs manières de mesurer d'une part le taux de Démocrates ou Républicains au pouvoir aux Etats-Unis, et d'autre part plusieurs manières de mesurer l'économie. Ainsi, en jouant avec les paramètres, on peut obtenir des résultats montrant que les Démocrates sont bons ou mauvais pour l'économie, avec des tests statistiques tout-à-fait "significatifs". Essayez en cliquant ci-dessous :

[caption id="attachment_2884" align="aligncenter" width="300"]cliquez pour aller jouer au "p-value hacking" cliquez pour aller jouer au "p-value hacking"[/caption]

Ce qui est terrible c'est qu'un résultat final d'un tel tripatouillage, pris en isolation, est techniquement correct (pas de fraude, pas de trucage visible), mais pourtant représente volontairement mal la réalité. Alors que le but des statistiques est de nous aider à mieux représenter et comprendre la réalité. Ceci est l'illustration d'un problème important en recherche scientifique : les chercheurs peuvent modifier leur analyse jusqu'à trouver un résultat apparemment convaincant et conforme à leurs attentes, mais qui en fait n'a pas réellement été testé.

C'est le "p-value hacking", que j'ai essayé de traduire par "bricolage de significativité" dans le titre, et c'est un problème important. Les solutions sont difficiles, mais la plus importante est d'avoir le problème à l'esprit.

Pour finir une petite blague statistique en anglais (vu ici) : "that's rather mean" "you mean average? that's a standard error." (traduction difficile, jouant sur mean = méchant ou moyenne ; average = moyenne ; standard error = erreur typique ou erreur-type). Bon ça m'a fait rire, je suis un horrible geek, désolé.

mardi 25 août 2015

L'agriculture kényane prend le chemin des #OGM, les journalistes du Monde ne prennent pas le chemin du sens critique

[caption id="attachment_2891" align="aligncenter" width="300"]cliquez pour une blague de mauvais goût cliquez pour une blague de mauvais goût[/caption]

Alors que j'essaye de me botter le derrière pour finir quelques billets de blogs avec un peu de substance, que vois-je dans Le Monde ? Un article sur "L'agriculture kényane prend le chemin des OGM" qui cite plusieurs choses erronées sans la moindre distance. Imagine-t-on un article qui cite "les vaccins donnent des maladies comme l'autisme" sans aucun recul ? Parce que c'est le niveau.


D'abord notons la citation "Les scientifiques du pays sont à l’unisson derrière le discours du vice-président". On ne saura pas pourquoi les scientifiques sont à l'unisson favorables à un truc aussi mauvais. Peut-être sommes-nous tous des monstres. Ou peut-être y a-t-il des faits intéressants à obtenir en leur parlant ? On ne saura pas, aucun n'est cité. Ni aucun scientifique étranger d'ailleurs. C'est clair, les plantes, les virus, les gènes, tout ça est étranger aux scientifiques.

En détail :
...moratoire sur les importations d’OGM, instauré en 2012, suite à une étude démontrant que le maïs transgénique pouvait provoquer des cancers chez des rats de laboratoire.

Il ne peut s'agir que de la pseudo-étude de Séralini et al, qui n'a rien démontré du tout. Une phrase plus juste aurait été "qui a soulevé le soupçon que le maïs transgénique pouvait provoquer des cancers chez des rats de laboratoire, mais depuis été retirée et jamais reproduite."
"Le maïs MON810 disperse autour de lui une toxine qui fait chuter le nombre d’abeilles et la biodiversité, contamine les plantes aux alentours."

Les abeilles, on peut comprendre, si on met du maïs Bt (ce qui est le cas de MON810) qui contient un insecticide, quoiqu'aucun lien avec les problèmes des abeilles n'ait jamais été montré malgré plusieurs études. Le Bt ciblant les lépidoptères (voir discussion sur l'effet sur d'autres espèces ici). Et on peut toujours rappeler que le même Bt est utilisé en agriculture bio, en pulvérisation. (Edition : en plus les OGM contrairement aux pulvérisations conventionnelles ou bio ne dispersent rien du tout.) Les plantes aux alentours, j'ai un peu plus de mal. Comment un insecticide peut-il leur faire du mal ? On peut aussi rappeler l'étude montrant un gain de biodiversité des insectes avec des OGM Bt. Bref, affirmation très forte qui n'est soutenue par aucun élément factuel.

Je suis encore plus perdu car l'article parle de protéger le maïs d'un virus, ce qui est possible par OGM dans certains cas (notamment papaye à Hawaï), mais n'a rien à voir avec l'insecticide Bt. Je suppose que c'est un effet secondaire de la mise dans le même sac de tous les OGM dans la plupart des discours, mais il faut bien répéter que chaque OGM est différent, c'est juste une technique pour obtenir ce que l'on veut. Ce que l'on veut, c'est très divers. Juste avant les phrases citées ci-dessus, on note d'ailleurs que les "OGM de Monsanto, résistants au virus, apparaissent comme une solution d’urgence". Si c'est ceux résistants à un virus, ce n'est pas le MON810 alors ?
"On ne maîtrise pas non plus les conséquences sur la santé : des études montrent que les OGM peuvent avoir des effets sur les reins, provoquer des allergies ou des problèmes sexuels."

Là c'est carrément bizarre. Chaque fois que je lis un article grand public sur les OGM je découvre de nouveaux maux qu'il sont sensés causer (voir ici par exemple). Des problèmes sexuels ? Parce qu'un maïs résiste aux insectes ou à un virus ? Comment pourquoi ? Ca cause aussi les ongles incarnés ? Pour les allergies, on rappelle que les OGM sont testés à ce propos, contrairement à toutes les autres variétés générées par mutagenèse ou hybridation, et qu'on commence à avoir pas mal d'expérience là-dessus.
Plus inquiétants, selon Justus Lavi, « la levée du moratoire, et l’autorisation de culture OGM au Kenya, seraient une porte ouverte pour les OGM sur tout le continent. »

Là on touche finalement au même fond du problème qu'avec le riz doré ou les moustiques à descendance stérile. Il y a un tel investissement moral et pratique dans le refus de principe des OGM qu'il est inacceptable qu'un OGM particulier fasse partie de la solution à un problème particulier.

Je me répète, mais si quelqu'un ne veut pas d'OGM pour des raisons philosophiques, qu'il le dise. Mais il faut arrêter de répéter à l'infini des choses simplement fausses, et de tout mélanger sous l'étiquette somme toute trompeuse "OGM".

dimanche 9 août 2015

Le principe de précaution est-il toujours appliqué sans discernement ?

[caption id="attachment_2855" align="aligncenter" width="180"]cliquez cliquez[/caption]

Dans un article récent de l'excellent blog Kidisciences, il y a un article qui fait un bon point sur l'idée persistente (mais apparemment fausse) qu'il ne faut pas nager après avoir mangé : Info ou intox : Il faut attendre deux heures avant d’aller nager après avoir mangé Une phrase m'a frappé dans ce billet :
En fait, comme souvent avec le principe de précaution – qui est toujours appliqué sans discernement – on fait en vérité plus de dégâts en croyant les éviter.

D'une part, je comprends la frustration des auteurs. Le principe de précaution est souvent utilisé en effet comme le principe "je ne comprends pas, donc non", ou le principe "c'est nouveau, on ne peut pas garantir 0% risque, donc non". Mais le principe de précaution dans son intention n'est pas sans discernement me semble-t-il. Il dit qu'en l'absence de données on peut déjà prendre des précautions, notamment en cas de soupçons de risques pour l'environnement ou la santé. Comme je le comprends, bien appliqué, il n'exclut ni de continuer la recherche, ni de réviser les mesures de précaution à la lumière de données plus complètes lorsqu'elles deviennent disponibles. Au contraire dirais-je. Ca a donné lieu à une petite discussion Twitter avec le principal auteur du billet, Alan de Podcastscience :


Donc voici la réponse plus longue que je lui avais promise : le principe de précaution il me semble peut se baser sur des faits. Clairement, les peurs font partie de l'équation, mais si c'est rationnel (et on peut être d'accord que la plupart des prises de décision dans notre monde ne le sont que partiellement) alors les peurs font place aux faits au fur et à mesure du progrès des connaissances. En termes bayésiens : Proba(conséquences négatives sachant faits) = Proba(faits si des conséquences négatives) x Proba(conséquences négatives) / Proba(faits) Lorsqu'on a peu de faits informatifs, l'équation est dominée de manière rationnelle par la probabilité de conséquences négatives en l'absence de faits. Lorsque les faits deviennent informatifs, l'équation devient dominée par ces derniers, notamment à travers le terme Proba(faits si des conséquences négatives) (voir ce billet).

Pour revenir à l'exemple inépuisable des OGM, appliquer le principe de précaution quand ils étaient nouveaux et que l'on savait relativement peu n'était pas forcément irrationnel. Aujourd'hui, appliquer ce principe de manière générale aux OGM, avec ce que l'on sait, est par contre bien "sans discernement". Mais l'appliquer encore aujourd'hui au saumon OGM en l'état des connaissances me parait justifié, "avec discernement" pourrais-je dire.

Voilà, ne jetons pas le bébé d'un principe qui peut être utile avec l'eau du bain des abus par des politiciens et lobbys divers.

(Ce billet et la discussion dans les commentaires sont discutés sur le site de Journal International de Médecine.)

mercredi 24 juin 2015

Un gène n'est pas un organisme, un #OGM n'est pas un hybride

[caption id="attachment_2835" align="aligncenter" width="176"]metaphysics Cliquez sur l'image : le monstre a-t-il une essence ?[/caption]

Et voilà que je parle encore d'OGM, car de quoi parle-t-on encore de partout ? D'OGM. Si vous ne venez pas de passer 2 jours en spéléo sans contact externe, vous avez entendu parler de la vente au public de la carcasse d'un agneau OGM. Bon résumés, comme déjà signalé, sur Sciences2 et Docteurjd.

Mon objectif ici n'est pas de revenir en détail sur cette histoire, mais d'en profiter pour rebondir sur un malentendu que l'on retrouve souvent lorsque l'on parle de génie génétique. Si un gène de méduse est transféré dans un agneau, cela n'en fait pas un hybride agneau-méduse. De même qu'un gène d'épinard transféré dans des orangers n'en fait pas des demi-épinards. Dans ce cas, il s'agit de transférer dans les orangers un gène de résistance à une bactérie. Les fruits ne seront pas verts, n'auront pas le goût d'épinard (et pas plus de fer, d'autant que les épinards et le fer c'est pas vraiment ça non plus mais bref).

J'ai trouvé une bonne analogie sur un blog de nourriture, The Odd Pantry : transférer un gène, c'est comme transférer une instruction d'une recette de cuisine. Ca n'implique pas forcément de transférer l'essentiel de la recette. Dans l'exemple de The Odd Pantry, l'auteure préparait de la lotion pour les mains maison, à base de cire d'abeille. Elle a eu l'idée de prendre la technique du bain-marie de sa recette de glaçage au chocolat pour faciliter les choses. Alors, cela en a-t-il fait une lotion au chocolat ? Une lotion glacée ? Y a-t-il eu mélange des deux recettes ? Non, une technique réutilisable dans différents contextes a été réutilisée.

Le gène GFP (green fluorescent protein - page Wikipedia mise à jour grâce à un de mes étudiants, que nous remercions) c'est pareil que la technique de bain-marie. En isolation, ça fait une chose, une protéine qui donne de la fluorescence verte. Quand elle le fait dans une méduse, ça donne une méduse fluo :

Aequorea victoria.jpg
« Aequorea victoria » par Mnolf — Photo taken in the Monterey Bay Aquarium, CA, USA. Sous licence CC BY-SA 3.0 via Wikimedia Commons.

Si on le met dans un autre organisme (une bactérie, un mouton, une plante), ça rend cet organisme fluo. Mais ça ne lui transfère aucune autre propriété de méduse, aucune médusitude ou médusocité.

Parce que, et c'est là un point important, du point de vue génétique la médusitude n'existe pas. Une méduse est le résultat d'un programme génétique complet effectué dans un oeuf de méduse. Et un bout de ce programme n'est pas coloré (oserais-je dire contaminé ?) par le produit final ni pas le reste du génome. C'est bien pour ça que de nombreuses espèces peuvent échanger des gènes, c'est pour ça que le programme réductioniste de la biologie moléculaire est en grande partie un succès (billet sur le réductionisme).

Attention, je ne dis pas qu'il n'y a pas des interactions (vous avez lu le billet sur le réductionisme ?). La biologie, c'est compliqué, hein, on parle pas physique amusante ici. Mais dans les cas où le produit d'un gène a une fonction bien autonome, ce qui arrive, cette fonction de comprend pas d'essence de l'espèce dont le gène provient. Les espèces n'ont pas d'essence, et les gènes ne portent pas d'essence d'espèce. C'est vraiment important, je me répète. Je pense qu'une grande partie des incompréhensions sur les OGM et plus généralement la génétique vient d'une idée intuitive mais erronée de l'identité essentielle de chaque espèce (et de la "nature" elle-même).

Exemple à discuter pour la prochaine fois : la souris de laboratoire Tc1 dans laquelle les chercheurs ont introduit 90% du chromosome 21 humain (article d'origine de 2005, description formelle de la bestiole).

Merci de votre attention.

mardi 23 juin 2015

Ailleurs sur le web : Séralini et l'agneau-méduse expliqués #OGM

rudolf


Deux bons billets qui m'évitent d'avoir à écrire les mêmes :

Nouvelle étude Séralini : quand les rats de Monsanto sont gavés au RoundUp, sur le blog Theiere Cosmique, un bon compte-rendu de la récente étude de Séralini et al.

Un mouton OGM mangé par erreur, sur le blog Sciences2 de Sylvestre Huet, un compte-rendu factuel et non hystérique de la récente histoire d'agneau OGM avec gène de méduse.

Ajout : OGM : fluorescent comme l’agneau qui vient de naitre , ou beaucoup de bêlements pour rien

lundi 22 juin 2015

Réponse à un édito local sur les #OGM

J'ai écrit sur mon blog à L'Hebdo une réponse rapide à un éditorial local (ultra-local : j'habite dans la petite ville où Monsanto a son siège Europe-Afrique-Asie) sur les OGM. Lequel éditorial contient davantage d'erreurs que de mots je pense.

Ce très court billet ici pour (1) attirer votre attention sur le billet là-bas, et (2) permettre à ceux qui trouvent le système de commentaires pénible à L'Hebdo de commenter ici.

Apparemment les préjugés tiennent lieu de "savoir" sur les #OGM à @LausanneCites

vendredi 19 juin 2015

Les #OGM cachés : quand des anti-OGM se rendent compte de l'inanité de leurs arguments (ou pas) (et commentaire #Seralini)

[caption id="attachment_2802" align="aligncenter" width="175"]cliquez sur l'image cliquez sur l'image[/caption]

Il y a un thème fréquent en ce moment sur l'internet anti-OGM : les braves et courageux anti-OGM auraient découvert un nouveau danger menaçant nos fermes, nos campagnes et nos assiettes : les "OGM cachés". Qu'est-ce ? Ce sont des plantes modifiées par mutagenèse.

C'est intéressant, parce que la modification par mutagenèse existe au moins depuis les années 1930 (Wikipedia anglophone, Wikipedia francophone), et est un exemple souvent donné de l'incohérence du mouvement anti-OGM. Qui s'opposent depuis les années 1990 à une technique permettant de modifier de manière ciblée et maitrisée la génétique des plantes, tout en acceptant une autre technique qui modifie de manière aléatoire et massive cette génétique. J'en avais d'ailleurs parlé dans le podcast sur les OGM.

Et maintenant que lit-on ? Par exemple dans un article dans Libération :
Ces «OGM cachés» sont cependant arbitrairement exclus du champ d’application de la réglementation sur les OGM, sous le seul prétexte qu’ils ont été obtenus par une autre technique de manipulation génétique que la transgenèse.

On est d'accord que c'est arbitraire, sous seul prétexte de la technique de manipulation génétique. Mais ce ne sont pas les mutants obtenus par mutagenèse qui ont été exclus arbitrairement, ce sont les OGM qui ont été ciblés arbitrairement. Alors qu'on acceptait la mutagenèse depuis longtemps, et qu'aucun risque n'avait été perçu, on a monté une paranoïa autour des OGM. Et maintenant, cette paranoïa risque de glisser vers les techniques précédemment établies. Toujours sans raisons ni évidence.

Je trouve d'ailleurs rassurant que Pierre-Henry Gouyon n'approuve pas le terme, qui apporte davantage de confusion qu'autre chose, et lui préfère le terme "plantes pesticides". Excellente idée ! Utilisons ce terme, et admettons que le riz doré ou les pommes de terre sans acrylamide (un cancérigène) n'en sont pas. Par contre la plupart des articles que je trouve dans divers médias reprennent cela sans aucun sens critique.

Ce que je trouve ahurissant dans cette histoire d'OGM cachés (faites une recherche Google, c'est discuté de partout) c'est la façon dont une mouvance anti-scientifique retourne son ignorance en argument supplémentaire. "Il y a encore plus de choses qu'on ne pensait qu'on ne comprend pas ! Faut tout interdire !". J'aimerais que la terre s'arrête pour descendre...

Note : ce billet a été programmé à l'avance, à cause de la migration de serveur informatique du cafe-sciences.org cette semaine. Et maintenant je suis rattrapé par l'actualité avec une nouvelle "étude" de Séralini et al. Que je n'ai pas le temps de lire et analyser maintenant. Je note juste quelques points rapides :

  • le soit-disant hérault de la science ouverte continue à faire des conférences de presse avec embargo ;

  • à ce propos, la conférence de presse était en même temps qu'une réunion de journalistes scientifiques qui n'étaient donc pas à la conférence de presse ; hasard ou nécessité ?

  • quand son papier n'est pas publié comme prévu on voit des cris à la censure, alors qu'il suffirait de mettre ses résultats dans biorxiv, voire de les bloguer comme avait été fait pour la mise en cause de la bactérie à l'arsenic ;

  • si j'ai bien compris, il montre qu'il y a des traces de pesticides et d'OGM dans les aliments pour animaux de laboratoire ; c'est un reproche qui avait été fait à son étude précédente (son contrôle n'en était pas un), et maintenant il en fait un argument ? Super bizarre ;

  • sur Twitter, en anglais on voit une dominante de remarques critiques sur Séralini ; et une déferlante de reprises sans aucun recul ni critique de la communication du CRIIGEN par les médias français ; bon point, de grands médias ne semblent pas reprendre la pseudo-info pour le moment ;

  • très bonne analyse en anglais par la twitteuse de science @mummyPhD2 à Genetic Literacy.

mardi 16 juin 2015

Informatique, biologie et 6 millions de danois : les patients médicaux ont une histoire

[caption id="attachment_2791" align="aligncenter" width="145"]cliquez sur l'image cliquez sur l'image[/caption]

Ceux qui me suivent sur Twitter ont souffert la semaine dernière, vu que j'étais à une conférence de bioinformatique, que j'ai live-tweetée abondamment. J'ai appris pas mal de choses intéressantes, et je voudrais revenir si j'ai le temps sur plusieurs des résultats intéressants. Et d'abord la conférence de Søren Brunak, bioinformaticien médical danois :

Creating disease trajectories from big biomedical data

basé notamment sur son article :

Temporal disease trajectories condensed from population-wide registry data covering 6.2 million patients. Jensen et al 2014 Nature Comm 5: 4022

Commençons par quelques points mis en avant sur Twitter par moi ou d'autres :









Le concept clé pour Søren est celui de "trajectoire" : un patient médical a un passé et un avenir, qui devraient être pris en compte dans son diagnostic et son traitement. Il veut donc utiliser les données qu'il a à disposition au Danmark pour déterminer statistiquement les trajectoires probables, et la manière dont elles influencent les traitements qui marchent ou pas, les chances de survie ou de complication, etc.

L'équipe de Søren a utilisée les données complètes des hôpitaux danois de 1996 à 2010, soit 6,2 millions de patients avec 65 millions de visites. On sait dans quel ordre un patient a eu quels diagnostics ou traitements, et avec quelles conséquences. Ils ont découvert 1171 "trajectoires" significatives. Une trajectoire est une suite de diagnostiques ou d'actes médicaux qui se suivent dans un certain ordre davantage qu'attendu au hasard.

Par exemple : ncomms5022-f2


En (a) on voit des séries de maladies qui se suivent fréquemment, liées au cancer de la prostate. En (b), ces séries sont regroupées de manière à montrer toutes les trajectoires de manière synthétique.

Un point important est que ceci est déterminé automatiquement, en utilisant d'abord une corrélation assez simple entre diagnostics. La probabilité d'observer une corrélation au hasard est estimée en ré-échantillonnant les données (en mélangeant les observations au hasard en d'autres termes) des millions de fois, et en corrigeant pour le fait d'avoir effectué des tests multiples. Comme ça prend du temps de calcul, ils ont fait ça sur une partie des données, puis utilisé ces résultats pour valider une approche plus rapide. Ils ont assemblé les paires de diagnostics en séries en prenant simplement les chevauchements (si on a A->B et B->C, alors on a A->B->C), avec à nouveau un test pour vérifier la significativité statistique ; pour limiter le bruit statistique, les trajectoires avec moins de 20 patients au total ont été éliminées de l'analyse. Les trajectoires sont regroupées, comme montré en (b) ci-dessus, par Clustering Markovien. C'est là que j'apprends en vérifiant mes sources que cette approche très utilisée en bioinformatique n'a pas été vraiment publiée hors d'une thèse de maths. La page de référence étant celle du logiciel fourni par ledit mathématicien : MCL. A la base, la méthode cherche dans un graphe (des points liés par des traits, voir figure ci-dessus) des "chemins" plus probables si on marche au hasard dans le graphe, lesquels chemins correspondent à des sous-ensembles du graphe qui sont mieux connectés. Donc à des sous-ensembles, par exemple de diagnostiques, qu'il faut regrouper. CQFD. Y a d'autres trucs amusants dans leurs études, comme le développement d'une méthode informatique permettant de comprendre automatiquement les textes écrits par des médecins en danois, y compris les négations (très importantes dans les diagnostiques).

Allez, deux plus gros graphes :

ncomms5022-f3


Là on peut voir par exemple en (a) que la plupart des maladies suivant une athrosclérose, et pouvant être considérées éventuellement comme des complications, ne viennent comme complications plutôt d'une Bronchopneumopathie chronique obstructive (COPD en anglais), qui suit souvent mais pas toujours l'arthrosclérose.

ncomms5022-f4Bon avouez que c'est joli.


Sinon, pour montrer encore un peu ce que l'on peut trouver dans ces données et l'importance de la médecine personalisée, voici les incidences de quelques classes de diagnostiques en fonction du sexe et du type de viste : patient hospitalisé (in-patient), patient en visite libre (out-patient), urgence (emergency) :


ncomms5022-f1Tiens, les femmes ont plus souvent des diagnostics d'accouchement (en vert) que les hommes, et sont généralement hospitalisées à ce moment-là. ;-) Et les blessures (en rouge) sont plutôt le fait d'hommes de 21 ans, et se retrouvent aux urgences. Comme quoi ça marche ces stats.


Comme vous l'aurez peut-être remarqué dans les tweets ci-dessus, cette étude a été permise par une législation très libérale en ce qui concerne la collecte et l'utilisation des données personnelles au Danmark. Il n'est pas évident que de telles études soient portables à d'autres sociétés, moins enclines à faire confiance à leur état et leurs institutions. Il n'est en fait pas évident pour moi que ce soit souhaitable, contrairement à ce que souhaite clairement Søren Brunak. Mais si de telles études ne sont pas répétées, il y a le risque d'avoir une information très biaisée par les risques génétiques des danois, et surtout par leur mode de vie, qui se caractérise apparemment par une nourriture grasse et peu d'exercice. Søren a donc admis bien volontiers que, même si les résultats ont été partiellement vérifiés en Grande Bretagne et aux Pays Bas, il seraient difficiles à généraliser à un pays méditerranéen ou d'Asie de l'Est, par exemple.


Il n'en reste pas moins que les grandes lignes de cette étude sont probablement très généralement correctes, et qu'une information partielle de ce type vaut mieux qu'aucune information à mon avis. Une complainte fréquente des patients des hopitaux et médecins traditionnels est que leur histoire n'est pas prise en compte, d'où une tendance à aller chez des charlatans qui font n'importe quoi, mais écoutent attentivement toute l'histoire et rassurent sur l'avenir. On voit ici que l'exploitation intelligente de grandes quantités de données médicales a le potentiel de permettre une prise en compte rationnelle et réellement utile des histoires des patients.


Note de service : les commentaires ne vont pas fonctionner ce mercredi-jeudi 17-18 juin, en raison de maintenance du serveur cafe-sciences.org.


Update: following demand on Twitter, an English translation is available here.

lundi 8 juin 2015

Les datations fossiles disponibles librement sur le web

[caption id="attachment_2768" align="aligncenter" width="152"]cliquez sur l'image cliquez sur l'image[/caption]

Je marche sur les plates bandes de Dinoblog aujourd'hui : une équipe internationale a publié (accès fermé, c'est vil) une base de données gratuitement et publiquement disponible sur internet, qui contient des datations de référence entièrement basées sur des fossiles reconnus et expertisés :

http://fossilcalibrations.org/

Par exemple si je cherche Hominidae, le groupe des grands singes (ourang-outang, nous, chimpanzées, gorilles), je trouve date minimum 11,6 million d'années, date maximum 33,9 millions d'années. Ah bin c'est pas toujours super précis, mais comme ça on sait où on en est.

Ce qui est super c'est qu'on voit aussi à quels fossiles et à quelles publications scientifiques la date se rattache.

On peut comparer les résultats à ceux de TimeTree, un autre site qui lui propose des dates basées sur "l'horloge moléculaire", l'hypothèse que la divergence entre protéines ou séquences d'ADN permet de dater les divergences évolutives. J'aime moins, mais c'est plus complet parce que les fossiles faut avoir du bol et l'ADN y en a toujours. Pour Hominidae on obtient une date moyenne de 15,7 millions d'années, ce qui est cohérent avec les fossiles, avec différentes études qui s'étalent entre 8 et 22 millions d'années, pas si différent des fossiles finalement :

pongohomo

vendredi 5 juin 2015

#Scidiverse : peut-on avoir le beurre de fermer les frontières et l'argent du beurre de la bonne science ?

[caption id="attachment_2760" align="aligncenter" width="243"]cliquez sur l'image cliquez sur l'image[/caption]

Suite aux discussions sur la sortie de la Grande Bretagne de l'Union Européenne, le bioinformaticien célèbre et co-directeur de l'EBI (European institut for bioinformatics, Cambridge) a publié les tweets suivants :


Ce qui a généré pas mal de réactions spontannées d'autres personnes publiant les stats de leurs labos. Voici les miennes :

Du coup Ewan a lancé le hashtag #scidiverse. Et pour collectionner les données automatiquement, il a proposé aux gens de suivre un format standard. Ce qui est une approche très bioinformatique : si on veut pouvoir utiliser plein de données, il faut qu'elles soient organisées de manière standard, ce qui permet de les traiter informatiquement.

Ce qui pour moi donne :

Il y a des râlages que ça n'inclut pas d'autres sources de diversité, telles que orientation sexuelle, origine sociale, couleur de peau, mais je trouve déjà l'exercice intéressant. Même s'il est doublement biaisé : vers le type de chef de labo qui est actif sur Twitter, et plus votre labo est divers plus vous aurez envie de le montrer.

De manière importante, je pense que le point de départ d'Ewan est très valide : tous les mouvements conduisant à réduire la circulation internationale des personnes (quiter l'UE, pour la Suisse restreindre les relations avec l'UE, pour les USA les limitations sur les visas notamment après le 11 septembre 2001, etc) sont très pénalisantes pour la recherche. Mon labo n'est pas divers parce que j'essaye exprès qu'il le soit, il l'est parce que je prends les meilleures personnes et qu'elles viennent d'un peu partout. Si je ne devais prendre que des suisses, ou même une majorité de suisses, il me manquerait des compétences. Pas parce que les suisses sont moins bons, mais parce qu'il y a peu de suisses, et peu de gens qui ont les compétences dont on a besoin et la motivation pour les mettre en oeuvre en recherche scientifique.

Un peu d'info complémentaire : le classement des universités les plus internationales du monde sur le site de Times Higher Education. On peut s'amuser à corréler avec des classements de "qualité" des universités, mais comme ces classements sont très partiels et subjectifs, je vais éviter pour le moment.