vendredi 18 novembre 2011

La fable du joueur, de la protéine et de l'ordinateur

cliquez sur l'image

L'an dernier, un article du groupe Baker (Université de Washington - l'état pas la ville) a fait beaucoup de bruit, en permettant à des joueurs de jeux vidéo en ligne de résoudre des problèmes de modélisation moléculaire. La modélisation en question consiste à prédire la structure tridimensionnelle (voir ci-dessous) d'une protéine à partir de sa séquence en acides aminés (du style MTMTLHTKAS...). C'est un problème computationnellement très difficile, qui est pourtant résolu dans la cellule en quelques secondes des milliers de fois par jour. Et dans beaucoup de cas, la structure 3D de la protéine est plus pertinente à sa fonction que sa séquence.

exemple de structure tri-dimensionnelle du récepteur à l'œstrogène, dont la séquence est donnée en exemple ci-dessus.
zoom qui montre l'œstrogène fixé au récepteur dans la structure

Soit dit en passant, ça n'est pas forcément aussi simple qu'on pourrait l'espérer, la relation structure-fonction des protéines. Il y a quelques années, on a lancé des projets de "génomique structurale", basés sur deux idées qui se sont révélées très naïves : (1) que comme pour le séquençage d'ADN, ça serait possible en dépensant assez d'argent d'automatiser la résolution expérimentale des structures protéiques, et passer à grande échelle ; en fait de dizaines de milliers, on a plutôt résolu des centaines de structures, péniblement. (2) Que la structure d'une protéine de fonction inconnue nous apprendrait sa fonction ; dans la très grande majorité des cas, ça ne nous apprends presque rien malheureusement (bon là je simplifie un peu - ça ne nous apprends pas tout-à-coup la fonction comme on l'espérait, mais ça nous fournit un indice de plus, parfois précieux).

Même quand ça n'est pas très simple, la structure est souvent utile, par exemple pour trouver des similarités entre protéines apparemment très différentes, prévoir des ligands (genre l'œstrogène se fixe au récepteur à l'œstrogène - y en a des plus sioux), ou aider à déterminer des traitements actifs sur ces protéines.

Le laboratoire Baker avait déjà fait parler de lui plusieurs fois. D'abord, c'est leur algorithme Rosetta qui gagnait toujours les concours de prédiction informatique de structure CASP. Ensuite, comme cela demandait toujours plus de puissance de calcul, ils ont lancé Rosetta@home, qui permet de prédire des structures sur les ordinateurs des particuliers. Puis en 2008, ayant observé que l'algorithme automatique avait des limitations qu'ils ne parvenaient pas à dépasser, ils ont lancé leur jeu vidéo en ligne et en réseau, Foldit. Celui-ci à eu un immense succès, faisant d'excellents score à CASP, même si la plupart des joueurs ne sont pas biochimistes tant s'en faut, et ayant récemment permis la résolution d'une structure de protéine virale qui avait résisté à tous les efforts des biochimistes.

Et bien la boucle est bouclée. Ils ont maintenant analysé les stratégies gagnantes des meilleurs joueurs, qu'ils ont recodées dans un nouvel algorithme ! Lequel marche très bien, qu'attendiez-vous d'une telle équipe ?

Alors en fait, comme expliqué aussi dans Wired, c'est un peu plus compliqué et plus rigolo que ça (moi je trouve ça rigolo).

Pendant ce temps, d'autres membres du labo Baker développaient un nouvel algorithme, Fast Relax, qui cherche la bonne structure en permettant à la protéine de se contracter et s'étendre alternativement (inspirereeez, expireeeez...). Or les deux stratégies gagnantes des joueurs (Quake et Blue Fuse) font exactement cela. Ils ont mis Quake et Blue Fuse en concurrence avec Fast Relax. Au bout de 2 min, Quake et Blue Fuse obtiennent un très bon résultat, que Fast Relax n'atteint qu'en 4 min. Mais après, les stratégies des joueurs arrêtent d'ameliorer, alors que l'algorithme conçu de novo par les chercheurs continue et améliore encore.

Donc les humains sont malins, mais les ordinateurs sont plus patients, alors ils gagnent. Mais cela, vous le saviez déjà, non ?

Il y aura une suite : ils ont modifié FoldIt pour permettre plus facilement aux joueurs de faire aussi bien voire mieux que Fast Relax.

Enfin, une dernière note pour signaler une discussion intéressante sur un blog (en anglais) qui met ceci dans le cadre plus large de la "science citoyenne" et du déluge de données, de la biologie à l'astronomie à la géographie. Par exemple pour décrire des galaxies ou décrypter des manuscrits anciens.

ResearchBlogging.orgKhatib, F., Cooper, S., Tyka, M., Xu, K., Makedon, I., Popovic, Z., Baker, D., & FoldIt Players (2011). Algorithm discovery by protein folding game players Proceedings of the National Academy of Sciences DOI: 10.1073/pnas.1115898108

2 commentaires:

  1. J'avais lu cette nouvelle dans la presse et je me demandais à que point c'était vraisemblable. Merci MRR ! Effectivement c'est très rigolo et très prometteur.

    RépondreSupprimer
  2. Effectivement c'est tout-à-fait sérieux. :-)
    Ce que je trouve super, c'est l'aller-retour entre algorithmes formels et intuition humaine.

    RépondreSupprimer