lundi 28 juillet 2014

Redif : Probablement

Tiens c'est l'été, je vais rediffuser des billets de mon ancien blog. Pour commencer, un qui essaye d'expliquer les statistiques bayésiennes et de vraisemblance (billet d'origine sur le vieux blog).

Un exemple cliché dans l'enseignement des probabilités concerne la manière dont sont habillés les étudiants dans la salle. Le produit des probabilités que chacun ait mis exactement ces habits-là ce jour-là est très faible, et pourtant cela s'est produit. Ceci illustre le fait que des évènements très peu probables peuvent se produire, et parfois doivent se produire. La probabilité que tous les étudiants soient habillés d'une manière ou d'une autre était proche de 1. Ce qui correspond à la somme de toutes les manières (peu probables chacune) qu'ils soient habillés.

Un autre exemple classique d'évènement peu probable qui doit se produire est le tirage du loto. Chaque combinaison de chiffres est très peu probable, mais il est certain que l'une de ces combinaisons (aussi peu probable que les autres) sera tirée. Pour donner un sens intuitif à cette notion de "peu probable" en l'occurrence, essayez de vous rendre compte que la série tirée la dernière fois avait la même probabilité que de tirer 1, 2, 3, 4, 5, 6, 7, 8, 9 (s'ils tirent neuf boules, je ne suis pas très au fait du loto).

Vous suivez ? Bon.

Parce que ça m'a donné l'idée d'une façon d'illustrer des stats plus élaborées, nommément la vraisemblance et le Bayesien (qui a droit à une majuscule car nommé d'après le révérend Bayes). Je veux dire l'exemple des habits, le loto c'est chiant. Je ne suis pas sur que mon idée soit originale, mais on va faire comme si.

Supposons que vous entriez dans un amphi de fac au hasard, et vous voyez des étudiants tous habillés de manière très formelle (cravates pour les garçons, tailleurs pour les filles). Dans quelle filière êtes-vous arrivé ? Biologie ou finances ? Et si vous entrez et que vous voyez les étudiants habillés avec des châles et des grandes jupes pour les filles, des pulls tricotés et des chemises Mao pour les garçons, et des lunettes rondes de partout ? Littérature ou médecine ?

La combinaison exacte de cravates, costumes, tailleurs, chemisiers, etc, que vous voyez dans l'amphi est très peu probable de toutes façons (voir raisonnement précédent). Mais elle est plus probable dans un amphi de finances que dans un amphi de biologie. Donc quand vous entrez dans cet amphi, vous vous dites que vous êtes probablement en finances (ou en droit admettons). C'est l'idée de base de la vraisemblance en statistiques : on cherche sous quelle hypothèse (étudiants de biologie ou de finances ?) les données sont les plus probables.

Ce qui paraît tarabiscoté, vu qu'on sait que les données sont vraies, et qu'en plus les probabilités sont très faibles. Mais c'est exactement le raisonnement qui conduit à penser que l'amphi plein de costards-cravates n'est probablement pas la biologie ou la littérature.

Donc la vraisemblance de l'hypothèse H (étudiants de biologie) est la probabilité des données (comment qu'ils sont fringués) sous cette hypothèse. Et on retiendra l'hypothèse du maximum de vraisemblance, donc dans le cas costard-cravate, finances. On peut même noter qu'on n'a pas les données pour distinguer deux hypothèses de vraisemblance également élevée, finances ou droit.

C'est très utile en biologie, parce que souvent on a des données très peu probables sous un raisonnement probabilistique classique (par exemple des séquences d'ADN uniques), mais pour lesquelles on peut proposer une hypothèse de maximum de vraisemblance (concernant l'homologie, la structure, etc, ça dépend de la question posée).

(Oui parce qu'on peut poser différentes questions avec les mêmes données. Avec les habits, on pourrait voir la vraisemblance de la saison, d'une situation d'examen / cours / travaux pratiques, etc.)

Ce qui n'est pas intuitif dans cette histoire, c'est qu'on aimerait bien connaître non la probabilité des données, mais celle de l'hypothèse qu'on teste. C'est vrai quoi, on s'en fout de la probabilité ultra-faible de toutes ces paires de chaussettes.

Entre en scène le révérend Bayes.

Il a donné son nom à un théorème qui est pratiquement une évidence. Parfois formaliser les évidences c'est utile, voir aussi l'équilibre de Hardy-Weinberg en génétique.

Reprenons d'abord les étudiants habillés. Maintenant on n'entre plus dans un amphi au hasard, mais dans un amphi qui a écrit sur la porte "Grand amphithéâtre de Lettres". On s'attend a priori avant même d'entrer à trouver des étudiants de lettres. On a donc une probabilité a priori forte pour l'hypothèse "étudiants de lettres", et faible pour les autres hypothèses. Si on entre et que l'on voit plein de châles et de lunettes rondes et de barbiches, on confirme notre a priori. Mais si on entre et que l'on voit un amphi plein de costards-cravates et de tailleurs ? Est-ce que les nouvelles données (la façon dont ils sont habillés) sont suffisants pour modifier notre a priori ? C'est ce que formalise Bayes.

Proba(Etudiants de lettres, sachant Habillés en costards) = Proba(Etudiants de lettres) x Proba(Habillés en costards, sachant Etudiants de lettres) / Proba(Habillés en costards)

(Jolies équations dans Wikipedia)

Proba(Etudiants de lettres) c'est notre idée a priori que l'amphi de lettres sera plein d'étudiants de lettres ;

Proba(Habillés en costards, sachant Etudiants de lettres) c'est la probabilité que les étudiants de lettres aient tous mis des costards ;

Proba(Habillés en costards) c'est la probabilité pour les gens en général de mettre des costards, qu'ils soient en lettres ou non.

Donc à la fin c'est à voir qui gagne : la probabilité d'avoir des étudiants en lettres dans l'amphi de lettres est-elle suffisamment forte pour accepter l'idée farfelue qu'ils se soient tous habillés en costard ? Ou la probabilité d'avoir des lettreux en costard est-elle suffisamment faible pour accepter l'idée que l'amphi de lettres a été occupé par les étudiants en finances ?

Deux choses sont très intéressantes dans la formulation de Bayes : D'une part, on obtient le nombre qu'on veut vraiment, qui est la probabilité de l'hypothèse étant donné les données (on dit plutôt "sachant les données"). Et d'autre part, on prend en compte explicitement notre a priori. Or lorsque l'on obtient de nouvelles données, on a toujours un a priori, qui conditionne la confiance que l'on a dans les conditions autant que les données elles-mêmes. Votre réaction au rapport d'un miracle à Lourdes sera très différente selon que vous soyez catholique (a priori = les miracles à Lourdes sont probables) ou athée (a priori = les miracles sont très improbables). C'est pareil en sciences. Si l'analyse d'un gène m'indique que les humains sont proches parents des chimpanzés, cela est cohérent avec mon a priori, et je l'accepte facilement. Si un autre gène m'indique que les humains sont plutôt proches de la bactérie E. coli, j'aurais tendance à bien bien vérifier s'il n'y a pas eu d'erreur expérimentale, puis proposer un scénario de transfert de ce gène uniquement entre E. coli (qui vit dans notre système digestif) et l'ancêtre des humains. Il me faudrait beaucoup plus de données qu'un seul gène pour réviser mon fort a priori concernant les relations de parenté humain - chimpanzé - bactérie.

Ca peut paraître de la triche comme ça, mais c'est en fait une bonne façon de faire. Il faut être un peu conservateur, étant donné que la plupart de nos a priori largement acceptés (ceux avec une forte probabilité) sont acceptés pour de bonnes raisons. Exemple : les premières analyses moléculaires de l'évolution des mammifères séparaient les rongeurs. Dans une logique "vraisemblance", on retient cette hypothèse ; dans une logique Bayesienne, on note qu'on avait 200 ans de paléontologie et morphologie comparée regroupant les rongeurs ensemble, donc on demande une évidence vraiment forte de la part des données moléculaires. Ce qu'elles étaient incapables de fournir au début des années 1990. Par la suite, avec d'avantage de données moléculaires, un signal fort a émergé regroupant les rongeurs à nouveau. Donc prudence. Même si des fois les révolutionnaires ont raison bien sûr. Les mêmes études du début des années 1990 plaçaient les cétacés (baleines et dauphins) comme cousins des hippopotames, en contradiction aussi avec les paléontologues. Avec plus et mieux de données moléculaires, le signal est devenu tellement fort que les paléontologues ont du convenir que c'était la meilleure interprétation des données.

Le problème majeur de l'approche Bayesienne, c'est de donner une valeur précise à la probabilité a priori (appelée aussi "prior"). Il y a deux réponses à cela. L'une que je n'aime pas beaucoup (mais ça se discute) est de donner égale probabilité à toutes les possibilités. Dans ce cas, je ne vois pas l'intérêt de faire du Bayesien. L'autre (que je préfère) est d'utiliser le Bayesien lorsque l'on a une bonne estimation du prior, et d'utiliser la vraisemblance sinon.

En conclusion, j'aime bien le Bayesien, a priori.

8 commentaires:

  1. […] Tiens c'est l'été, je vais rediffuser des billets de mon ancien blog. Pour commencer, un qui essaye d'expliquer les statistiques bayésiennes et de vr  […]

    RépondreSupprimer
  2. […] Tiens c’est l’été, je vais rediffuser des billets de mon ancien blog. Pour commencer, un qui essaye d’expliquer les statistiques bayésiennes et de vraisemblance (billet d’origine sur le vieux blog).  […]

    RépondreSupprimer
  3. Salut Marc,

    Mon premier commentaire chez toi !

    En fait ton dernier paragraphe revient à dire qu'il n'est pas intéressant de faire du bayésien (sans "B" majuscule, en fait, tout comme markovien) en phylogénie moléculaire ou quasiment tous les prior sont "vagues" (autre mot pour dire qu'ils utilisent des distributions uniformes). Priors sur les paramètres des modèles ? Distributions de Dirichlet plates ! Priors sur les longueurs de branches ? Distributions uniformes ! Idem pour le paramètre alpha, les topologies d'arbres, etc.

    Ah, sinon, le coup des rongeurs ça me rappelle vaguement la thèse de quelqu'un :-)

    RépondreSupprimer
  4. Salut !

    Je confirme, je trouve que le Bayésien en phylogénie tel qu'utilisé habituellement ne se justifie pas sur le principe. Dans mon expérience, c'est surtout utilisé comme heuristique de maximum de vraisemblance. Par contre il y a plein d'applications proches (modèles d'évolution etc) où on peut faire soit du vrai bayésien soit des approximations intéressantes.

    Je suis ouvert à ce qu'on me montre que j'ai tort. :-)

    RépondreSupprimer
  5. Ah tiens, Bayesian avec B majuscule en anglais, mais b minuscule en français. Mea culpa.

    RépondreSupprimer
  6. Hum, je ne sais pas si ton blog est un bon endroit pour une discussion un peu technique, mais je vais essayer de défendre le bayésien en phylogénie moléculaire. Pour résumer, je vois deux arguments qui compensent largement le fait d'utiliser des a priori non informatifs :

    1) L'utilisation des MCMC (Chaînes de Markov avec technique de Monte-Carlo) fait que l'on obtient non pas un seul arbre (ou un petit nombre d'arbres) comme dans le cas du maximum de vraisemblance mais bien une distribution qui peut en comprendre un très grand nombre. A mon sens, le bayésien est ici plus "honnête" puisqu'il souligne l'impossibilité d'obtenir le "vrai" arbre. Par ailleurs, comme on a une distribution, on peut avoir une intervalle de confiance sur certains paramètres (longueurs de branches, fréquences des bases à l'équilibre). Cerise sur la gâteau, cette distribution permet de construire les probabilités postérieures associées aux noeuds, les dites probabilités ayant un vrai sens mathématique, ce qui n'est pas vraiment le cas du bootstrap de Felsenstein. En effet, celui-ci est très différent de ce qu'Efron avait théorisé, à savoir un outil de construction d'intervalle de confiance lorsque l'on estime la valeur d'un paramètre.

    2) La capacité du bayésien à utiliser efficacement des modèles riches en paramètres alors que le maximum de vraisemblance est bien plus sensible aux risques de surparamétrisation. Ronquist et Huelsenbeck (les pères de MrBayes) ont pas mal écrit la dessus et ceci dès le début des développements qu'ils ont fait en bayésien (voir Nylander et al., Syst. Biol. 53(1):47-67, 2004).

    PS : sinon mea culpa aussi, les a priori utilisés pour les longueurs de branches sont généralement des distributions de type exponentielle décroissante et non des distributions uniformes. Ceci dit, ça reste non informatif quand même !

    RépondreSupprimer
  7. Le blog est toujours le lieu pour tout discuter. :-)

    Je suis d'accord avec tes exemples, qui montrent l'utilité du bayésien en phylogénie. Mais utilité en tant que technique computationnelle pratique, pas justification théorique à mon avis. Donc je maintiens mon point de départ, et on peut ajouter que des approches de type bayésiennes peuvent être utiles hors du cadre probabilistique strict du bayésien tel qu'expliqué dans le billet.

    Ca va comme ça ?

    RépondreSupprimer