vendredi 22 juillet 2011

Probablement

cliquez sur l'image

Un exemple cliché dans l'enseignement des probabilités concerne la manière dont sont habillés les étudiants dans la salle. Le produit des probabilités que chacun ait mis exactement ces habits-là ce jour-là est très faible, et pourtant cela s'est produit. Ceci illustre le fait que des évènements très peu probables peuvent se produire, et parfois doivent se produire. La probabilité que tous les étudiants soient habillés d'une manière ou d'une autre était proche de 1. Ce qui correspond à la somme de toutes les manières (peu probables chacune) qu'ils soient habillés.

Un autre exemple classique d'évènement peu probable qui doit se produire est le tirage du loto. Chaque combinaison de chiffres est très peu probable, mais il est certain que l'une de ces combinaisons (aussi peu probable que les autres) sera tirée. Pour donner un sens intuitif à cette notion de "peu probable" en l'occurrence, essayez de vous rendre compte que la série tirée la dernière fois avait la même probabilité que de tirer 1, 2, 3, 4, 5, 6, 7, 8, 9 (s'ils tirent neuf boules, je ne suis pas très au fait du loto).

Vous suivez ? Bon.

Parce que ça m'a donné l'idée d'une façon d'illustrer des stats plus élaborées, nommément la vraisemblance et le Bayesien (qui a droit à une majuscule car nommé d'après le révérend Bayes). Je veux dire l'exemple des habits, le loto c'est chiant. Je ne suis pas sur que mon idée soit originale, mais on va faire comme si.

Supposons que vous entriez dans un amphi de fac au hasard, et vous voyez des étudiants tous habillés de manière très formelle (cravates pour les garçons, tailleurs pour les filles). Dans quelle filière êtes-vous arrivé ? Biologie ou finances ? Et si vous entrez et que vous voyez les étudiants habillés avec des châles et des grandes jupes pour les filles, des pulls tricotés et des chemises Mao pour les garçons, et des lunettes rondes de partout ? Littérature ou médecine ?

La combinaison exacte de cravates, costumes, tailleurs, chemisiers, etc, que vous voyez dans l'amphi est très peu probable de toutes façons (voir raisonnement précédent). Mais elle est plus probable dans un amphi de finances que dans un amphi de biologie. Donc quand vous entrez dans cet amphi, vous vous dites que vous êtes probablement en finances (ou en droit admettons). C'est l'idée de base de la vraisemblance en statistiques : on cherche sous quelle hypothèse (étudiants de biologie ou de finances ?) les données sont les plus probables.

Ce qui paraît tarabiscoté, vu qu'on sait que les données sont vraies, et qu'en plus les probabilités sont très faibles. Mais c'est exactement le raisonnement qui conduit à penser que l'amphi plein de costards-cravates n'est probablement pas la biologie ou la littérature.

Donc la vraisemblance de l'hypothèse H (étudiants de biologie) est la probabilité des données (comment qu'ils sont fringués) sous cette hypothèse. Et on retiendra l'hypothèse du maximum de vraisemblance, donc dans le cas costard-cravate, finances. On peut même noter qu'on n'a pas les données pour distinguer deux hypothèses de vraisemblance également élevée, finances ou droit.

C'est très utile en biologie, parce que souvent on a des données très peu probables sous un raisonnement probabilistique classique (par exemple des séquences d'ADN uniques), mais pour lesquelles on peut proposer une hypothèse de maximum de vraisemblance (concernant l'homologie, la structure, etc, ça dépend de la question posée).

(Oui parce qu'on peut poser différentes questions avec les mêmes données. Avec les habits, on pourrait voir la vraisemblance de la saison, d'une situation d'examen / cours / travaux pratiques, etc.)

Ce qui n'est pas intuitif dans cette histoire, c'est qu'on aimerait bien connaître non la probabilité des données, mais celle de l'hypothèse qu'on teste. C'est vrai quoi, on s'en fout de la probabilité ultra-faible de toutes ces paires de chaussettes.

Entre en scène le révérend Bayes.

Il a donné son nom à un théorème qui est pratiquement une évidence. Parfois formaliser les évidences c'est utile, voir aussi l'équilibre de Hardy-Weinberg en génétique.

Reprenons d'abord les étudiants habillés. Maintenant on n'entre plus dans un amphi au hasard, mais dans un amphi qui a écrit sur la porte "Grand amphithéâtre de Lettres". On s'attend a priori avant même d'entrer à trouver des étudiants de lettres. On a donc une probabilité a priori forte pour l'hypothèse "étudiants de lettres", et faible pour les autres hypothèses. Si on entre et que l'on voit plein de châles et de lunettes rondes et de barbiches, on confirme notre a priori. Mais si on entre et que l'on voit un amphi plein de costards-cravates et de tailleurs ? Est-ce que les nouvelles données (la façon dont ils sont habillés) sont suffisants pour modifier notre a priori ? C'est ce que formalise Bayes.

Proba(Etudiants de lettres, sachant Habillés en costards) = Proba(Etudiants de lettres) x Proba(Habillés en costards, sachant Etudiants de lettres) / Proba(Habillés en costards)


Proba(Etudiants de lettres) c'est notre idée a priori que l'amphi de lettres sera plein d'étudiants de lettres ;
Proba(Habillés en costards, sachant Etudiants de lettres) c'est la probabilité  que les étudiants de lettres aient tous mis des costards ;
Proba(Habillés en costards) c'est la probabilité pour les gens en général de mettre des costards, qu'ils soient en lettres ou non.

Donc à la fin c'est à voir qui gagne : la probabilité d'avoir des étudiants en lettres dans l'amphi de lettres est-elle suffisamment forte pour accepter l'idée farfelue qu'ils se soient tous habillés en costard ? Ou la probabilité d'avoir des lettreux en costard est-elle suffisamment faible pour accepter l'idée que l'amphi de lettres a été occupé par les étudiants en finances ?

Deux choses sont très intéressantes dans la formulation de Bayes : D'une part, on obtient le nombre qu'on veut vraiment, qui est la probabilité de l'hypothèse étant donné les données (on dit plutôt "sachant les données"). Et d'autre part, on prend en compte explicitement notre a priori. Or lorsque l'on obtient de nouvelles données, on a toujours un a priori, qui conditionne la confiance que l'on a dans les conditions autant que les données elles-mêmes. Votre réaction au rapport d'un miracle à Lourdes sera très différente selon que vous soyez catholique (a priori = les miracles à Lourdes sont probables) ou athée (a priori = les miracles sont très improbables). C'est pareil en sciences. Si l'analyse d'un gène m'indique que les humains sont proches parents des chimpanzés, cela est cohérent avec mon a priori, et je l'accepte facilement. Si un autre gène m'indique que les humains sont plutôt proches de la bactérie E. coli, j'aurais tendance à bien bien vérifier s'il n'y a pas eu d'erreur expérimentale, puis proposer un scénario de transfert de ce gène uniquement entre E. coli (qui vit dans notre système digestif) et l'ancêtre des humains. Il me faudrait beaucoup plus de données qu'un seul gène pour réviser mon fort a priori concernant les relations de parenté humain - chimpanzé - bactérie.

Ca peut paraître de la triche comme ça, mais c'est en fait une bonne façon de faire. Il faut être un peu conservateur, étant donné que la plupart de nos a priori largement acceptés (ceux avec une forte probabilité) sont acceptés pour de bonnes raisons. Exemple : les premières analyses moléculaires de l'évolution des mammifères séparaient les rongeurs. Dans une logique "vraisemblance", on retient cette hypothèse ; dans une logique Bayesienne, on note qu'on avait 200 ans de paléontologie et morphologie comparée regroupant les rongeurs ensemble, donc on demande une évidence vraiment forte de la part des données moléculaires. Ce qu'elles étaient incapables de fournir au début des années 1990. Par la suite, avec d'avantage de données moléculaires, un signal fort a émergé regroupant les rongeurs à nouveau. Donc prudence. Même si des fois les révolutionnaires ont raison bien sûr. Les mêmes études du début des années 1990 plaçaient les cétacés (baleines et dauphins) comme cousins des hippopotames, en contradiction aussi avec les paléontologues. Avec plus et mieux de données moléculaires, le signal est devenu tellement fort que les paléontologues ont du convenir que c'était la meilleure interprétation des données.

Le problème majeur de l'approche Bayesienne, c'est de donner une valeur précise à la probabilité a priori (appelée aussi "prior"). Il y a deux réponses à cela. L'une que je n'aime pas beaucoup (mais ça se discute) est de donner égale probabilité à toutes les possibilités. Dans ce cas, je ne vois pas l'intérêt de faire du Bayesien. L'autre (que je préfère) est d'utiliser le Bayesien lorsque l'on a une bonne estimation du prior, et d'utiliser la vraisemblance sinon.

En conclusion, j'aime bien le Bayesien, a priori.

1 commentaire:

  1. J'aime. J'ai bien ri, même si j'étais déjà à l'aise avec les concepts évoqués.

    RépondreSupprimer