lundi 15 août 2011

Cherche trouveurs d'aiguilles dans des bottes de foin

Cliquez sur l'image

Remarquons encore une fois la similarité entre la bioinformatique / génomique, et d'autres domaines liés à l'informatique et aux nouvelles technologies, similarité liée au gros tas de données.

J'ai vu plusieurs notes récentes soulignant l'importance du nettoyage des données sur internet. Ce qui m'a donné l'idée d'en parler ici est un article sur le blog O'Reilly (qui a mystérieusement disparu du site, mais je laisse le lien au cas où) concernant le fait que l'abondance de données correspondant en même temps à une pauvreté en données de qualité, fiables et utilisables. Puis j'ai vu (via le Lab des Usage) que Pierre Pisani abordait un sujet similaire sur son blog. Enfin je vois que le problème est re-traité, sous un angle différent, sur le blog O'Reilly, à propos du choix des données à préserver (sur ce billet, allez en bas à la section "When data disappears")

A la base il y a l'observation que lorsque les données disponibles augmentent énormément (vous n'en avez pas marre, vous, d'écrire et lire "exponentiellement" tout le temps ?), il faut trouver un moyen de distinguer l'utile de l'inutile, le bon du mauvais, bref, annoter de la qualité à toutes ces données. Cela peut être automatique, Google est le champion, mais il semble de plus en plus qu'une part expertisée manuellement ait une forte valeur ajoutée.

Et là où j'en viens, c'est que c'est pareil en biologie. On génère des quantités monstrueuses de données, et l'on voit l'importance de vérifier, annoter, organiser ces données, manuellement. L'exemple historique est Swissprot, où chaque information sur chaque protéine est vérifiée par un expert. D'où la création relativement récente de la Société internationale de biocuration, pour mettre en avant, valoriser, et coordonner ces activités. Je remarque d'ailleurs que les sociétés privées qui arrivent à vivre de la bioinformatique ont généralement une activité de curation (même si Pisani n'aime pas ce mot), parce que les clients sont prêts à payer pour une information fiable et de qualité, en ces temps où l'information brute, elle, est gratuite.

A propos de Swissprot, elle est maintenant incluse dans Uniprot, qui contient aussi 99% d'information organisées automatiquement. Il n'y a donc pas forcément opposition entre l'approche automatique à la Google et l'approche curation manuelle, si c'est bien géré.




Mise à jour : ce blog post sur O'Reilly suggère que de faire les choses manuellement permet de mieux démarrer une start-up, et que de les faire automatiquement permet de mieux gérer sa croissance. Pour les bioinformaticiens, est-ce que ça veut dire démarrer à la Swissprot, et continuer à la Ensembl ?

4 commentaires:

  1. Préoccupation très proche du web sémantique: y'a plein d'infos partout, si on veut l'organiser il faut commencer par savoir la lire. Donc tagger les choses, puis les tagger automatiquement, inclure des choses lisibles par la machine dans les pages HTML, et partir de là pour organiser tout ça (lier les services, faire des recherches, des clusters, combiner les données etc).

    Encore plus vrai pour le web social, ou web 2.0, qui non seulement change l'aspect du web mais participe énormément à sa croissance, euh, vachement forte (pas exponen...).

    Un domaine de recherche fort intéressant actuellement. Lié au "linked data", dont une des instances est... les bases de données biologiques. Comme quoi.

    RépondreSupprimer
  2. Accessoirement, y'a pas bcp de commentaires sur ton blog, mais franchement c'est la croix et la bannière pour commenter. Vivement la migration.

    RépondreSupprimer
  3. test de commentaire anonyme pour voir si c'est dur.

    RépondreSupprimer
  4. Non à part qu'il faut taper un mot pour éviter le gros spam des bots, ça n'est pas difficile à mon avis de commenter.

    RépondreSupprimer