vendredi 15 juillet 2011

Data science

cliquez sur l'image
Il y a un domaine émergent qui s'appelle Data Science en anglais. C'est assez nouveau pour ne pas avoir de page dédiée dans Wikipedia. Comme illustré dans le diagramme de Venn lié par l'image ci-dessus, il s'agit d'une aventure interdisciplinaire, à la croisée de la statistique, l'informatique, et au moins un domaine d'application. Ce que je trouve frappant, c'est à quel point cela décrit bien la bioinformatique. Pour des raisons étymologiques, on pense souvent que la bioinformatique est à l'intersection de l'informatique et de la biologie. Mais sans usage pertinent des statistiques, point d'analyse pertinente de gros tas de données.

Il faut d'ailleurs noter que l'étymologie joue des tours quand on change de langue. Le mot "Informatics" est rarement utilisé en anglais, et a un sens spécialisé (c.f. wikipedia). L'on parle plutôt de "Computer science" pour la recherche académique en informatique, et de "Information technology" (I.T.) pour les aspects plus bassement matériels, comme de brancher votre imprimante sur le réseau. Donc Bioinformatics peut être entendu en anglais comme soit un domaine abstrait de manipulation de l'information biologique, soit au contraire comme une application chiante de l'I.T. à la biologie. De nombreux chercheurs anglophones en bioinformatique préfèrent le terme "Computational biology", et l'entendent souvent (mais pas toujours) comme étant plus académique, par rapport à une "Bioinformatics" plus appliquée. Voir aussi l'excellente note de Iddo Friedberg sur les cinq types de bioinformatique.

J'en reviens donc à la Data science. Une chose que j'aime avec ce terme émergent, c'est qu'il recouvre exactement la pratique de la bioinformatique telle que je la comprends. Pas juste l'intersection informatique - biologie, que celle-ci soit comprise comme de la recherche informatique motivée par la biologie, ou de la programmation pour biologistes. Mais une recherche multi-disciplinaire motivée par le souci de faire sens de larges quantités de données. Dans cela, l'usage pertinent de l'informatique et des maths et des statistiques est important. Il faut également noter l'importance de la compétence dans le domaine d'application : le Data science émerge, mais personne ne peut être un bon data scientist plurivalent. Il faut comprendre les données, et cela veut dire comprendre la biologie, ou les réseaux sociaux, ou la finance, etc.

Et cela mène à l'autre point que j'apprécie, c'est que nous ne sommes pas seuls à bricoler dans notre coin. C'est un bricolage commun à plein de gens et plein de problèmes, parce qu'avec de plus en plus de données, de plus en plus de puissance de calcul, le point clé, cela devient l'usage intelligent de toutes ces ressources, pour répondre à des questions pertinentes.

Une autre analyse très intéressante de la Data science est sur le blog O'Reilly: What is data science?

1 commentaire:

  1. pourquoi que j'me sens concerné?
    Ah oui : passque je suis à l'intersection de l'informatique, des données massives, et des réseaux sociaux.
    Ah ben c'est bien cool, tiens, ça prouve qu'on bosse sur les mêmes choses.
    Et ça indique qu'il est possible que notre futur, loin d'être l'exploitation de fonctionnalités sociales, et effectivement l'exploitation des grosses quantités de données. Ca tombe bien, c'est c'qu'on pensait!

    RépondreSupprimer