veillemag

Le rendez-vous des professionnels de la communication stratégique








PackWeb, les chroniques

Data Scientist, Dahu des Ressources humaines et du monde informatique. ITW Balázs Kégl Senior researcher at CNRS, co-creator of ramp.studio


David Commarmond




VM. Pour vous qu’est-ce qu’un Data scientist aujourd’hui ?

Data Scientist, Dahu des Ressources humaines et du monde informatique. ITW Balázs Kégl Senior researcher at CNRS, co-creator of ramp.studio

BorderCloud / KR : Tout d’abord, il faut savoir ce qu’on met derrière le terme de data scientist, car derrière ce nom commun se cache une infinité de réalité. En fonction de la discipline, du laboratoire, de l’organisme, des moyens qu’on lui attribue et de l’équipe qui l’entoure son rôle ne sera pas le même.
 

Pour ma part je me sens très proche de la position de Balázs Kégl qui représente l’écosystème de la datascience  au travers du schéma (Fig. 1)



Image : https://cdn-images-1.medium.com/max/800/1*GHPmSrpN0d19Z5XlGaxIxA.png


The data science ecosystem

https://medium.com/@balazskegl/the-data-science-ecosystem-678459ba6013

Balázs Kégl

Data scientist at CNRS, head of the Paris-Saclay Center for Data Science, co-creator of RAMP (http://www.ramp.studio ).
 

Ce schéma illustre les corps de métiers nécessaires au bon fonctionnement d’une unité de recherche. On en dénombre 6.
 

Pour l’expliquer simplement, un data scientist en machine learning  fera appel un ingénieur en système d’information pour lui permettre de consommer les données, des scientifiques pour confirmer les hypothèses qu’ils soulèvent, des développeurs logiciels pour effectuer certain traitement automatiquement, etc.
 

 


VM.Quel profil doit-il avoir ?

BorderCloud / KR : Dans l’imaginaire collectif, un Data Scientist est un petit-génie des mathématiques ainsi qu’un développeur aguerri qui maîtrise les technologies du Big Data. Il y a quelques années c’était probablement le cas mais les domaines se sont complexifiés et les sources de données ont explosé. Les nouveaux Data Scientist ne peuvent plus se limiter exclusivement aux données statiques, ils doivent prendre en compte également les données de flux, comme les données issues des objets connectés, des futures smart cities, etc. Cela signifie qu’un individu ne peut plus être en mesure de maîtriser toutes la chaîne de production permettant l’obtention de résultats réutilisables et reproductibles pour son domaine scientifique.
 

En clair, le concept de Data Scientist recouvre aujourd'hui plusieurs métiers très différents mais indispensables à l’obtention d’un résultat. Ainsi, il n’y a pas un profil mais plusieurs profils qui permettent de recouvrir toutes les expertises nécessaires à cette activité de recherche ou de valorisation des données.


VM. Quels sont les prérequis pour se lancer en tant que Data-scientist ?

BorderCloud / KR : La première connaissance à acquérir est d’avoir des bases en programmation car il faut être en mesure de réutiliser les outils et algorithmes déjà disponibles. Cela facilite aussi le dialogue avec les développeurs logiciels qui seront en charge de construire les outils de traitement des données nécessaires au processus de traitement.
 

Ensuite, les data scientists se divisent en 3 catégories qui développent chacun des compétences très différentes :


 


VM. Data scientist pour la vie ?

BorderCloud / KR : Les outils pour les data scientist se multiplient et se complexifient à très grand vitesse par exemple avec les technologies du Big Data tel que Kafka, Spark, Flink, etc. Ces outils nécessitent un haut niveau de compétence pour les utiliser et les maintenir au sein d’un système d’information.

Un data scientist va donc progressivement se professionnaliser et se spécialiser. Les métiers de Data scientist vont donc également se préciser et perdurer.

 

 


Data scientist un métier ou des métiers à créer ?

BorderCloud / KR : Par exemple, le métier, proche de l’administrateur du système d’information, consistant à mettre en oeuvre le système de gestion des connaissances produites par les professionnels de la donnée (Data scientists, etc), n’existe pas encore. BorderCloud travaille avec ses partenaires afin de définir un nouveau métier qui donnera lieu à la création d’une nouvelle certification professionnelle pour valoriser les techniciens qui mettent déjà en oeuvre les technologies du Web sémantique et du Web des données dans leurs administrations.