Solutions & Experts

Wikidata en marche vers l'intelligence


David Commarmond


Big Data, Smart Data, Dataviz, Open Data, la décennie 2010-2020 sera bien la décennie de la donnée sous toutes ses formes. Les biais du marché de l’informatique créant des “Buzzword”, tendent cependant à mettre sur le devant de la scène tour à tour un aspect de ces mutations, pour les faire disparaître tout aussi vite (au profit d’un autre). Laissant au passage public et porteurs de projets au milieu du gué, quand ce n’est pas au bord de la route.



Malgré ces vicissitudes, la transformation numérique est au coeur de toutes les préoccupations des chefs d’entreprises et des acteurs du numérique. Elle transforme les entreprises et accélère les mutations, soumettant les organisations à de fortes pressions. En Avril 2017, le café économique de Bercy intitulé “L’Intelligence Economique face à la transformation numérique ” esquissait les réflexions menées par les acteurs de l’intelligence économique, de Bercy, et du monde du numérique sur cette évolution, peut-être disruptif.

 

Toutefois, nombre de secteurs de recherche, nombre d’acteurs travaillant en amont des domaines grands publics, d’ailleurs à peine connus des professionnels, comme le Web de données, brique essentielle qui mène au Web sémantique.

 

Le Plateau de Saclay et l’INRIA ont, le 24 avril dernier réalisé pour la deuxième fois une démonstration du Web de données avec Wikidata pour les chercheurs afin de sensibiliser les data scientists, les futurs data scientists, les chercheurs aux nouveaux enjeux liés à l’interopérabilité des données, la transparence et la reproductibilité des expérimentations. Karima Rafes de BorderCloud, chargée de mener cette journée tambour battant, celle-ci à bien voulu nous éclairer sur le Web sémantique, répondre à nos questions et dresser le portrait du data scientist.

 

 


Le 24 Avril 2017 s’est tenu dans les locaux de INRIA-Saclay l’événement « Wikidata pour la Science ». Organisé par le Center for Data Science de l’université Paris Saclay au travers de BorderCloud et avec la participation de l’association Wikimedia France, toute la journée, démonstrations, ateliers se sont succédées devant une quarantaine de personnes intéressées par le Web Sémantique et l’Open Data appliqué aux domaines scientifiques.

 

Définition de L’Open Data Sciences

L’Open Data Science ou Ouverture des Données Scientifiques peut-être définie comme un mouvement qui incite les chercheurs et les institutions à partager leurs données avec d’autres institutions, d’autres laboratoires et d’autres chercheurs afin qu’ils puissent par eux-même reproduire les résultats de leurs confrères, avec les mêmes données expérimentales et le même environnement de travail.

 

Karima Rafes, se consacre depuis de nombreuses années à l’évangélisation des scientifiques, des laboratoires à  ce mouvement d’ouverture. Ce phénomène s’accélère, et les communautés scientifiques vont ou seront amenées à court terme à fournir de grandes quantités de données accessibles et interopérables. La question nouvelle et prioritaire est de rendre possible l’exploitation de ces données dans le domaine de l’information scientifique et technique, en particulier en visant les usages interdisciplinaires.

 

Les premiers pas de cette démarche ont abouti à la mise en place depuis un an de la plateforme « LinkedWiki » dont l’instance de l’Université Paris-Saclay se nomme IODS (Input Output Data Science) et constitue une première application de base de connaissances destinée aux scientifiques afin de les aider à découvrir et à (ré)utiliser les données.

 

Plusieurs expérimentations sont en cours afin d’identifier les derniers freins qui subsistent à l’adoption des technologies du Web des données au sein des laboratoires de l’université.

 

Comme par exemple le projet Gregorius (de l’équipe Droit et Sociétés Religieuses (EA 1611) – UFR Jean Monnet – Université Paris Sud) qui vise à créer une communauté épistémique (c’est-à-dire une communauté qui cherche à produire de nouvelles connaissance et les partager**) autour de l’histoire du droit canonique à savoir l’ensemble des lois et règlements adoptés par l’Eglise catholique. L’intérêt de mettre en œuvre ces technologies dans leur contexte de travail est de mettre en relation les connaissances produites par les chercheurs du Laboratoire et d’autres sources d’informations comme celle partagées par Wikidata et la BNF. En sachant que dans l’avenir, ce type de source d’information respectant les standards du Web des données vont se multiplier et ainsi accélérer le travail des chercheurs dans leur domaine.

 

 

Dans un autre exemple dans un contexte de sciences dures au sein de l’UFR de Pharmacie, plus précisément de l’unité interdisciplinaire Lip(Sys)², "Lipides: systèmes analytiques et biologiques", Équipe de Chimie Analytique Pharmaceutique (EA7357),  le projet DAAP, Data Acquisition For Analytical Plateform, a démontré!!! que les technologies du Web des données permet de faciliter le partage des connaissances en facilitant  la reproductibilité des résultats de recherche et  ainsi valider plus simplement de nouvelles connaissances.
 

En effet la très grande difficulté des chercheurs aujourd’hui consiste avant tout à pouvoir reproduire les résultats de leurs confrères à partir des mêmes données expérimentales. Selon l’article de Forbes du 09.02 2017 intitulé “How the reproductivility crisis in Academia is Affecting Scientific Research”, 65 et 90% de la litterature academic est non reproductible.
 

Le retour d'expérience sur le projet DAAP, a permis de mettre en évidence le besoin de traiter efficacement les données massives que produisent maintenant les scientifiques. Mais de fortes résistances subsistent :

  • La conception d’ontologies reste un exercice qui nécessite des outils adaptés aux chercheurs. Exercice d’autant plus difficile que les connaissances sont mouvantes et qu’elle est nécessairement collaborative, donc source de frustrations et de frictions.

  • la réutilisation des données expérimentales produites aux travers des technologies du Web des données tel que le protocole SPARQL nécessite une appropriation par les chercheurs de ces nouvelles technologies. Il s’agit d’un métier en soi, il est possible que d’ici 10 ans de nouveaux postes d’ontologues/experts de base rdf soient implémentés dans les laboratoires de recherche.

 

Conclusion de la journée :  Afin de démontrer la simplicité d'accès aux web des données des ateliers pratiques ont été organisé avec les derniers outils des data scientists (Jupyter, Spark, Sparql, Python…) pour accéder à Wikidata, la plus grande base de connaissances gratuites et actuelle à la disposition des chercheurs