Le MIS by Veille Mag et Reed Expo



Numéro 73 - Avril 2004

Industrie de la langue, vous êtes plutôt TIL ou TAL ?


Tout le monde en parle ! Linguistique, sémantique, industries de la langue... Petit conseil : lorsque l’on aborde l’ingénierie linguistique, mieux vaut se situer sur le plan des usages. Concrètement, cela se résume à savoir faire la différence entre TIL et TAL. Nous voilà bien avancés ! C’est pourtant ce que nous vous proposons de faire en compagnie de Marianne Dabbadie qui a réalisé ce dossier. Suivons le guide...

Mercredi 18 Février 2009


Dans le domaine de l’ingénierie linguistique, les liens entre industrie et recherche sont extrêmement denses. La plupart des chercheurs ont un niveau soit de début soit de fin de troisième cycle universitaire. " Les liens entre industrie et recherche apparaissent très clairement au travers des consortiums constitués en 2002 pour l’appel à propositions Technolangue " nous dit Joseph Mariani, directeur du département TIC, au Ministère de la Recherche. Dans le domaine associatif, les deux associations qui tiennent le haut du pavé sont particulièrement représentatives de cette structure bi-céphale.
Pour la recherche universitaire, l’ATALA (Association pour le Traitement Automatique des Langues), extrêmement dynamique depuis vingt ans, organise tous les ans la conférence TALN, grand messe de la communauté francophone de recherche en Traitement Automatique des Langues.
Côté industrie on trouve l’APIL (Association des Professionnels des Industries de la Langue). Créée en 2001 à l’initiative d’Alain Couillault, après son départ de LexiQuest, l’APIL compte aujourd’hui près d’une centaine de membres, participant ou susceptibles de participer au tissu économique de ce secteur.
L’association, outre les informations qu’elle diffuse quotidiennement sur sa liste radio-apil, a constitué un répertoire des entreprises et des métiers des industries de la langue sur son site www.apil.asso.fr. Par ailleurs, dans le cadre de l’appel à projets Technolangue, l’APIL participe à la mise en place du portail Technolangue.net.

Etes-vous plutôt TIL ou TAL ?

Quel avenir pour les industries de la langue ? Encore s’agit-il de savoir de quoi on parle. Quand on parle d’ingénierie linguistique, il faut se situer sur le plan des usages, autrement dit, savoir faire la différence entre TIL et TAL.
Les purs du traitement sémantique vous parleront de TAL (Traitement Automatique des Langues). Les éditeurs de logiciels de veille se situent sur le plan du TIL (Traitement informatique de la langue). La différence, l’opposition presque, entre TIL et TAL c’est ce qui sépare le conceptuel du pratique, et d’une certaine façon, l’applicatif de la R & D. Les TAL sont les producteurs de réseaux sémantiques et de moteurs d’analyse de contenus.
Pour schématiser, les TIL sont la plupart du temps les entreprises soit qui intègrent ces technologies dans leurs applications, soit qui traitent la langue au moyen de méthodes probabilistes. Pour les TAL, les TIL sont en quelque sorte les comptables de la linguistique.
" La définition stricte de l’ingénierie linguistique ", nous dit Stéphane Chaudiron, chargé de mission IST et Ingénierie Linguistique au Ministère de la Recherche, " voudrait qu’on ne parle que des sociétés qui ont une offre en matière de traitement de la langue fondée sur des technologies linguistiques. Or, on trouve de plus en plus de solutions qui intègrent d’autres types de technologies notamment statistiques ou probabilistes. Je pense à des sociétés comme Infogenia, Amoweba, Mapstan, Exalid, entreprises qui, selon une vision restrictive de l’ingénierie linguistique ne seraient pas prises en compte, mais qui participent du marché ".
Aujourd’hui, la distinction entre les différents types d’approches tend à s’estomper, non pas d’un point de vue technique, mais d’un point de vue industriel. C’est pourquoi on parle de nos jours, d’Industries de la Langue, plutôt que de Traitement Automatique des Langues.

Quels financements pour la recherche ?

Les Réseaux de Recherche et d’Innovation Technologique (RRIT), co-financés par les Ministères de la Recherche, de la Culture et de l’Industrie sont parvenus pour la plupart au terme d’un cycle d’existence qui les amène à aborder une période d’évaluation. À l’issue d’une évaluation positive, le RNRT (Réseau National de Recherche en Télécommunications) est officiellement renouvelé. L’avenir des trois autres réseaux co-financés par les Ministères français – à savoir le RIAM (Réseau d’Innovation Audiovisuel et Multimedia), le RNTL (Réseau National des Technologies Logicielles) et le RMNT (Réseau de Micro et Nano Technologies) - est encore incertain. Il dépendra d’une part, du résultat de leur évaluation au terme d’une première période d’existence et d’autre part, de la disponibilité des financements publics alloués à ce type de recherche.
Entre 1998 et 2002, les réseaux ont financé la recherche à concurrence de 720 millions d’euros, dont 360 millions pour la recherche publique, financée à 100 %.
Par ailleurs, le programme Technolangue a été lancé en 2002, autour de quatre axes : la création de ressources linguistiques réutilisables, dans le but de diminuer le coût du ticket d’entrée dans le secteur, l’évaluation de technologies et d’applications, les normes et standards et la mise en place d’un dispositif de veille dans le domaine des technologies de la langue.
Grâce à un financement conjoint des trois ministères, 28 projets issus de consortiums entre les laboratoires publics et privés, ont été labellisés, dont 9 campagnes d’évaluation de technologies et, dans le domaine de la veille, un projet de portail, Technolangue.net. Il s’agit d’un portail d’information sur les industries de la langue, lancé officiellement au salon LangTech, à Paris, les 24 et 25 novembre et qui réunit divers acteurs, dont l’APIL et l’ATALA. À l’horizon 2004, Technovision, un programme de financement des recherches sur le traitement de l’image, semblable dans sa structure au réseau Technolangue, verra le jour.
Du côté de l’Union Européenne, il apparaît que 5 % de la recherche est financée par la Commission et 95 % par les états-membres, Public et Privé confondus. Un effort de financement de la R & D linguistique, de la part du secteur privé, est indispensable dans les pays de l’Union. " Il serait utile, du reste ", estime Joseph Mariani, " de créer à l’échelle Européenne, une structure associative semblable à l’APIL ".
Par ailleurs, dans le domaine de l’ingénierie linguistique, les verrous technologiques liés à la disponibilité des ressources linguistiques sont encore tels que des efforts de R & D très importants sont encore nécessaires. Pour Stéphane Chaudiron, il ne faut surtout pas ralentir ces efforts, aussi bien du point de vue des financements publics qu’en ce qui concerne le privé.

Un peu de prospective

De plus en plus de fournisseurs de solutions logicielles se positionnent aujourd’hui sur le marché des applications de Knowledge Management, ce qui témoigne d’une certaine maturité de l’offre en matière de solutions de gestion d’accès à l’information. Un bref tour des applications de KM fait ressortir quelques solutions, leaders sur le marché. Il y a Arisem, avec KM server, Lingway qui propose une suite d’outils pour le KM et la veille contenant un moteur sémantique, des outils de catégorisation, d’analyse, d’extraction, de structuration, de visualisation et de résumé. " Le tout basé sur une approche sémantique multilingue " nous dit Bernard Normier. Dans le domaine des solutions innovantes on trouve la gamme Intuition commercialisée par Sinequa ou encore la suite d’outils de KM et de CRM commercialisée par Temis. Dans le domaine de la cartographie, il y a Mapstan, qui vient de passer un accord avec Sinequa pour la visualisation des résultats du moteur de recherche Intuition.
Par ailleurs, le désir d’utiliser une interface conviviale, en langage naturel qui propose une traduction en ligne, fait désormais partie des exigences banales des internautes. Pour le grand public comme pour les entreprises, l’enjeu est désormais de faire progresser l’accès à l’information au-delà des barrières linguistiques. Des traducteurs comme Systran ou Reverso, qui intègre la technologie de l’équipe Russe, Project MT, ont le vent en poupe. De plus, avec l’élargissement de l’Union Européenne et 1,3 million de pages traduites en 2001 pour le seul parlement Européen, les systèmes d’aide à la traduction sont devenus un vecteur important de communication.
Au travers de la convergence des différents types de traitement, l’ère de l’interaction homme-machine a encore de beaux jours devant elle. De ce point de vue, la convergence et la complémentarité des technologies statistiques, connexionnistes, probabilistes, linguistiques, est un point très positif. La diversification des traitements est en train de donner naissance au monde de demain.
Marianne Dabbadie


De Erli à Lingway, le fil d’Ariane des industries de la langue

Les industries de la langue sont nées au début des années quatre-vingt-dix, de la convergence des progrès de la recherche en linguistique et des besoins de la société de l’information. En France, le passage de la recherche universitaire à la R & D à visée applicative a été initié en 1977, avec la création d’ERLI, par Bernard Normier. Mais on était encore loin de la phase industrielle.
Dans les années quatre-vingt, il y avait très peu d’acteurs sur le marché. " Nous étions trois ", précise Bernard Normier " ERLI était la première société dans ce domaine par l’ancienneté, la deuxième est T-GID (qui s’appelait à l’époque SYSTEX) et doit dater des années quatre-vingt, de même que CORA, devenue ensuite Sinequa ". Ensuite il y eut la création d’Arisem à la fin des années quatre-vingt-dix, par Stéphane Leroy et Alain Garnier. Dans un schéma beaucoup moins classique, parmi les entreprises plus anciennes et les plus stables du marché, on trouve Memodata, créée par Dominique Dutoit et Patrick de Torcy il y a quinze ans. Memodata, qui développe depuis un réseau sémantique devenu l’un des plus gros réseaux au monde, se positionne comme fournisseur de cœur de technologie. Nombre de grosses entreprises qui affichent une R & D dynamique en linguistique et se limitent en fait à la fourniture de services, se sont tournées vers cette petite entreprise normande. " Nous sommes spécialisés dans le transfert de technologie mais sommes liés la plupart du temps à nos clients par des accords de confidentialité " explique Dominique Dutoit. En 1996, ERLI est devenue une filiale de GSI avec une clientèle essentiellement constituée par les grands comptes français. Puis elle a changé de nom, en 1999, pour devenir LexiQuest, à la suite de son rachat par un groupe de Ventures Capitalists, américains et européens. LexiQuest voulait profiter de la bulle internet. Elle a été intégrée au groupe SPSS en 2001 après avoir été lâchée par ses investisseurs et licencié plus de cent personnes, parties pour la plupart exercer leur savoir-faire dans les différentes entreprises du marché. Les plus anciens sont partis avec Bernard Normier pour créer Lingway, qui compte désormais une quinzaine de personnes.


Portrait
Marianne Dabbadie


Après un DEA de linguistique informatique à TALANA (Université de Paris 7), j’ai travaillé pendant deux ans à LexiQuest tout d’abord comme ingénieur qualité puis responsable de l’assurance qualité linguistique.
Après mon départ de LexiQuest à la fin de l’année 2001, j’ai créé LingPro, éditeur de logiciels TAL et mis en place un partenariat technologique avec Memodata, pour la recherche et la commercialisation de leurs produits linguistiques. J’ai également entamé une recherche en Doctorat auprès de l’IDIOT/CESSÂTES (Université de Lille 3). Cette recherche porte sur la recherche d’un méta modèle basé sur la sémantique, pour l’évaluation des logiciels de TAL d’une façon générale et de traduction automatique en particulier.
En mars 2002, nous avons créé EVALING, dont j’assume la présidence. Je suis également membre de l’APIL ainsi que du Conseil d’Administration d’ISKO France.
En 2003, au travers de LingPro j’ai participé avec l’équipe de l’unversité de Lille 3, à la mise en place complète de la 11e Université Européenne d’Eté ELSNET qui avait pour thème l’Apprentissage des Langues Assisté par Ordinateur. Depuis janvier 2003, LingPro participe, avec l’université de Lille 3, à la coordination scientifique de la campagne CESTA (Campagne d’Evaluation des Systèmes de Traduction Automatique) dans le cadre des campagnes EVALDA ainsi qu’à la campagne CESART (Campagne d’Evaluation des Systèmes d’Acquisition de Ressources Terminologiques).
Durant l’été 2003, LingPro a rejoint l’équipe de i-KM, pour constituer l'alliance des méthodologies du KM et de la technologie et du savoir faire du traitement automatique des langues. De plus notre offre technologique s'est complétée par une alliance avec Amoweba pour la veille collaborative et les réseaux d'experts en P2P, ainsi qu’avec Mayetic Village pour la mise en place d’espaces collaboratifs.


La Rédaction

Numéros 2012 | Numéros 2011 | Numéros 2010 | 2009 | Numéro 111 - Janvier/Février 2009 | Numéro 110 - Novembre/Décembre 2008 | Numéro 109 - Septembre Octobre 2008 | Numéro 108 - Juillet/Aout 2008 | Numéro 107 Avril/Mai 2008 | Numéro 105 - Décembre 2007/Janvier 2008 | Numéro 104 - Novembre 2007 | Numéro 106 - Février 2008 | Numéro 103 - Octobre 2007 | Numéro 102 - Mai/Juin 2007 | Numéro 101 - Avril 2007 | Numéro 100 - Mars 2007 | Numéro 99 - Février 2007 | Numéro 98 - Janvier 2007 | numéro 97 - Décembre 2006 | Numéro 96 - Novembre 2006 | Numéro 95 - Aout/Septembre 2006 | Numéro 94 - Juin/Juillet 2006 | Numéro 93 - Mai 2006 | Numéro 92 - Avril 2006 | Numéro 91 - Mars 2006 | Numéro 90 - Février 2006 | Numéro 89 - Décembre/Janvier 2006 | Numéro 88 - Novembre 2005 | Numéro 87 - Octobre 2005 | Numéro 86 - Septembre 2005 | Numéro 85 - Juillet/Aout 2005 | Numéro 84 - Juin 2005 | Numéro 83 - Avril/Mai 2005 | Numéro 83 - Avril/Mai 2005 | Numéro 82 - Mars 2005 | Numéro 80 - Décembre 2004 / Janvier 2005 | Numéro 79 - Novembre 2004 | Numéro 78 - Octobre 2004 | Numéro 77 - Septembre 2004 | Numéro 76 - Juillet/Août 2004 | Numéro 75 - Juin 2004 | Numéro 74 - Mai 2004 | Numéro 73 - Avril 2004 | Numéro 72 - Mars 2004 | Numéro 71 - Février 2004 | Numéro 70 - Décembre 2003 / Janvier 2004 | Numéro 69 - Novembre 2003 | Numéro 68 - Octobre 2003 | Numéro 67 - Septembre 2003 | Numéro 66 - Juillet/Aout 2003 | Numéro 65 - Juin 2003 | Numéro 64 - Mai 2003 | Numéro 63 - Avril 2003 | Numéro 62 - Mars 2003 | Numéro 61 - Février 2003 | Numéro 60 - Décembre/Janvier 2003 | Numéro 59 - Novembre 2002 | Numéro 58 - Octobre 2002 | Numéro 57 - Septembre 2002 | Numéro 51 - Février 2002 | Numéro 50 - Janvier 2002 | Numéro 49 - Novembre 2001 | Numéro 48 - Octobre 2001 | Numéro 47 - Septembre 2001 | Numéro 46 - Juillet-Août 2001 | Numéro 45 - Juin 2001 | Numéro 44 - Mai 2001 | Numéro 43 - Avril 2001 | Numéro 42 - Mars 2001 | Numéro 41 - Février 2001 | Numéro 40 - Décembre/Janvier 2001 | Numéro 39 - Novembre 2000 | Numéro 37 - Septembre 2000 | Numéro 36 - Juillet/Août 2000 | Numéro 35 - Juin 2000 | Numéro 34 - Mai 2000 | Numéro 33 - Avril 2000 | Numéro 32 - Mars 2000 | Numéro 31 - Février 2000 | Numéro 30 - Décembre/Janvier 2000 | Numéro 29 - Novembre 1999 | Numéro 27 - Septembre 1999 | Numéro 26 - Juillet/Août 1999 | Numéro 24 - Mai 1999 | Numéro 28 - Octobre 1999 | Numéro 25 - Juin 1999 | Numéro 23 - Avril 1999 | Numéro 22 - Mars 1999 | Numéro 21 - Février 1999 | Numéro 20 - Décembre/Janvier 1999 | Numéro 19 - Novembre 1998 | Numéro 18 - Octobre 1998 | Numéro 17 - Septembre 1998 | Numéro 16 - Juillet/Août 1998 | Numéro 15 - Juin 1998 | Numéro 14 - Mai 1998 | Numéro 12 - Mars 1998 | Numéro 11 - Février 1998 | Numéro 10 - Janvier 1998 | Numéro 9 - Décembre 1997 | Numéro 8 - Novembre 1997 | Numéro 7 - Octobre 1997 | Numéro 6 - Septembre 1997 | Numéro 5 - Juin/Juillet 1997 | Numéro 4 - Mai 1997 | Numéro 3 - Avril 1997 | Numéro 2 - Mars 1997 | Numéro 1 - Février 1997 | Numéro 0 - 1996 | Numéro 53 - Avril 2002 | Numéro 55 - Juin 2002 | Numéro 56 - Juillet/Août 2002



S'identifier
 

Inscription à la newsletter

Partager ce site