Présentation au séminaire CLLE-ERSS : De BaTelÒc au TalÒc - Ressources et outils pour le traitement de langues dites "peu dotées"

25. février 2016
Von 14.00 Uhr bis 16.00 Uhr
Toulouse, France

Présentation par Marianne Vergez-Couret, Université de Toulouse, CLLE-ERSS

Résumé :

Dans cette présentation, je souhaite faire le bilan de 3 années passées au sein de projets ayant eu pour objectif le développement de ressources et d'outils pour l'occitan. Je commencerai par présenter le projet BaTelÒc, dirigé par Myriam Bras. BaTelÒc est une base de textes d'environ 3 millions de mots (84 œuvres d'une quarantaine d'auteurs), sur une période allant du XIXème au XXIème siècle, représentant des genres variés (contes, poésies, romans, nouvelles, mémoires) et relevant de plusieurs dialectes et de plusieurs graphies. Les textes sont intégrés dans une base dotée d'une interface, développée par Franck Sajous, qui propose plusieurs outils de consultation que je présenterai (Bras & Thomas, 2011 ; Bras & Vergez-Couret, 2015).

La constitution de BaTelÒc a fait surgir deux besoins qui ont orienté mes travaux dans le domaine du traitement automatique des langues. D'une part, la matière disponible pour augmenter la base de textes est abondante mais pas toujours disponible au format numérique. Un des objectifs visés est donc la numérisation et l'océrisation d'une partie de cette matière. D'autre part, l'évolution normale d'une base de textes est le passage de textes nus à des textes annotés. Un des objectifs visés est donc l'enrichissement de ces textes avec des annotations linguistiques, en l'occurrence des annotations morphosyntaxiques. Ces annotations, dans le dispositif de la base de textes présentée ci-dessus, permettront de nouveaux modes de consultation des contextes d'emploi, par exemple la recherche de toutes les formes fléchies d'un verbe à partir de son lemme.

Je présenterai la mise en œuvre de ces deux objectifs, qui s'est déroulée au sein du projet RESTAURE (projet ANR 2015-2019). Ce projet concerne la constitution de ressources et d'outils pour trois langues, qui ont toutes la particularité de manquer de ressources numériques : l'alsacien, l'occitan et le picard. La recherche en traitement automatique pour ces trois langues soulève des questions communes et nouvelles sur le traitement de la variation que nous tenterons de problématiser et d'exemplifier. Je présenterai les choix qui ont été fait dans le projet pour se doter d'une méthodologie commune, comme par exemple l'utilisation d'algorithmes par apprentissage (qui cherchent à apprendre des règles générales à partir d'exemples particuliers) pour le développement de l'OCR (Urieli & Vergez-Couret, 2013 ; Vergez-Couret et al., 2015) et de l'analyseur morphosyntaxique (Vergez-Couret & Urieli 2014 ; Vergez-Couret & Urieli, 2015).

Bibliographie

  • Bras, M., Thomas, J. (2011). 'Batelòc : cap a una basa informatisada de tèxtes occitans'. In A. Rieger (ed.) L'Occitanie invitée de l'Euregio. Liège 1981 - Aix-la-Chapelle 2008 Bilan et perspectives, Actes du IXème Congrès International de l'AIEO, Aache, Shaker.
  • Bras, M., Vergez-Couret, M. (2015). 'BaTelÒc: a Text Base for the Occitan Language', Eds V. Ferreira, P. Bouda, Language Documentation and Conservation in Europe. Language Documentation & Conservation, Special Publication No. 9.
  • Urieli, A., Vergez-Couret M. (2013). 'Jochre, océrisation par apprentissage automatique : Etude comparée sur le yiddish et l'occitan', Eds E. Morin, Y. Estève Actes de la conférence TALN-RECITAL 2013 Volume 3 : Ateliers (Les Sables d'Olonne: Université de Nantes), 221-234.
  • Vergez-Couret, M., Urieli, A. (2014). 'POS-tagging different varieties of Occitan with single-dialect ressources', Eds M. Zampieri, L. Tan, N. Ljubešić, J. Tiedemann, Proceedings of the First Workshop on Applying NLP Tools to Similar Languages, Varieties and Dialects, Eds. (Dublin: Association for Computational Linguistics and Dublin City University), 21-29.
  • Vergez-Couret, M., Urieli, A. (2015). 'Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan', Actes de l'atelier Traitement Automatique des Langues Régionales de France et d'Europe (TALaRE'2015), Caen (France), 1-11.
  • Vergez-Couret, M., Bernhard, D., Urieli, A., Bras, M., Erhart, P., Huck, D. (2015). 'Numérisation et océrisation de textes pour les langues régionales : regards croisés sur l'occitan et l'alsacien', Actes du 10e colloque international ISKO France, Systèmes d'organisation des connaissances et humanités numériques, Nov 2015, Strasbourg, France.