Démonstration de la détection de langue

Introduction des données à analyser

Date du modèle : 27-08-2021

 

Introduisez un texte de votre choix dans l'aire de saisie ou sélectionnez une langue dans la liste déroulante pour utiliser un texte par défaut (le préambule de la déclaration universelle des droits de l'homme).

Réinitialiser

 

En savoir plus

La détection de langue est une brique fonctionnelle de base utile dans le cadre du TAL. Elle consiste à attribuer une langue à un document en fonction de son contenu.

 

Ce premier traitement est particulièrement utile pour :

  • 1. Pouvoir utiliser des ressources et des outils spécialisés pour la langue du document analysé, ce qui est capital pour obtenir des résultats corrects.
  • 2. Constituer des corpus de textes homogènes par rapport à une langue déterminée, ce qui est entre autres nécessaire pour mettre en oeuvre des méthodes d'apprentissage artificiel.

L'algorithme et le modèle exploités pour cette démonstration permettent de reconnaître 18 langues : allemand, anglais, bulgare, CORSE, danois, espagnol, finnois, français, grec, hongrois, italien, lituanien, néerlandais, polonais, portugais, roumain, suédois et tchèque.

Une première évaluation de cet outil limité à neuf langues (Kevers et al. 2019) a permis de mesurer sa précision à 99,84%.

Le modèle actuel est une extension de ce premier travail qui permet d'identifier le corse parmi 17 autres langues officielles de l'Union Européenne. La précision a été estimée à 99,71% sur le corpus de test, et 99,10% sur un ensemble de documents issus du corpus DCEP (mais n'incluant pas de textes en corse).

Logiciel

Cette démonstration exploite la librairie ldig. Le code sous licence MIT est disponible sur GitHub.

Modèle

Un nouveau modèle a été créé afin d'intégrer le corse dans la liste des langues pouvant être reconnues.

Les données d'apprentissage pour les 17 langues autres que le corse sont constituées du corpus Tatoeba (date de téléchargement : 24/05/2021), disponible sous la licence CC BY 2.0 FR.

Les données d'apprentissage pour le corse sont constituées des corpus Wikipedia, A Sacra Bìbbia et A Piazzetta qui représentent environ 2,3 millions de mots. Ces corpus sont disponibles sur la page "ressources".

Le modèle de détection de langue devrait être prochainement mis à disposition.