Date du modèle : 27-08-2021
 
 
La détection de langue est une brique fonctionnelle de base utile dans le cadre du TAL. Elle consiste à attribuer une langue à un document en fonction de son contenu.
 
Ce premier traitement est particulièrement utile pour :
L'algorithme et le modèle exploités pour cette démonstration permettent de reconnaître 18 langues : allemand, anglais, bulgare, CORSE, danois, espagnol, finnois, français, grec, hongrois, italien, lituanien, néerlandais, polonais, portugais, roumain, suédois et tchèque.
Une première évaluation de cet outil limité à neuf langues (Kevers et al. 2019) a permis de mesurer sa précision à 99,84%.
Le modèle actuel est une extension de ce premier travail qui permet d'identifier le corse parmi 17 autres langues officielles de l'Union Européenne. La précision a été estimée à 99,71% sur le corpus de test, et 99,10% sur un ensemble de documents issus du corpus DCEP (mais n'incluant pas de textes en corse).
Cette démonstration exploite la librairie ldig. Le code sous licence MIT est disponible sur GitHub.
Un nouveau modèle a été créé afin d'intégrer le corse dans la liste des langues pouvant être reconnues.
Les données d'apprentissage pour les 17 langues autres que le corse sont constituées du corpus Tatoeba (date de téléchargement : 24/05/2021), disponible sous la licence CC BY 2.0 FR.
Les données d'apprentissage pour le corse sont constituées des corpus Wikipedia, A Sacra Bìbbia et A Piazzetta qui représentent environ 2,3 millions de mots. Ces corpus sont disponibles sur la page "ressources".
Le modèle de détection de langue devrait être prochainement mis à disposition.