Corpus

La collecte et la mise à disposition de corpus se situe bien souvent parmi les premières priorités pour le traitement des langues peu dotées.

Nous proposons ci-dessous un ensemble de corpus en langue corse, présentant des contenus textuels les plus "propres" possibles, et diffusés sous une licence permettant leur traitement dans le cadre du TAL (la licence est cependant parfois limitée aux applications non-commerciales).

Bien que ces corpus soient principalement en langue corse, il est tout à fait possible que certains documents contiennent des passages exprimés en d'autres langues. Actuellement, il n'y a pas de balisage particulier de ces zones.

Ces corpus sont proposés dans un format XML qui intègre des métadonnées (informations sur la source des documents, la licence, etc.)

Wikipedia

Titre : Wikipedia, enciclopedia libara in lingua corsa : a XML TEI Corpus

Oeuvre originale des contributeurs de Wikipedia; Compilée et encodée au format TEI par Laurent Kevers

Version corse de la célèbre encyclopédie collaborative en ligne (https://co.wikipedia.org).

Seules les pages de contenu ont été conservées, et celles-ci ont été nettoyées des codes "wiki".

Télécharger

Date de mise en ligne : 27-11-2019
Date des données : Dump wikipedia du 20-10-2019
Taille : >919K mots
Format : XML TEI P5
Licence : CC BY-SA 3.0

La Bible

Titre : A Sacra Bìbbia : a XML TEI Corpus

Oeuvre (traduction) originale de Christian Dubois; Compilée et encodée au format TEI par Laurent Kevers

Reprend les 66 livres de l'ancien et du nouveau Testament. Document original sur https://dico-bible-corse.fr

Les divisions en livres, chapitres et versets on été conservées.

Télécharger (V.1.3)

Date de mise en ligne : V.1.3 - 15/06/2020 (V.1.0 : 27-11-2019)
Date des données : Révision par le traducteur en 2017 et améliorations ponctuelles qui en ont découlé
Taille : >771K mots
Format : XML TEI P5
Licence : CC BY-NC-SA 4.0

A Piazzetta

Titre : A Piazzetta, giurnale in lingua corsa : a XML TEI Corpus

Oeuvre originale de Associu Lingua Scritta; Compilée et encodée au format TEI par Laurent Kevers

Infurmazione corsa, azizume è scherzui; blog in lingua corsa

Journal/blog en ligne (https://www.apiazzetta.com)

Télécharger

Date de mise en ligne : 27-11-2019
Date des données : Articles publiés entre décembre 2010 et septembre 2019
Taille : >504K mots
Format : XML TEI P5
Licence : CC BY-NC-SA 4.0

Ressources disponibles

Wikipedia

La Bible

A Piazzetta