La collecte et la mise à disposition de corpus se situe bien souvent parmi les premières priorités pour le traitement des langues peu dotées.
Nous proposons ci-dessous un ensemble de corpus en langue corse, présentant des contenus textuels les plus "propres" possibles, et diffusés sous une licence permettant leur traitement dans le cadre du TAL (la licence est cependant parfois limitée aux applications non-commerciales).
Bien que ces corpus soient principalement en langue corse, il est tout à fait possible que certains documents contiennent des passages exprimés en d'autres langues. Actuellement, il n'y a pas de balisage particulier de ces zones.
Ces corpus sont proposés dans un format XML qui intègre des métadonnées (informations sur la source des documents, la licence, etc.)
Titre : Wikipedia, enciclopedia libara in lingua corsa : a XML TEI Corpus
Oeuvre originale des contributeurs de Wikipedia; Compilée et encodée au format TEI par Laurent Kevers
Version corse de la célèbre encyclopédie collaborative en ligne (https://co.wikipedia.org).
Seules les pages de contenu ont été conservées, et celles-ci ont été nettoyées des codes "wiki".
Titre : A Sacra Bìbbia : a XML TEI Corpus
Oeuvre (traduction) originale de Christian Dubois; Compilée et encodée au format TEI par Laurent Kevers
Reprend les 66 livres de l'ancien et du nouveau Testament. Document original sur https://dico-bible-corse.fr
Les divisions en livres, chapitres et versets on été conservées.
Télécharger (V.1.3)
Titre : A Piazzetta, giurnale in lingua corsa : a XML TEI Corpus
Oeuvre originale de Associu Lingua Scritta; Compilée et encodée au format TEI par Laurent Kevers
Infurmazione corsa, azizume è scherzui; blog in lingua corsa
Journal/blog en ligne (https://www.apiazzetta.com)