Logiciels et Ressources
Naviguer en utilisant le menu
Modèles de langue
CamemBERT
Modèle de langue neuronal du français de type BERT
PAGnol
Modèle de langue neuronal du français de type GPT
GAPeron
Une suite entièrement ouverte de modèles de langue franco-anglais et pour le code, conçue pour faire progresser la transparence et la reproductibilité dans l’entraînement de modèles à grande échelle.
ModernCamemBERT
ModernCamemBERT est un modèle de langue française préentraîné sur un vaste corpus de 1 000 milliards de tokens de textes français de haute qualité. C'est la version française du modèle ModernBERT.
FrELMo
Modèle de langue ELMo pour le français
MRELMo
Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)
CamemBERTa
Un modèle de language basé sur DeBERTa v3 pour le français
MANTa-LM
Un tokenizer différenciable formé de bout en bout avec le modèle de langage.
CamemBERT-bio-gliner
Modèle de langue neuronal français pour le domaine biomedical de type GLiNER
D'AlemBERT
Modèle de langue neuronal du français moderne de type BERT
CamemBERT-bio
Modèle de langue neuronal français pour le domaine biomedical de type BERT
CharacterBERT-UGC
Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.
Bloom
Grand modèle de langue multilingue ouvert
CamemBERTav2
Un modèle de langue pré-entraîné français de pointe, basé sur l'architecture DeBERTaV3.
CamemBERTv2
Une nouvelle version mise à jour du modèle de langue pré-entraîné CamemBERT pour le français
Corpus bruts
OSCAR
Très grand corpus multilingue extrait du web
goclassy
Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl
Ungoliant
Pipeline à hautes performances qui fournit des outils pour créer des pipelines de génération de corpus à partir de CommonCrawl.
mOSCAR
Corpus web multilingue et multimodal (texte-images) à grande échelle
Corpus de parole
SpeechMatrix
Corpus parallèle de parole extrait de VoxPopuli
Expresso
Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive
HTR et OCR
HTR-United
HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)
CATMuS Medieval (Dataset)
Jeu de données diverses et à grande échelle pour la reconnaissance de textes manuscrits dans les manuscrits médiévaux
WikiCremma
Dataset d'entraînement pour l'HTR sur le français contemporain
LADaS
LADaS (Layout Analysis Dataset with SegmOnto) est un ensemble de données diachroniques et diagénériques d'analyses de mise en page (16e-21e siècle).
KaMI-Lib
KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.
eScriptorium Documentation
Documentation ouverte et collaborative pour eScriptorium
CATMuS Médieval (Modèle)
Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin
HTRomance
Vérité de terrain pour l'entraînement de modèles HTR
eScriptorium
Application web pour la segmentation et transcription manuelles, semi-automatiques et automatiques de documents textuels imprimés ou manuscrits, impliquant la possibilité d'entrainer ou de réutiliser des modèles de transcription
Kraken
Kraken est un logiciel permettant d'entrainer et d'utiliser des modèles de transcription, segmentation et annotation de documents imprimés ou manuscrits, quelque soit la langue.
Traduction automatique
DiscEvalMT
Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.
PFSMB
Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN
PMUMT
Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN
DiaBLa
Corpus parallèle de dialogues bilingues anglais-français
SONAR
SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte
T-modules
Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction
SWELLS
SWELLS permet d’évaluer, de façon contrôlée, la capacité des modèles de langage à assimiler certains aspects d'une langue inconnue au départ d'extraits de livres de grammaire ajoutés à leurs prompts.
ACReFOSC
Génère des jeux de données d'affinage pour l'optimisation de préférence en traduction automatique.
VGAMT
Un modèle de traduction multimodale
CoMMuTE
Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)
RoCS-MT
Jeu d'évaluation pour la robustesse des systèmes de traduction automatique
Simplification de textes
ACCESS
Modèle de Simplification de Textes Controllable
Lexiques
WOLF
Wordnet libre du français
Alexina
Lexiques morphologiques (parfois syntaxiques) y compris le Lefff
OFrLex-modifier
Interface en ligne permettant la modification collaborative du lexique OFrLex
EtymDB
Base de données étymologiques extraites du wiktionary
UDLexicons
Ensemble multilingue de lexiques morphologiques
Standardisation
Corpus arborés
Sequoia corpus
Corpus français avec des annotations de surface et de syntaxe profonde
FQB
Corpus arboré à multiple couches de questions pour le français
FSMB
French social media bank
Narabizi Treebank
Un corpus arboré multi-couche pour le dialecte de l'arabe parlé en Afrique du nord et écrit en script latin.
Analyse syntaxique
FRMG
Méta-grammaire linguistique du français à large couverture
SYNTAX
Générateur d'analyseurs lexicaux et syntaxiques
DyALog
Environnement pour construire des parseurs et programmes tabulés
Mgwiki
Wiki linguistique esentiellement dédié à FRMG
dyalog-sr
Analyseur syntaxique par transition construit au dessus du système DyALog
ELMoLex
Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue
Analyse de surface et étiquetage morphosyntaxique
SxPipe
Chaîne de traitement peu profond
GROBID-Dictionaries
Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées
GROBID
Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts
MElt
Étiqueteur statistique en parties du discours
entity-fishing
Reconnaissance d'entités et désambiguïsation
grobid-medical-report
Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI
ModFr-norm
Normalisation du français moderne (du 17è siècle)
DESIR-CodeSprint-TrackA-TextMining
Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.
nerdKid
NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).
CCASS-sim
Outil de détection de similarité des textes de la Cour de Cassation
D'AlemBERT NER
Modèle de reconnaissance d'entités nommées pour le français moderne
D'AlemBERT POS
Étiqueteur en parties de discourse pour le français moderne
ocDI
Modèles d'identification de dialectes occitans
Logiciels industriels
vera
Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés
feats2notes
Génération de commentaires à partir des données structurées
Autres corpus annotés
VerDI project release
Outils de détection d'omissions dans des contenus journalistiques.
FreEM-corpora
Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)
3MT_French Dataset
Corpus Ma Thèse en 180 secondes
Counter dataset
Un ensemble de données pseudonymisé open-source visant à faciliter la recherche sur la détection de la radicalisation avec des annotations NER. C'est le premier ensemble de données multilingue disponible publiquement pour la détection de la radicalisation, rassemblé à partir de diverses sources.
HaSCoSVa
Une collection de tweets en espagnol annotés pour le discours haineux envers les immigrés, issus de deux régions hispanophones différentes.
NeWMe
Un corpus d'exemples annotés de Word Meaning Negotiation (séquences de conversation où les locuteurs discutent du sens des mots) à partir de corpus conversationnels oraux et écrits existants.
SPOT
Une collection de 43,000 commentaires Facebook en français annotés pour la présence de points d'arrêt (intervention critique) face à des posts partageant des articles à valeur épistémique douteuse (URLs signalées pour "fausses informations").
CUBANSPVARIETY
Un jeu de données pour l’identification de la variété de l'espagnol cubain, avec des annotations des exemples communs, développé pour faciliter une détection plus précise des variétés de l'espagnol cubain et caribéen. Il s’agit du premier jeu de données consacré à l’identification de l'espagnol cubain ou de toute autre variété de l'espagnol caribéen.
OcWikiDialects
OcWikiDialects est un corpus issu de Wikipedia en occitan, doté de métadonnées variées, dont des annotations de dialecte.