Logiciels et Ressources

Naviguer en utilisant le menu

× Modèles de langue Corpus bruts Corpus de parole HTR et OCR Traduction automatique Simplification de textes Lexiques Standardisation Corpus arborés Analyse syntaxique Analyse de surface et étiquetage morphosyntaxique Logiciels industriels Autres corpus annotés

Modèles de langue

CamemBERT

Modèle de langue neuronal du français de type BERT

PAGnol

Modèle de langue neuronal du français de type GPT

GAPeron

Une suite entièrement ouverte de modèles de langue franco-anglais et pour le code, conçue pour faire progresser la transparence et la reproductibilité dans l’entraînement de modèles à grande échelle.

ModernCamemBERT

ModernCamemBERT est un modèle de langue française préentraîné sur un vaste corpus de 1 000 milliards de tokens de textes français de haute qualité. C'est la version française du modèle ModernBERT.

FrELMo

Modèle de langue ELMo pour le français

MRELMo

Modèles de langue ELMo pour 5 langues intermédiaires (bulgare, catalan, danois, finnois, indonésien)

CamemBERTa

Un modèle de language basé sur DeBERTa v3 pour le français

MANTa-LM

Un tokenizer différenciable formé de bout en bout avec le modèle de langage.

CamemBERT-bio-gliner

Modèle de langue neuronal français pour le domaine biomedical de type GLiNER

D'AlemBERT

Modèle de langue neuronal du français moderne de type BERT

CamemBERT-bio

Modèle de langue neuronal français pour le domaine biomedical de type BERT

CharacterBERT-UGC

Un modèle de langue à base de caractère pour l'Arabizi d'Afrique du Nord et le contenu généré par l'utilisateur.

Bloom

Grand modèle de langue multilingue ouvert

CamemBERTav2

Un modèle de langue pré-entraîné français de pointe, basé sur l'architecture DeBERTaV3.

CamemBERTv2

Une nouvelle version mise à jour du modèle de langue pré-entraîné CamemBERT pour le français

Corpus bruts

OSCAR

Très grand corpus multilingue extrait du web

goclassy

Chaîne de traitement asynchrone et parallèle pour la classification de Common Crawl

Ungoliant

Pipeline à hautes performances qui fournit des outils pour créer des pipelines de génération de corpus à partir de CommonCrawl.

mOSCAR

Corpus web multilingue et multimodal (texte-images) à grande échelle

Corpus de parole

SpeechMatrix

Corpus parallèle de parole extrait de VoxPopuli

Expresso

Banc d'essai et d'analyse pour la resynthèse discrète de parole expressive

HTR et OCR

HTR-United

HTR-United est un ecosystème ouvert basé sur Github conçu pour le partage de données d'entraînement pour la transcription automatique de documents manuscrits et imprimés (HTR et OCR)

CATMuS Medieval (Dataset)

Jeu de données diverses et à grande échelle pour la reconnaissance de textes manuscrits dans les manuscrits médiévaux

WikiCremma

Dataset d'entraînement pour l'HTR sur le français contemporain

LADaS

LADaS (Layout Analysis Dataset with SegmOnto) est un ensemble de données diachroniques et diagénériques d'analyses de mise en page (16e-21e siècle).

KaMI-Lib

KaMI-lib est une bibliothèque Python pour l'évaluation des modèles HTR / OCR et indépendante du système de transcription automatique utilisé.

eScriptorium Documentation

Documentation ouverte et collaborative pour eScriptorium

CATMuS Médieval (Modèle)

Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin

HTRomance

Vérité de terrain pour l'entraînement de modèles HTR

eScriptorium

Application web pour la segmentation et transcription manuelles, semi-automatiques et automatiques de documents textuels imprimés ou manuscrits, impliquant la possibilité d'entrainer ou de réutiliser des modèles de transcription

Kraken

Kraken est un logiciel permettant d'entrainer et d'utiliser des modèles de transcription, segmentation et annotation de documents imprimés ou manuscrits, quelque soit la langue.

Traduction automatique

DiscEvalMT

Jeux de test contrastifs pour l'évaluation de phénomènes discursifs pour la traduction automatique pour l'anglais vers le français.

PFSMB

Corpus parallèle de contenu généré par l'utilisateur bruité FR-EN

PMUMT

Corpus parallèle annoté de contenu généré par l'utilisateur bruité FR-EN

DiaBLa

Corpus parallèle de dialogues bilingues anglais-français

SONAR

SONAR (pour Sentence-level multimOdal and laNguage-Agnostic Representations) est un espace de plongement de phrases multilingue et multimodal de taille fixe, avec une gamme complète d'encodeurs et de décodeurs de parole et de texte

T-modules

Une approche du transfert cross-modal zero-shot entre la parole et le texte pour les tâches de traduction

SWELLS

SWELLS permet d’évaluer, de façon contrôlée, la capacité des modèles de langage à assimiler certains aspects d'une langue inconnue au départ d'extraits de livres de grammaire ajoutés à leurs prompts.

ACReFOSC

Génère des jeux de données d'affinage pour l'optimisation de préférence en traduction automatique.

VGAMT

Un modèle de traduction multimodale

CoMMuTE

Un jeu de données contrastif d'évaluation pour la traduction automatique multimodale (texte-image)

RoCS-MT

Jeu d'évaluation pour la robustesse des systèmes de traduction automatique

Simplification de textes

ACCESS

Modèle de Simplification de Textes Controllable

ASSET

EASSE

tseval

Lexiques

WOLF

Wordnet libre du français

Alexina

Lexiques morphologiques (parfois syntaxiques) y compris le Lefff

OFrLex-modifier

Interface en ligne permettant la modification collaborative du lexique OFrLex

EtymDB

Base de données étymologiques extraites du wiktionary

UDLexicons

Ensemble multilingue de lexiques morphologiques

Standardisation

SSK

Corpus arborés

Sequoia corpus

Corpus français avec des annotations de surface et de syntaxe profonde

FQB

Corpus arboré à multiple couches de questions pour le français

FSMB

French social media bank

Narabizi Treebank

Un corpus arboré multi-couche pour le dialecte de l'arabe parlé en Afrique du nord et écrit en script latin.

Analyse syntaxique

FRMG

Méta-grammaire linguistique du français à large couverture

SYNTAX

Générateur d'analyseurs lexicaux et syntaxiques

DyALog

Environnement pour construire des parseurs et programmes tabulés

Mgwiki

Wiki linguistique esentiellement dédié à FRMG

dyalog-sr

Analyseur syntaxique par transition construit au dessus du système DyALog

ELMoLex

Analyseur syntaxique neuronal développé pour la soumission d'ALMAnaCH à la shared task CoNLL-18 d'analyse syntaxique multilingue

Analyse de surface et étiquetage morphosyntaxique

SxPipe

Chaîne de traitement peu profond

GROBID-Dictionaries

Module GROBID pour la restructuration de ressources lexiques numériques et de documents contenant des entrées

GROBID

Bibliothèque pour l'extraction, l'analyse et la restructuration de documents bruts

MElt

Étiqueteur statistique en parties du discours

entity-fishing

Reconnaissance d'entités et désambiguïsation

grobid-medical-report

Module de GROBID pour extraire et restructurer des rapports médicaux à partir de documents PDF en documents XML/TEI

ModFr-norm

Normalisation du français moderne (du 17è siècle)

DESIR-CodeSprint-TrackA-TextMining

Un outil pour extraire des documents scientifiques et visualiser les résultats sur des fichiers PDF en utilisant GROBID.

nerdKid

NerdKid est un outil permettant de regrouper les entités Wikidata en 27 classes (e.g., ANIMAL, LOCATION, MEDIA, PERSON).

CCASS-sim

Outil de détection de similarité des textes de la Cour de Cassation

D'AlemBERT NER

Modèle de reconnaissance d'entités nommées pour le français moderne

D'AlemBERT POS

Étiqueteur en parties de discourse pour le français moderne

ocDI

Modèles d'identification de dialectes occitans

Logiciels industriels

vera

Analyse automatique aux questions ouvertes dans les enquêtes auprès des salariés

Enqi

feats2notes

Génération de commentaires à partir des données structurées

Autres corpus annotés

VerDI project release

Outils de détection d'omissions dans des contenus journalistiques.

FreEM-corpora

Corpus et d'outils pour le français moderne (français du 16è au 18è siècle)

3MT_French Dataset

Corpus Ma Thèse en 180 secondes

Counter dataset

Un ensemble de données pseudonymisé open-source visant à faciliter la recherche sur la détection de la radicalisation avec des annotations NER. C'est le premier ensemble de données multilingue disponible publiquement pour la détection de la radicalisation, rassemblé à partir de diverses sources.

HaSCoSVa

Une collection de tweets en espagnol annotés pour le discours haineux envers les immigrés, issus de deux régions hispanophones différentes.

NeWMe

Un corpus d'exemples annotés de Word Meaning Negotiation (séquences de conversation où les locuteurs discutent du sens des mots) à partir de corpus conversationnels oraux et écrits existants.

SPOT

Une collection de 43,000 commentaires Facebook en français annotés pour la présence de points d'arrêt (intervention critique) face à des posts partageant des articles à valeur épistémique douteuse (URLs signalées pour "fausses informations").

CUBANSPVARIETY

Un jeu de données pour l’identification de la variété de l'espagnol cubain, avec des annotations des exemples communs, développé pour faciliter une détection plus précise des variétés de l'espagnol cubain et caribéen. Il s’agit du premier jeu de données consacré à l’identification de l'espagnol cubain ou de toute autre variété de l'espagnol caribéen.

OcWikiDialects

OcWikiDialects est un corpus issu de Wikipedia en occitan, doté de métadonnées variées, dont des annotations de dialecte.