Projets informatique de licence (LI015) et maîtrise (LI036), 2002-2003

Ressources


Lexiques/dictionnaires

Dictionnaires de formes fléchies

Dictionnaires fléchis du Français : il existe un assez bon dictionnaire téléchargeable sur ABU (300 000 formes, env. 10 Mo). Vous pouvez aussi en trouver une copie dans ce répertoire. Ce dictionnaire comprend aussi les lemmes et étiquettes, il est organisé sous forme de 26 fichiers. Attention : certaines formes sont difficiles à trouver. Par exemple, les formes fléchies de ``aller'', comme va, se trouvent dans le fichier a.

Un dictionnaire plus petit (env. 100k formes), avec beaucoup de « trous », est accessible ici sous forme d'un fichier tar compressé (600 Ko). Ce dictionnaire est organisé aussi en 26 fichiers, il est accompagné de programmes en C d'exploitation du dictionnaire.

Encore un lexique de formes fléchies (325k formes, 3,5 Mo, un seul fichier) (merci à Lionel Clément) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Sur le site de l'ABU mentionné plus haut, on trouve aussi divers dictionnaires spécifiques (noms propres, communes...).

Lexique étiqueté

Le lexique téléchargeable de l'ABU comprend des étiquettes morphosyntaxiques.

Définitions

Voici un aperçu d'un extrait d'un dictionnaire technique simplifié. Il a environ 100 000 définitions, mais n'a pas une couverture cohérente (tous les mots entrant dans une définition n'ont pas eux-même une définition). Demander le fichier complet à Pascal Amsili.

Corpus

Corpus étiqueté

Premier texte (10000 mots, domaine télécommunications/spatial) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Second texte (50000 mots, domaine journalistique, étiqueté correctement) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Troisième texte (50000 mots, domaine journalistique, étiqueté automatiquement sans correction manuelle des étiquettes) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Corpus étiqueté et lemmatisé

50000 mots du domaine journalistique, étiqueté correctement, avec les lemmes et sans les composés : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Corpus étiqueté (étiquettes ABU) mais sans désambiguïsation (plusieurs étiquettes par graphie). Format iso8859-1

Corpus techniques (avec sigles)

Lectures : Vous pouvez jeter un oeil au numéro spécial sur les sigles de la revue LINX (Université de Nanterre), n° 30, 1994. Disponible à la biliothèque de l'UFRL. Il y a aussi un numéro de Que-sais-je ?

Les textes techniques suivants ont été choisi pour le nombre important de sigles qui y figuraient. Le premier est la concaténation de divers textes techniques, accessible au format dos, iso8859-1 (Unix et Win), et mac. Vous pouvez aussi utiliser le texte suivant, plus gros, mais qui contient des instructions de formatage nroff. Il est accessible au format dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Corpus journalistique (pour complétion)

Extrait du corpus « Le Monde » comme point de départ.
Formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Travaillez avec de petits extraits de ce corpus de 200 Ko (env. 32 000 mots).

Corpus littéraires

Pourquoi ne pas puiser dans les fables de la Fontaine ? Ou encore, dans "La curée" d'Emile Zola ( format iso8859-1, format dos format mac), où le vocabulaire est très riche... (Attention, fichier de 645238o, environ 108398 « mots ». Prenez-en des extraits). Voici encore "Madame Bovary" de Gustave Flaubert (format iso8859-1, format dos format mac).
L'ABU vous fournira d'autres ressources si celles-ci ne vous conviennent pas.

Outils

Editeur de graphes

Vous pouvez utiliser l'éditeur de graphes du LADL : FSGraph pour construire des automates. Pourquoi ne pas utiliser le visualiseur de graphes daVinci pour afficher les automates que votre programme construit. Une documentation sur daVinci est disponible ici

 

 

 

 

 

 

 

 


http://www.linguist.jussieu.fr/~amsili/Ens03/Ressources.html ven jan 24, 2003 Ma maison-page