Projets informatique de licence (LI015) et maîtrise (LI036), 2000-2001

Ressources


Lexiques

Dictionnaires de formes fléchies

Dictionnaires fléchis du Français : il existe un bon dictionnaire téléchargeable ici (300 000 formes, env. 10 Mo). Un plus petit dictionnaire, avec beaucoup de « trous », est accessible ici sous forme d'un fichier tar compressé (600 Ko). Les deux dictionnaires sont organisés sous la forme de 26 fichiers.

Sur le site mentionné plus haut, on trouve aussi divers dictionnaires de noms propres.

Un lexique de formes fléchies (325k formes) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Lexique étiqueté

Le lexique téléchargeable de l'ABU propose des étiquettes morphosyntaxiques.

Corpus

Corpus étiqueté

Premier texte (10000 mots, domaine télécommunication/spatial) : formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Second texte (50000 mots, domaine journalistique, étiqueté correctement) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Troisieme texte (50000 mots, domaine journalistique, étiqueté automatiquement sans correction manuelle des étiquettes) : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Corpus étiqueté et lemmatisé

50000 mots du domaine journalistique, étiqueté correctement, avec les lemmes et sans les composés : formats dos, iso8859-1 (Unix et Win), et mac. Jeu d´étiquettes un peu différent : cf. fichier d'explications

Corpus techniques (avec sigles)

Lectures : Vous pouvez jeter un oeil au numéro spécial sur les sigles de la revue LINX (Université de Nanterre), n° 30, 1994. Disponible à la biliothèque de l'UFRL. Il y a aussi un numéro de Que-sais-je ?

Les textes techniques suivants ont été choisi pour le nombre important de sigles qui y figuraient. Le premier est la concaténation de divers textes techniques, accessible au format dos, iso8859-1 (Unix et Win), et mac. Vous pouvez aussi utiliser le texte suivant, plus gros, mais qui contient des instructions de formatage nroff. Il est accessible au format dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Corpus journalistique (pour complétion)

Extrait du corpus « Le Monde » comme point de départ.
Formats dos, iso8859-1 (Unix et Win), et mac. À sauvegarder au format original (source) et non pas au format texte.

Travaillez avec de petits extraits de ce corpus de 200 Ko (env. 32 000 mots).

Corpus littéraires

Pourquoi ne pas puiser dans les fables de la Fontaine ? Ou encore, dans "La curée" d'Emile Zola ( format iso8859-1, format dos format mac), où le vocabulaire est très riche... (Attention, fichier de 645238o, environ 108398 « mots ». Prenez-en des extraits). Voici encore "Madame Bovary" de Gustave Flaubert (format iso8859-1, format dos format mac)

Outils

Editeur de graphes

Vous pouvez utiliser l'éditeur de graphes du LADL : FSGraph pour construire des automates. Pourquoi ne pas utiliser le visualiseur de graphes daVinci pour afficher les automates que votre programme construit. Une documentation sur daVinci est disponible ici
  Mon May 14, 2001 Ma maison-page