Généralités

Enseignant Pascal Amsili
Code LYST001, Ancien intitulé "Fouille de Textes"
Lien iCampus https://icampus.univ-paris3.fr/course/view.php?id=32637
Créneau Vendredi 15h30-17h30, salle M205, Nanterre. Premier cours: vendredi 23 septembre.
Organisation « Présentiel intégral »: les effectifs devraient permettre que le cours se tienne en présentiel.
Contenu Partie "fondamentale" : sémantique distributionnelle, un peu d'algèbre linéaire (réduction de dimensionalité, opérations sur les vecteurs...), et plongements lexicaux (de Word2vec à BERT)
Partie "applicative" : tâches de sémantique computationnelle : résolution de coréférences, détection des inférences naturelles (RTE/NLI)
Archives lien vers la page de l'année 2021-2022
lien vers la page de l'année 2020-2021
lien vers la page de l'année 2019-2020 (programme très différent --- et très perturbé)

Contrôles

Modalités Un devoir à rendre chaque semaine pendant 8 6 semaines; 7 5 de ces devoirs sont évalués sur le principe pass/fail; un parmi les 6, au choix de l'étudiant(e), est noté et compte pour 40% de la note (il peut être rendu au bout de 3 semaines). Un projet à rendre en fin de semestre compte pour 60%.
DM n°1
30/09→07/10
Un graphe lexical centré sur le mot/sens de votre choix, comprenant au moins 20 noeuds et 4 types de relations différentes. Sources possibles: wordnet, framenet, etc.
DM n°2
07/10→14/10
À partir des données SimLex-999 téléchargeables ICI, choisir cinq paires de mots concrets ayant une distance supérieure à 9, et cinq paires ayant une distance inférieure à 2. Pour chacune de ces paires, relever les différentes mesures de distance lexicale disponible dans l'implémentation nltk de wordnet. Il faut bien sûr préalablement installer nltk. Le résultat à produire est une table avec les 10 paires en ligne, et en colonne: la distance SimLex-999 et les valeurs obtenues pour les 3 mesures de similarité implémentées dans nltk (path/lch/wup).
DM n°3
14/10→21/10
Construire une matrice Terme-Terme avec des fréquences brutes, en choisissant 5 lemmes qui correspondront à la fois aux lignes et aux colonnes; les fréquences seront obtenues dans le corpus de votre choix (par exemple frWaC). Choisir ensuite deux des lemmes comme formant un espace à deux dimensions, et représenter graphiquement les autres lemmes dans cet espace. Faire la même opération pour trois espaces différents. La représentation graphique peut se faire à la main sur papier quadrillé (on ne cherche pas la précision du dessin), ou en utilisant comme base le petit script python ici.
DM n°4
21/10→28/10
Répliquer le tableau utilisé en cours pour illustrer la ppmi et le lissage, en prenant des données en français (par exemple sur frWaC).
DM n°5
21/10→25/11
Proportionalité avec GloVe
Version courte: Télécharger le code de Glove sur le github de Stanford, et installer la démo (crée 2 index de ~1G chacun). En vous inspirant des data sets de tests disponibles dans eval/question-data, préparer un fichier de quadruplets avec des noms de profession (ex waiter waitress man woman, ou steward stewardess speaker speakrin) comprenant au moins 20 paires, et faire tourner le script de vérification qui détermine un taux de réussite.
Version longue: Idem mais au lieu de faire tourner la demo, faire faire les calculs sur un corpus français et préparer des data sets de test comme ceux de la version anglaise.
DM n°6
21/10→02/12
On cherche à établir la liste des mots dont les représentations GloVe et word2vec sont les plus proches (dans un certain sens). Pour chacun des mots d'une liste initiale, on génère les deux listes des k voisins les plus proches données par GloVe et word2vec (version démo, donc avec des corpus différents). On mesure une distance entre ces deux listes et on ordonne les mots initiaux par cette mesure.
DM n°7
supprimé
DM n°8
supprimé
Mini-projet Comparaison de trois types de vecteurs distributionnels et évaluation qualitative.
On demande de construire des vecteurs distributionnels avec trois types de méthodes: (A) des vecteurs distributionnels épars obtenus par comptage de fréquence en corpus (et normalisation éventuelle); (B) les vecteurs précédent après réduction de dimensionalité; (C) des vecteurs de type word2vec ou fasttext obtenus sur les mêmes corpus.
Pour comparer les espaces vectoriels obtenus, on procéde à une évaluation qualitative: en prenant un choix de 25 mots-cibles comme référence, on va comparer, qualitativement, les k plus proches voisins de chacun de ces mots-cible avec chacun des embeddings (en fixant la distance cosinus).
On demande un petit rapport décrivant le travail accompli, les choix effectués et les difficultés rencontrées; l'évaluation qualitative doit être détaillée dans le rapport, qui devra contenir aussi une discussion sur les leçons tirées de l'évaluation. En annexe on fournira le code (commenté), les données, des traces d'exécution éventuelle. L'article (Pierrejean & Tanguy 2018) peut constituer une source d'inspiration.
Le travail doit être rendu au plus tard le 15 janvier 2023, déposé sur iCampus (avant 23h59). Tout plagiat, aussi minime soit-il, sera réprimé avec la plus grande sévérité.
Résultats notes (consignes)

Séances

2022-09-23 Ch1. Sémantique Distributionnelle
§ 1. Sémantique lexicale
exemplier
2022-09-30 § 1. Sémantique lexicale (suite) à propos de l'antonymie, évocation de l'article: (Mohammad et al, 2013)
2022-10-07 § 1. Sémantique lexicale (fin)
§ 2. Hypothèse distributionnelle
exemplier
exemplier
2022-10-14 § 2. Hypothèse distributionnelle exemplier
2022-10-21 § 2. Hypothèse distributionnelle (fin)
§ 3. Applications
2022-10-28 § 3. Applications (fin) exemplier
2022-11-04 Pas de séance (semaine de break)
2022-11-11 Pas de séance (jour férié)
2022-11-18 § 4. Bases mathématiques exemplier
2022-11-25 § 4. Bases mathématiques (fin)
§ 5. Réduction de dimensionalité
2022-12-02 § 5. Réduction de dimensionalité (suite) exemplier
2022-12-09 § 6. Plongements lexicaux exemplier
2022-12-16 § 6. Plongements lexicaux séance annulée

Pointeurs en lien avec le cours

Pointeurs généraux

  • La revue scientifique (ephémère) « Linguistic Issues in Language Technologies » présente des travaux intéressants portant sur la relation entre linguistique et TAL. Le numéro spécial Interaction of Linguistics and Computationnal Linguistics, paru en 2011, contient un lot d'articles intéressants et toujours d'actualité en grande partie.
  • L'ATALA publie depuis 1960 la revue TAL (Traitement Automatique des Langues), qui est en ligne et en accès libre depuis 2006. Si beaucoup d'articles comportent une certaine dimension technique, on trouve aussi des textes plus accessibles au non spécialiste, que ce soit des articles de synthèse ou des discussions.
  • L'ATALA organise depuis 1994 la conférence TALN qui est un lieu de rencontre de la communauté (essentiellement francophone) du TAL. Les communications à ces conférences sont systématiquement sélectionnées et publiées sous formes d'articles courts de 6 à 12 pages, qui ne sont malheureusement pas encore rassemblés sur un site unique, mais qui sont assez facile à trouver, en particulier pour les dernières années, sur les sites respectifs de chaque édition.
  • Conférences en TAL/NLP les plus importantes.