Généralités

Enseignant Pascal Amsili
Code LYST001, Ancien intitulé "Fouille de Textes"
Lien iCampus https://icampus.univ-paris3.fr/course/view.php?id=13808
Créneau Jeudi 14h30-16h30, salle Rousselot Brunot (ILPGA). Premier cours: jeudi 1er octobre.
Mode d'enseignement « Présentiel intégral »: les effectifs devraient permettre que le cours se tienne en présentiel.
Distanciel intégral: les séances ont lieu avec Zoom (lien sur iCampus); on utilisera aussi un salon textuel Discord (lien sur iCampus).
Ces dispositions (ainsi que la plupart des informations affichées sur cette page) sont susceptibles de changer sans préavis.
Contenu Partie "fondamentale" : sémantique distributionnelle, un peu d'algèbre linéaire (réduction de dimensionalité, opérations sur les vecteurs...), et plongements lexicaux (de Word2vec à BERT)
Partie "applicative" : tâches de sémantique computationnelle : résolution de coréférences, détection des inférences naturelles (RTE/NLI)

Contrôles

Modalités Un TP commencé en séance et à rendre 2 semaines plus tard comptera pour 50% 100% de la note (travail individuel) ; un mini-projet facultatif en groupe à rendre en janvier comptera seulement s'il améliore la note du TP. Les étudiants hors pluriTAL pourront rendre à la place une fiche de lecture sur un article de TAL.
Des bonus de participation pourront s'ajouter.
TP TP en séance: énoncé - à rendre (iCampus) le 8 novembre à minuit
Fiche de lecture hors pluriTAL Une fiche de lecture sur un article portant sur le TAL ou la sémantique computationnelle (100%).
On demande un texte de 5 à 10 pages, dactylographié, qui présente le projet de l'article, sa thèse principale (ou ses principaux résultats), et les arguments employés. Il est important que l'essai soit critique: la démarche critique ne consiste pas à exprimer une opinion à propos du texte (ou de dire s'il nous a plu) mais à tenter de remettre en question autant que possible les affirmations du texte en convoquant d'autres exemples ou d'autres sources. Le travail doit être rendu au plus tard le 17 31 janvier 2021, sous la forme d'un fichier pdf, qui sera déposé sur iCampus. Tout plagiat, aussi minime soit-il, sera réprimé avec la plus grande sévérité.
Mini-projet
  • Le projet consiste à implémenter (ou adapter une implémentation existante) un algorithme de résolution des anaphores pour l'appliquer à un corpus français annoté manuellement en coréférences (Democrat).
  • On demande de réaliser l'implémentation et de mesurer la performance sur une portion du corpus, en produisant les métriques habituelles, en utilisant par exemple les implémentations proposées par Loïc Grobol (scorch).
Liste des groupes
corpus Democrat
à rendre (iCampus) le 17 31 janvier 2021 à minuit.
Résultats notes (instructions)

Séances

2020-10-01 Ch1. Sémantique distributionnelle section 2.3 : diapos empruntées à Jurafsky & Martin
2020-10-08 Ch1. Sémantique distributionnelle (suite) Diapos de support
2020-10-15 Ch1. Sémantique distributionnelle (suite) Diapos de support
2020-10-22 TP en séance énoncé, corpus 1 (82 ktok), corpus 2 (236 ktok),
2020-10-29 Pas de séance
2020-11-05 Séance sur discord: questions sur le TP.  
2020-11-12 Ch2. Plongements lexicaux
Réduction de dimensionalité.
lien Zoom et slides sur iCampus
2020-11-19 Plongements lexicaux lien Zoom sur iCampus.
slides très inspirés du chapitre 6 du manuel de Jurafsky & Martin.
2020-11-26 Ch3. Anaphores et coréférences (Définition, difficultés) exemplier
2020-12-03 Ch3. Anaphores et coréférences (Evaluation, architectures) sur l'évaluation de la résolution de coréférence:
• section 2.3 du mémoire de Q. Gliosca ;
• scorch (implémentation des métriques courantes en coref)
• section 2.4 de la thèse de L. Grobol
2020-12-10 Ch3. Anaphores et coréférences (Evaluation) diapos
2020-12-17 Ch3. Anaphores et coréférences (Algorithmes) tableau souvenir
2020-12-24 Pas de séance (vacances)
2020-12-31 Pas de séance (vacances)
2021-01-07  

Pointeurs

Résolution de coreférences

Implémentations
Articles scientifiques:
Merci de me contacter si les articles ne sont pas disponibles: j'en mettrai un exemplaire sur iCampus.