Amsili: projets actuels et sujet de stage/mémoire

My research topics (to be updated, Fall 2021)

My research domains belong for one part to the field of formal semantics, and bear mostly on presupposition, and less importantly on implicatures, negation, tense and aspect; for a second part to the field of nlp, or, more properly, of computational linguistics: the tasks I'm interested in comprise anaphora/coreference resolution, entailment recognition (RTE), and more recently semantic parsing; finaly for a third part to the field of cognitive sciences, mostly with works in cognitive computationnal modelling and in psycholinguistics.

Present projects

New methods in coreference resolution
Winograd schemas (with Olga Seminck and many interns)
Negation and compositionality in Distributional Semantics (in part with Marie Candito)
Negation in formal semantics and psycholinguistics
Obligatory presuppositions (in part with Claire Beyssade and Grégoire Winterstein)

Internships/mémoire topics

Toute personne (venant du cogmaster, des masters PluriTAL, Humanités Numériques ou Sciences du Langage de Sorbonne Nouvelle, ou d'une autre formation en linguistique ou en TAL) intéressée par un de ces sujet est invitée à me contacter ; le contour précis du sujet, ou même le cadre prévu (durée du stage, niveau du mémoire, voire rémunération) peuvent être modifiés assez largement en fonction des intérêts et des compétences de chacun.

Typologie des schémas Winograd

Stage de M1 SdL ou mini-stage cogmaster
Analyse linguistique, éventuellement montage d'expériences d'acceptabilité

Les schémas Winograd ont été inventés comme des tests d'intelligence artificielle. Il s'agit de phrases comportant un pronom dont l'antécédent est évident pour la quasi-totalité des humains, mais très difficile à résoudre pour un système automatique. Pour garantir qu'aucun indice linguistique ne pourrait guider la résolution, les phrases vont par paire: deux versions identiques à une expression près, de sorte que cette simple différence modifie l'antécédent (naturel) du pronom.
Exemple: Nicolas n'a pas pu porter son fils parce qu'il est trop [faible/lourd].
L'objectif du travail est de proposer, à partir des collections d'exemples existantes (voir quelques pointeurs sur cette page), une typologie des phénomènes linguistiques qui sont à la source de la difficulté des differents items (cela peut relever des relations de discours, de stricte sémantique lexicale, de connaissance du monde, de présupposition, etc.). Une inspiration peut être trouvée dans la (très succincte) étude qu'on trouve à la fin de cet article. Une fois cette typologie établie, on peut envisager de mettre en place une batterie d'expériences de jugement d'acceptabilité pour déterminer à quel point les différents types de shémas Winograd sont « faciles ».

Informations complémentaires: collection Winograd en anglais, collection française, article en français

Résolution de schémas Winograd par IR

Mémoire de M2 TAL

Voir plus haut pour la description des schémas Winograd.
Le projet consiste à répliquer pour le français une méthode de résolution des schémas Winograd récemment publiée par Emami et co-auteurs qui comprend trois étapes: (1) la génération de requêtes à partir d'une analyse de l'item Winograd; (2) l'acquisition de connaissances avec des techniques d'IR; (3) du raisonnement sur les données acquises.

Informations complémentaires: collection Winograd en anglais, collection française, article d'Emami et co-auteurs

Enrichissement sémantique de représentations pour la résolution de coréférence

Mémoire de M2 TAL

Les systèmes actuels de résolution de coréférence basés sur de l'apprentissage machine (profond ou pas) utilisent des traits linguistiques surfaciques ou au mieux distributionnels. L'idée de ce travail est de chercher à enrichir les représentations lexicales utilisées avec des informations relevant de la sémantique lexicale ou des connaissances du monde pour tenter d'obtenir un gain significatif dans cette tâche où les performances restent limitées.
Mémoire co-encadré avec Pascal Denis.

Etude psycholinguistique de la compétition entre formes de la négation.

PIR, stage de L3

La négation s'exprime en français au moyen de l'adverbe pas (éventuellement accompagné de ne) placé dans le groupe verbal. Mais lorsqu'on veut nier des propositions complexes (si A alors B, ou A parce que B) on est obligé de recourir à une négation plus périphrastique (il n'est pas vrai que, ce n'est pas (le cas) etc.) On va étudier dans ce projet l'effet interprétatif de la disponibilité de ces différents moyens pour lever certains ambiguïtés, par exemple dans il n'est pas vrai que Pierre se fâche si Marie le gronde.

Tests de validité et amélioration du corpus OntoNotes

Stage de M1 LI (au moins 2 mois) rémunéré ; stage de M2 LI.
Manipulation automatique de corpus, analyse d'erreur, application méthodes de machine learning

Le corpus OntoNotes est un grand corpus multilingue (principalement anglais) annoté pour la coréférence. Largement utilisé par la communauté, il sert de référence pour la plupart des travaux sur la résolution automatique des coréférences. Pourtant il contient des erreurs assez nombreuses, et dont certaines, assez systématiques, pourraient être corrigées de façon semi-automatique. Les chercheurs en TAL ne font pas ces corrections car alors leurs résultats ne sont plus comparables à ceux qui ont été publiés dans la littérature.
Le but de ce projet est de repérer, et de corriger, un nombre significatif d'erreurs du corpus OntoNotes, et de mesurer l'impact de ces corrections en reproduisant les différents algorithmes récemment publiés (voir par exemple la liste des travaux listés dans la table 1 de l'article (Lee et al. 2017)). L'objectif est de fournir à la communauté une baseline modernisée.

Informations complémentaires: Ontonote description ; (Lee et al. 2017) ; mémoire de M2 de Quentin Gliosca.

Présupposition obligatoire et gradation

Mémoire de M1 LTE ou mini-stage M1 cogmaster.
Travail (psycho-)linguistique

Expériences (questionnaires) pour vérifier le caractère gradable de l'obligation d'utiliser l'adverbe additif aussi dans des coordinations, selon la fonction syntaxique occupée par le topic contrastif (Fred vs Bill dans (1)). Il s'agit de vérifier expérimentalement l'intuition de Kaplan (1984) selon lequel too est bien plus obligatoire dans (1) que dans (2).
  (1) Jo showed the book to Fred and she showed it to Bill ( too / * 0)
  (2) a. Jo has lived in Philadelphia, and she has lived in San Diego ( too / 0 )
       b. Jo sneezes because she has fever and she sneezes because she's nervous ( too / 0 )

Informations complémentaires: article de Kaplan (me demander s'il n'est pas accessible) ; Description détaillée ; (Amsili, Ellsiepen, Winterstein 2015) ; (Amsili 2016).

Présuppositions obligatoires : expériences de production	Mémoire de M1 LTE ou mini-stage M1 cogmaster. Travail (psycho-)linguistique
Expériences psycholinguistiques (questionnaires, production induite, lecture auto-segmentée, eye-tracking) visant à mieux délimiter le domaine empirique des présuppositions obligatoires (voir ce papier), avec le projet à terme de faire des propositions théoriques étayées par des expériences. Une source d'inspiration à dépasser.

Recherche en corpus des multiples lectures des proportionnels

Mémoire de M1 LTE
Sémantique formelle, analyse de données sur corpus

Les déterminants quantificationnels beaucoup et un peu sont employés de toutes sortes de manières. On trouve une lecture absolue Tu as mis beaucoup de sucre qui s'interprète en relation avec une quantité contextuellement déterminée (beaucoup de sucre dans une tasse de café ne représente pas forcément beaucoup de sucre dans la préparation d'un gâteau) et beaucoup de lectures proportionnelles qui se distinguent les unes des autres par le choix des proportions qui servent de référence. Par exemple, quand on dit beaucoup de scandinaves ont eu le prix Nobel on utilise implicitement les autres nations ou groupes de nation comme référence. De même, on peut dire beaucoup de lycéens ont eu le bac une année où le taux de réussite est très faible, mais la démographie importante, ou au contraire une année où la démographie est banale mais le taux de réussite élevé.
L'objectif de ce mémoire est d'une part de caractériser formellement avec le plus de rigueur possible les différentes lectures que l'on rencontre de ces déterminants (voir comme illustration les deux première pages de ce corrigé); puis d'essayer d'en caractériser les conditions d'apparition, et enfin de faire des recherches sur corpus pour tenter d'évaluer la distribution de chacune de ces lectures.

Alternance de mode subjonctif/indicatif	Mémoire de M1 ou M2 LTE ; mini-stage M1 cogmaster Annotations et utilisation de modèles linéaires
Etude de l'alternance entre les deux modes dans divers contextes (p.ex. Je ne crois pas que Jean vient/vienne): établissement des données empiriques par des méthodes expérimentales (voir ce papier); mesure de l'influence respectives des différents facteurs par regression linéaire sur des corpus annotés. Méthode: voir cet article de Bresnan qui sert de modèle à la démarche.

Recueil d'items à polarité négative en corpus (et typologie)

Stage de L3 (LI ou LTE).
Extraction et annotation de données sur corpus

À partir d'une liste d'items à polarité négative (NPI, par exemple lever le petit doigt, du tout, de la nuit, quoi que ce soit...), collecte d'occurrences de ces items dans le but de disposer d'exemples de contextes de légitimation (les NPI peuvent apparaître sous différents types de négation, mais aussi dans l'antécédent de conditionnelles, dans la restriction de proposition universelles, etc).
L'objectif est de disposer d'assez de données pour procéder à une typologie à l'intérieur de la classe des NPI, basée sur les types de contextes légitimants, dans l'esprit de ce qui est fait dans (Hoeksema, 2012).

Informations complémentaires: (Hoeksema 2012) ; Quelques exemples perdus dans un vieux poly

RTE + présuppositions/implicatures

Mémoire de M2; voire sujet de thèse

Objectif: amélioration de l'état de l'art sur la tâche RTE (recognizing textual entailmment) par une meilleure prise en compte des présuppositions et/ou des implicatures dans le calcul. La tâche RTE est normalisée dans la communauté TAL. Il s'agit de la détection d'une relation d'inférence naturelle entre un texte et un fragment textuel qui en découle, qu'on appelle l'hypothèse (voir cette page pour plus de détail sur la tâche).

L'idée du projet serait de s'inspirer de la méthode suivie par B. MacCartney et ses collègues de Stanford, en ajoutant des features spécifiques à la présupposition.

Projets de recherche actuels

My research topics (to be updated, Fall 2021)

Present projects

Internships/mémoire topics