My research topics

My research domains belong for one part to the field of formal semantics, and bear mostly on presupposition, and less importantly on implicatures, negation, tense and aspect; for a second part to the field of nlp, or, more properly, of computational linguistics: the tasks I'm interested in comprise anaphora/coreference resolution, entailment recognition (RTE), and more recently semantic parsing; finaly for a third part to the field of cognitive sciences, mostly with works in cognitive computationnal modelling and in psycholinguistics.

Present projects

  • Obligatory presuppositions (in part with Claire Beyssade and Grégoire Winterstein)
  • Implicatures, antipresupposition: the epistemic step
  • Corpus approaches to negation
  • New methods in coreference resolution
  • Cognitive modelling of anaphora resolution (with Olga Seminck)
  • Winograd schemas (with Olga Seminck and many interns)
  • Semantic parsing (with Marie Candito and Benoît Crabbé)

Internships/mémoire topics

Annotation d'erreurs de traduction discursives Stage de L3 (LTE ou LI) ; 2 semaines ; début d'année scolaire ; 2 stagiaires en parallèle
Analyse linguistique, mesure d'accord interannotateur
Le stage consiste à annoter un corpus comprenant un texte original et sa traduction par un système automatique. L'annotation consiste à repérer les erreurs de traduction, et à distinguer parmi celles-ci les erreurs liées à la non prise en compte du contexte discursif. Idéalement, on pourra aller jusqu'à proposer une typologie de ces "erreurs discursives". L'objectif du stage est que les deux stagiaires travaillent en parallèle (sans se concerter) sur les mêmes données, afin de mesurer la robustesse des jugements d'erreur.
C'est donc un stage exploratoire, dont un des objectifs serait de poser les bases d'une typologie des erreurs de traduction.
Stage co-encadré par Quentin Gliosca.

Enrichissement sémantique de représentations pour la résolution de coréférence Mémoire de M2 LI
Les systèmes actuels de résolution de coréférence basés sur de l'apprentissage machine (profond ou pas) utilisent des traits linguistiques surfaciques ou au mieux distributionnels. L'idée de ce travail est de chercher à enrichir les représentations lexicales utilisées avec des informations relevant de la sémantique lexicale ou des connaissances du monde pour tenter d'obtenir un gain significatif dans cette tâche où les performances restent limitées.
Mémoire co-encadré avec Pascal Denis.

Typologie des schémas Winograd Stage de M1 LTE ou cogmaster
Analyse linguistique, éventuellement montage d'expériences d'acceptabilité
Les schémas Winograd ont été inventés comme des tests d'intelligence artificielle. Il s'agit de phrases comportant un pronom dont l'antécédent est évident pour la quasi-totalité des humains, mais très difficile à résoudre pour un système automatique. Pour garantir la présence d'aucun indice linguistique qui pourrait guider la résolution, les phrases vont par deux versions identiques à un mot près, mais telles que ce simple mot de différence modifie l'antécédent du pronom.
Exemple: Nicolas n'a pas pu porter son fils parce qu'il est trop [faible/lourd].
L'objectif du mémoire est de proposer, à partir des collections d'exemples existantes (voir quelques pointeurs sur cette page), une typologie des phénomènes linguistiques qui sont à la source de la difficulté des differents items (cela peut relever des relations de discours, de stricte sémantique lexicale, de connaissance du monde, de présupposition, etc.). Une inspiration peut être trouvée dans la (très succincte) étude qu'on trouve à la fin de cet article. Une fois cette typologie établie, on peut envisager de mettre en place une batterie d'expériences de jugement d'acceptabilité pour déterminer à quel point les différents types de shémas Winograd sont « faciles ».
Informations complémentaires: collection Winograd en anglais, collection française, article en français

Résolution de schémas Winograd par IR Mémoire de M2 LI
Voir plus haut pour la description des schémas Winograd.
Le projet consiste à répliquer pour le français une méthode de résolution des schémas Winograd récemment publiée par Emami et co-auteurs qui comprend trois étapes: (1) la génération de requêtes à partir d'une analyse de l'item Winograd; (2) l'acquisition de connaissances avec des techniques d'IR; (3) du raisonnement sur les données acquises
Informations complémentaires: collection Winograd en anglais, collection française, article d'Emami et co-auteurs

Recherche en corpus des multiples lectures des proportionnels Mémoire de M1 LTE
Sémantique formelle, analyse de données sur corpus
Les déterminants quantificationnels beaucoup et un peu sont employés de toutes sortes de manières. On trouve une lecture absolue Tu as mis beaucoup de sucre qui s'interprète en relation avec une quantité contextuellement déterminée (beaucoup de sucre dans une tasse de café ne représente pas forcément beaucoup de sucre dans la préparation d'un gâteau) et beaucoup de lectures proportionnelles qui se distinguent les unes des autres par le choix des proportions qui servent de référence. Par exemple, quand on dit beaucoup de scandinaves ont eu le prix Nobel on utilise implicitement les autres nations ou groupes de nation comme référence. De même, on peut dire beaucoup de lycéens ont eu le bac une année où le taux de réussite est très faible, mais la démographie importante, ou au contraire une année où la démographie est banale mais le taux de réussite élevé.
L'objectif de ce mémoire est d'une part de caractériser formellement avec le plus de rigueur possible les différentes lectures que l'on rencontre de ces déterminants (voir comme illustration les deux première pages de ce corrigé); puis d'essayer d'en caractériser les conditions d'apparition, et enfin de faire des recherches sur corpus pour tenter d'évaluer la distribution de chacune de ces lectures.

Tests de validité et amélioration du corpus OntoNotes Stage de M1 LI (au moins 2 mois) rémunéré ; stage de M2 LI.
Manipulation automatique de corpus, analyse d'erreur, application méthodes de machine learning
Le corpus OntoNotes est un grand corpus multilingue (principalement anglais) annoté pour la coréférence. Largement utilisé par la communauté, il sert de référence pour la plupart des travaux sur la résolution automatique des coréférences. Pourtant il contient des erreurs assez nombreuses, et dont certaines, assez systématiques, pourraient être corrigées de façon semi-automatique. Les chercheurs en TAL ne font pas ces corrections car alors leurs résultats ne sont plus comparables à ceux qui ont été publiés dans la littérature.
Le but de ce projet est de repérer, et de corriger, un nombre significatif d'erreurs du corpus OntoNotes, et de mesurer l'impact de ces corrections en reproduisant les différents algorithmes récemment publiés (voir par exemple la liste des travaux listés dans la table 1 de l'article (Lee et al. 2017)). L'objectif est de fournir à la communauté une baseline modernisée.
Informations complémentaires: Ontonote description ; (Lee et al. 2017) ; mémoire de M2 de Quentin Gliosca.

Présupposition obligatoire et gradation Mémoire de M1 LTE ou mini-stage M1 cogmaster.
Travail (psycho-)linguistique
Expériences (questionnaires) pour vérifier le caractère gradable de l'obligation d'utiliser l'adverbe additif aussi dans des coordinations, selon la fonction syntaxique occupée par le topic contrastif (Fred vs Bill dans (1)). Il s'agit de vérifier expérimentalement l'intuition de Kaplan (1984) selon lequel too est bien plus obligatoire dans (1) que dans (2).
  (1) Jo showed the book to Fred and she showed it to Bill ( too / * 0)
  (2) a. Jo has lived in Philadelphia, and she has lived in San Diego ( too / 0 )
       b. Jo sneezes because she has fever and she sneezes because she's nervous ( too / 0 )
Informations complémentaires: article de Kaplan (me demander s'il n'est pas accessible) ; Description détaillée ; (Amsili, Ellsiepen, Winterstein 2015) ; (Amsili 2016).

Recueil d'items à polarité négative en corpus (et typologie) Stage de L3 (LI ou LTE).
Extraction et annotation de données sur corpus
À partir d'une liste d'items à polarité négative (NPI, par exemple lever le petit doigt, du tout, de la nuit, quoi que ce soit...), collecte d'occurrences de ces items dans le but de disposer d'exemples de contextes de légitimation (les NPI peuvent apparaître sous différents types de négation, mais aussi dans l'antécédent de conditionnelles, dans la restriction de proposition universelles, etc).
L'objectif est de disposer d'assez de données pour procéder à une typologie à l'intérieur de la classe des NPI, basée sur les types de contextes légitimants, dans l'esprit de ce qui est fait dans (Hoeksema, 2012).
Informations complémentaires: (Hoeksema 2012) ; Quelques exemples perdus dans un vieux poly

Présuppositions obligatoires : expériences de production Mémoire de M1 LTE ou mini-stage M1 cogmaster.
Travail (psycho-)linguistique
Expériences psycholinguistiques (questionnaires, production induite, lecture auto-segmentée, eye-tracking) visant à mieux délimiter le domaine empirique des présuppositions obligatoires (voir ce papier), avec le projet à terme de faire des propositions théoriques étayées par des expériences.

Une source d'inspiration à dépasser.

Alternance de mode subjonctif/indicatif Mémoire de M1 ou M2 LTE ; mini-stage M1 cogmaster
Annotations et utilisation de modèles linéaires
Etude de l'alternance entre les deux modes dans divers contextes (p.ex. Je ne crois pas que Jean vient/vienne): établissement des données empiriques par des méthodes expérimentales (voir ce papier); mesure de l'influence respectives des différents facteurs par regression linéaire sur des corpus annotés. Méthode: voir cet article de Bresnan qui sert de modèle à la démarche.

RTE + présuppositions/implicatures Mémoire de M2; voire sujet de thèse
Objectif: amélioration de l'état de l'art sur la tâche RTE (recognizing textual entailmment) par une meilleure prise en compte des présuppositions et/ou des implicatures dans le calcul. La tâche RTE est normalisée dans la communauté TAL. Il s'agit de la détection d'une relation d'inférence naturelle entre un texte et un fragment textuel qui en découle, qu'on appelle l'hypothèse (voir cette page pour plus de détail sur la tâche).
L'idée du projet serait de s'inspirer de la méthode suivie par B. MacCartney et ses collègues de Stanford, en ajoutant des features spécifiques à la présupposition.

Tout étudiant (venant d'un master de linguistique à Paris Diderot, du cogmaster, ou d'une autre formation en linguistique ou en TAL) intéressé par un de ces sujet est invité à me contacter ; le contour précis du sujet, ou même le cadre prévu (durée du stage, niveau du mémoire, voire rémunération) peuvent être modifiés assez largement en fonction des intérêts et des compétences de chacun.