Mes sujets et projets actuels (2024)

Toute personne (venant du cogmaster, des masters PluriTAL, Humanités Numériques ou Sciences du Langage de Sorbonne Nouvelle, ou d'une autre formation en linguistique ou en TAL) intéressée par un de ces sujet est invitée à me contacter ; le contour précis du sujet, ou même le cadre prévu (durée du stage, niveau du mémoire, voire rémunération) peuvent être modifiés assez largement en fonction des intérêts et des compétences de chacun.

Exploitation d'un corpus annoté pour la négation (en français). Projet L3
Nous disposons d'un corpus français annoté pour la négation, finalisé récemment dans le laboratoire (voir cet article), et envisageons des projets de recherche variés autour de la négation qui reposeront sur ce corpus. Parmi les questions de recherche qui nous intéressent, voici quelques exemples:
  • Dans quelle proportion trouve-t-on dans le contexte immédiat d'une phrase négative une référence à la proposition affirmative correspondante ?
  • Peut-on vérifier, à partir des occurrences des verbes dit à 'neg-raising' (comme croire) que le phénomène est absolument systématique?
  • Peut-on déterminer un lien entre le genre textuel et la proportion d'énoncés négatifs ?
  • Recueil des occurrences de la négation correspondant à un figement (pas mauvais, ou n'importe).
  • etc.
Projet(s) co-encadrés dans certains cas avec Olga Seminck (ingénieure de recherche) ou Hafida Le Cloarec (doctorante).
Keywords: Négation, Linguistique de corpus, traitements statistiques, modélisation

LLMs to simulate grammatical illusions M1 or M2, Cog Sci Master, up to 6~months
Grammatical illusions refer to situations where speakers consistently consider utterances as well-formed under time-pressure whereas those utterances do not belong to their grammar. A sentence like "The password for the computers are on the hard drive" exhibits such an illusion (see, e.g., Gibson & Thomas 99). Large Language Models have been shown to reproduce some but not all documented grammatical illusions. The aim of the internship is both to document in a systematic way the ability of LLMs to simulate grammatical illusions and more importantly to use LLMs as virtual participants to explore the linguistic variables that may play a role in grammatical illusions.
Keywords: LLMs, grammatical illusions, psycholinguistics, good enough parsing, nlp

Extraction et annotation semi-automatique de négations en français dans des corpus oraux Stage de M2 TAL (financé)
séjour de 4 semaines à Stockholm (tbc)
Projet mené en collaboration avec Malin Roitman (Stockholm).
Il s'agit d'extraire de corpus de langue parlée en français (eg. MPF) des occurrences de phrases niées, avec ou sans la particule ne. On s'intéresse plus particulièrement aux discours politiques (mais d'autres domaines peuvent être envisagés), et aux situation de désaccord. Une fois les occurrences extraites, il s'agit de les annoter automatiquement (pour les annotations les plus simples (pos-tags, lemmes, locuteur, sujet pronominal ou non, etc.) et semi-automatiquement pour des informations linguistiques plus difficiles à calculer, comme la relation discursive avec le tour de parole précédent, l'acte de langage, le type de négation, etc.
Ces annotations demandent la mise en place de pipelines adaptés, et de méthodes d'évaluation.

Stages en collaboration avec l'Institut d'Études Avancées: entre 2 et 4 personnes co-encadrées par Antoine Cordelois, consacrés à l'intégration de méthodes de TAL dans différents projets de soutien à la recherche en sciences humaines. Stages de M2 TAL, en binome (financés)
Les sujets suivants peuvent être proposés (et élaborés) en fonction de l'intérêt des étudiants:
  • Evaluation des performances de LLMs (création de datasets, de métriques, etc...) sur différentes tâches comme la recherche d'information, l'inférence légère, Q&A, etc.
  • Pseudonimisation de données personnelles: mesures d'impact et évaluation des performances d'applications.
  • Conception d'une base de données avec des outils de text mining.

Méthodes de classification pour la détection automatique de topiques narratifs Stage de M2 TAL (financement possible)
Stage co-encadré par Yen-Maï Tran-Gervat (CERC) et Olga Seminck (Lattice).
Il s'agit dans ce stage de tirer profit de la SatorBase, base élaborée par la Société d'Analyse de Topique Romanesque (SATOR) qui rassemble des associations validées manuellement entre des passages de littérature et des topoï. La quantité de données de qualité gold est suffisemment importante pour que différentes méthodes de classification puissent être utilisées et évaluées afin de développer de nouvelles méthodes d'identification de topoï narratifs.

Au delà de ces sujets précis qui correspondent à des projets en cours, je m'intéresse aux sujets suivants, n'hésitez pas à me contacter si vous êtes (même vaguement) intéressé(e)s, les thématiques sont volontairement ouvertes pour permettre l'élaboration commune d'une problématique en accord avec vos intérêts et vos compétences:

  • Schémas Winograd (dataset basé sur l'anaphore, pour mettre à l'épreuve les systèmes d'IA)
  • Identificattion automatique et études sur corpus des NPI (Items à Polarité Négative)
  • Mise à l'épreuve en corpus du principe de l'uniformité de la densité informationnelle (UID)
  • Traitement de la négation par les grands modèles de langue (approches comportementales ou analytiques)
  • Présupposition: annotation, traitement automatique, psycholinguistique