Mes sujets et projets actuels (2024)
Toute personne (venant du cogmaster, des masters PluriTAL, Humanités Numériques ou Sciences du Langage de Sorbonne Nouvelle, ou d'une autre formation en linguistique ou en TAL) intéressée par un de ces sujet est invitée à me contacter ; le contour précis du sujet, ou même le cadre prévu (durée du stage, niveau du mémoire, voire rémunération) peuvent être modifiés assez largement en fonction des intérêts et des compétences de chacun.
Exploitation d'un corpus annoté pour la négation (en français). | Projet L3 |
Nous disposons d'un corpus français annoté pour la négation, finalisé récemment dans le laboratoire
(voir cet article), et envisageons des
projets de recherche variés autour de la négation qui reposeront sur ce corpus. Parmi les questions
de recherche qui nous intéressent, voici quelques exemples:
Keywords: Négation, Linguistique de corpus, traitements statistiques, modélisation |
LLMs to simulate grammatical illusions | M1 or M2, Cog Sci Master, up to 6~months |
Grammatical illusions refer to situations where speakers consistently consider utterances as
well-formed under time-pressure whereas those utterances do not belong to their grammar. A
sentence like "The password for the computers are on the hard drive" exhibits such an illusion
(see,
e.g., Gibson
& Thomas 99). Large Language Models have been shown to reproduce some but not all documented
grammatical illusions. The aim of the internship is both to document in a systematic way the
ability of LLMs to simulate grammatical illusions and more importantly to use LLMs as virtual
participants to explore the linguistic variables that may play a role in grammatical illusions.
Keywords: LLMs, grammatical illusions, psycholinguistics, good enough parsing, nlp |
Extraction et annotation semi-automatique de négations en français dans des corpus oraux |
Stage de M2 TAL (financé)
séjour de 4 semaines à Stockholm (tbc) |
Projet mené en collaboration avec Malin
Roitman (Stockholm).
Il s'agit d'extraire de corpus de langue parlée en français (eg. MPF) des occurrences de phrases niées, avec ou sans la particule ne. On s'intéresse plus particulièrement aux discours politiques (mais d'autres domaines peuvent être envisagés), et aux situation de désaccord. Une fois les occurrences extraites, il s'agit de les annoter automatiquement (pour les annotations les plus simples (pos-tags, lemmes, locuteur, sujet pronominal ou non, etc.) et semi-automatiquement pour des informations linguistiques plus difficiles à calculer, comme la relation discursive avec le tour de parole précédent, l'acte de langage, le type de négation, etc. Ces annotations demandent la mise en place de pipelines adaptés, et de méthodes d'évaluation. |
Stages en collaboration avec l'Institut d'Études Avancées: entre 2 et 4 personnes co-encadrées par Antoine Cordelois, consacrés à l'intégration de méthodes de TAL dans différents projets de soutien à la recherche en sciences humaines. | Stages de M2 TAL, en binome (financés) |
Les sujets suivants peuvent être proposés (et élaborés) en fonction de l'intérêt des étudiants:
|
Méthodes de classification pour la détection automatique de topiques narratifs | Stage de M2 TAL (financement possible) |
Stage co-encadré par Yen-Maï
Tran-Gervat (CERC) et Olga Seminck (Lattice). Il s'agit dans ce stage de tirer profit de la SatorBase, base élaborée par la Société d'Analyse de Topique Romanesque (SATOR) qui rassemble des associations validées manuellement entre des passages de littérature et des topoï. La quantité de données de qualité gold est suffisemment importante pour que différentes méthodes de classification puissent être utilisées et évaluées afin de développer de nouvelles méthodes d'identification de topoï narratifs. |
Au delà de ces sujets précis qui correspondent à des projets en cours, je m'intéresse aux sujets suivants, n'hésitez pas à me contacter si vous êtes (même vaguement) intéressé(e)s, les thématiques sont volontairement ouvertes pour permettre l'élaboration commune d'une problématique en accord avec vos intérêts et vos compétences:
- Schémas Winograd (dataset basé sur l'anaphore, pour mettre à l'épreuve les systèmes d'IA)
- Identificattion automatique et études sur corpus des NPI (Items à Polarité Négative)
- Mise à l'épreuve en corpus du principe de l'uniformité de la densité informationnelle (UID)
- Traitement de la négation par les grands modèles de langue (approches comportementales ou analytiques)
- Présupposition: annotation, traitement automatique, psycholinguistique