Outils pour utilisateurs

Outils du site


offres_stages

Offres de stage 2018/2019

Ces stages sont offerts préférentiellement aux étudiants de l'UFR de linguistique, mais les étudiants inscrits dans d'autres établissement peuvent toutefois postuler. Merci de contacter directement les responsables indiqués pour chaque projet (voir l'annuaire). La liste pour 2018-19 est en cours de mise à jour.

Pour mémoire: Offres de stage 2017/2018, Offres de stage 2016/2017, Offres de stage 2015/2016

Les stages déjà pourvus figurent dans la liste mais sont rayés.

NR = Non Rémunéré ; GR = Gratification Réglementaire

Thème Type, durée, rémunération Encadrement et labo
Agrégation de corpus : L'objectif du stage est de rédiger un script, de préférence Python ou Perl, permettant de récupérer les informations structurées dans un fichier XML de métadonnées afin de les réinjecter dans le fichier de transcription au format Transcriber préalablement converti au format XML-TEI. À noter que l'outil de conversion permettant de convertir les données au format XML-TEI existe déjà (cf. http://ct3.ortolang.fr/teiconvert/). Ce travail permettra d'enrichir l'agrégation en cours des principaux corpus d'acquisition du français langue maternelle disponibles (actuellement 8,5M de tokens). Les précédents corpus agrégés ne posaient pas ce type de problème en raison de la présence des métadonnées en en-tête des fichiers de transcription. À terme, l'ensemble des corpus agrégés pourront être interrogées avec un outil libre de textométrie (TXM, cf. http://textometrie.ens-lyon.fr/).
En fonction du script réalisé par le ou la stagiaire retenue, celui-ci pourra être intégré, avec autorisation préalable de la personne retenue, à l'outil de conversion (avec bien évidemment citation de la personne auteure du script). Celui-ci sera alors diffusé à la communauté via Ortolang (cf. https://www.ortolang.fr/market/tools/teicorpo) sous licence libre (BSD 2-Clause License).
Prérequis : connaissance du XML, bonne maîtrise d'un langage parmi Python, Perl et XSLT | L3 ou M1 ; stage de 35h non rémunéré | Loïc Liégeois (LLF et CLILLAC-ARP), cf. http://www.llf.cnrs.fr/fr/Gens/Liegeois
Transcription de corpus oraux (quatre stagiaires maximum): découverte et prise en main d'un logiciel de transcription et d'annotation de données linguistiques (ELAN) ; transcription d'interactions enregistrées en milieu scolaire (école maternelle) à l'aide de micros portés par les enfants et les enseignants ; si stage de recherche de M1, analyse des données enfantines ou du discours enseignant (sujet de recherche à définir en amont). Le stage sera effectué dans le cadre du projet ANR DyLNet. Pour plus d'informations, cf. https://dylnet.univ-grenoble-alpes.fr/espace-recherche | L3 ou M1 ; stage de 35h non rémunéré ; possibilité de poursuivre le stage sur un ou deux mois en étant rémunéré. | Loïc Liégeois (LLF et CLILLAC-ARP), cf. http://www.llf.cnrs.fr/fr/Gens/Liegeois
Annotation des “questions en discussion” et de la structure informationnelle d'un corpus écrit ou oral.
Descriptif: Il s’agira d’annoter (manuellement) un petit texte écrit, ou une transcription d'un texte oral, par rapport à sa structure discursive, en suivant attentivement des consignes écrites en anglais. Le noyau de l’annotation consiste à trouver la “question en discussion” - question implicite, supposée - qui précède chaque énoncé du texte. Pour faire l'annotation au mieux, il faudra surtout bien comprendre le sens du texte et le but communicatif de son auteur.
Compétences requises: L'annotateur doit être locuteur natif ou presque natif de la langue du texte. Le texte à annoter peut être en français, italien ou anglais. Aucune connaissance spécifique n’est demandée, à l’exception de quelques notions syntaxiques de base. Consignes d'annotation: Riester, Brunetti et de Kuthy 2018.
M1, M2, NR Lisa Brunetti (LLF)
Stages en sémantique ou en psycholinguistique (présupposition, quantificateurs proportionnels, études sur corpus, etc.).
Voir détails sur cette page
M1 LTE, NR Pascal Amsili (LLF)
SIGN-HUB:
1) Elaboration des résultats de la validation de trois tests visant à mesurer les compétences lexicales de locuteurs sourds.
Compétences requises: excel.
Compétences acquises: apprendre comment fonctionne la mise en place d’un test standardisé ; les différentes phases et les enjeux de sa validation ; l’utilisation du logiciel / plateforme pour les expériences Qualtrics.
2) Aide à la mise en place du matériel visuel pour des test d’évaluation des compétences syntaxiques.
Compétences requises: logiciel de traitement des images ; la LSF est un atout.
Compétences acquises: apprendre comment fonctionne la mise en place d’un test syntaxique ; les différentes phases et les enjeux de sa validation ; l’utilisation du logiciel / plateforme pour les expériences Qualtrics.
3) Aide à l’administration de tests d’évaluation des compétences langagières chez les sourds.
Compétences requises: bon niveau de LSF.
Compétences acquises: apprendre à administrer un test standardisé ; élaboration des résultats ; évaluation des enjeux.
L3, M1, M2, GR Caterina Donati (LLF)
Self paced reading 1:
1) (aide à la) sélection des items et mise en place d’une expérience de self paced reading sur les structures en ce que (relatives / interrogatives) du français sur la plateforme Ibexfarm
2) (aide à la) réalisation de l’expérience.
3) collaboration à l’élaboration des résultats
Compétences requises: français langue maternelle.
Compétences acquises: construire et conduire une expérience de self paced reading ; utilisation d’un logiciel / plateforme pour les expériences Ibex Farm ; évaluation des enjeux ; traitement des résultats.
Self paced reading 2:
1) (aide à la) mise en place d’une expérience de self paced reading sur des structures en ce que (relatives / complétives) du français sur la plateforme Ibexfarm
2) (aide à la) réalisation de l’expérience
3) collaboration à l’élaboration des résultats.
Compétences requises: aucune.
Compétences acquises: construire et conduire une expérience de self paced reading ; utilisation du logiciel / plateforme pour les expériences Ibex Farm ; évaluation des enjeux ; traitement des résultats.
L3, M1, M2, NR Caterina Donati (LLF)
Stages en sémantique et pragmatique sur des sujets tels que les quantificateurs, les structures distributives et proportionnelles, ou la structure argumentale des verbes. Il s'agira d'études théoriques, bibliographiques et sur corpus. L3 et M1, NR Lucia Tovena (LLF)
Préparation de corpus et d'outils pour reconnaissance et synthèse de la parole. Dans le cadre d'un évènement qui s'organise pour la fin de l'année 2018 (le Zero Resource Speech Challenge 2019: http://sapience.dec.ens.fr/bootphon/), un stage rémunéré est disponible immédiatement pour participer à la construction des jeux de données à partir des corpus existants. De bonnes compétences en Python sont requises. De l'expérience avec des corpus oraux serait un atout. Compétences acquises: de l'expérience avec des outils de reconnaissance et de synthèse de la parole, et de l'expérience dans l'organisation d'un évènement international dans le domaine du traitement automatique de la parole et de l'acquisition du langage. L3 LI, M1 LI, GR Ewan Dunbar et Emmanuel Dupoux (LLF et LSCP, équipe CoML: www.syntheticlearner.net)
Annotation de corpus oral pour reconnaissance et synthèse de la parole. Dans le cadre d'un évènement qui s'organise pour la fin de l'année 2018 (le Zero Resource Speech Challenge 2019: http://sapience.dec.ens.fr/bootphon/), un stage rémunéré est disponible immédiatement pour l'annotation d'un grand corpus oral. De bonnes connaissances de la phonétique sont requises. Compétences acquises: de l'expérience avec des corpus oraux, et de l'expérience dans l'organisation d'un évènement international dans le domaine du traitement automatique de la parole et de l'acquisition du langage.L3, GR Ewan Dunbar et Emmanuel Dupoux (LLF et LSCP, équipe CoML: www.syntheticlearner.net)
Le but de ce stage est d’initier les étudiants aux méthodes expérimentales, et plus spécifiquement le paradigme visuel, qui utilisent l’oculométrie (eye tracking).
Le stagiaire apprendra à utiliser le système.
En tant que stagiaire, il sera amené à:
- trouver et contacter des sujets volontaires pour participer à des études de eye tracking ;
- recueillir des données avec le système de eye tracking.
Aucune compétence ou connaissance préalable requise.
Pour plus d’infos contacter Giusy Turco.
L3, M1, M2, NR Giusy Turco (LLF) gturco[at]linguist.univ-paris-diderot.fr
Préparation de la Grande Grammaire du Français
Dans le cadre de la publication d’un ouvrage de référence majeur aux Editions Actes Sud, un stage rémunéré est disponible à partir de janvier afin de travailler sur les références bibliographiques et les exemples extraits de corpus écrits et oraux.
Compétences requises: français langue maternelle
L3, M1, GR Anne Abeillé (LLF) abeille[at]linguist.univ-paris-diderot.fr
Le but de ce stage est d’initier les étudiants à l’analyse acoustique d’un son en utilisant le logiciel Praat.
En particulier, le stagiaire sera amené à:
recruter des locuteurs pour une experience de production linguistique
effectuer les enregistrements dans la salle d’expérimentation
identifier les caractéristiques temporelles et spectrales du signal en fonction de la question de recherche
apprendre à utiliser le logiciel Praat pour la segmentation, l’annotation et l'extraction des informations acoustiques.
Aucune compétence ou connaissance préalable n’est requise.
Pour plus d’infos contacter Giusy Turco (gturco[at]linguist.univ-paris-diderot.fr) ou Ioana Chitoran (chitoran.ioana[at]gmail.com)
L3, M1, M2, NR Giusy Turco (LLF), Ioana Chitoran (Clillac-Arp)
Analyse acoustique de parole continue
Ce stage porte sur l'analyse des paramètres acoustiques de la consonne latérale /l/ telle qu'elle est actualisée dans l'article défini -(u)l en roumain (e.g. omul 'l'homme'). Le travail de stage consistera en l'analyse acoustique d'un sous-ensemble de mots avec un /l/ réalisé, selon le système de reconnaissance vocale, comparé à un sous-ensemble de mots pour lesquels /l/ n'a pas été détecté par le système de reconnaissance vocale. Des paramètres tels que la durée, les formants, l’interaction avec le contexte (réalisation acoustique de la voyelle /u/ précédente et du contexte droit) devront être estimés. Le corpus mis à disposition de l'étudiant(e) consiste en environ 2300 occurrences de noms masculins, articulés avec l'article défini. Ce corpus a bénéficié d'un alignement son/texte effectué avec un système de reconnaissance vocale dédié au roumain. Le travail s'intégrera dans un projet plus ample dédié à l'étude de la variation et de la réduction temporelle en parole continue.
Compétences requises : Praat, scripts Praat, Rstudio.
Pour plus d’infos contacter Ioana Vasilescu - (ioana[at]limsi.fr) ou Ioana Chitoran (chitoran.ioana[at]gmail.com)
L3, M1, M2, NR Ioana Chitoran; Ioana Vasilescu (LIMSI)
Transcription et annotation d'un corpus oral. Aide à compléter la transcription, l'annotation et la mise en ligne d'un corpus de narrations orales en anglais, espagnol, italien, catalan: https://parles.upf.edu/llocs/nocando/recordings-corpus. La connaissance d'au moins une de ces langues est requise. L3, M1, M2, NR Lisa Brunetti (LLF) http://www.llf.cnrs.fr/fr/Gens/Brunetti
offres_stages.txt · Dernière modification: 2019/05/09 14:28 par lliegeois