Outils pour utilisateurs

Outils du site


talisman

Association TALisman: l'association des étudiants du cursus LI de Paris Diderot-Paris 7

Association

Ouverture du nouveau site de TALisman

Le nouveau site de l'association TALisman a ouvert ses portes le 17 avril 2011, avec de nombreuses modifications à venir. Nous sommes heureux de pouvoir vous accueillir à nouveau sur un site complètement refondu avec des mises à jour que nous espérons plus régulières.

Pour l'heure, le contenu du site est loin d'être exhaustif, mais nous travaillons d'arrache-pied à venir le remplir d'informations pertinentes. En attendant, vous pouvez vous promener à travers les pages déjà disponibles.

Cursus LI

Master 1

Quand on ne vient pas de la L3 du cursus de Linguistique Informatique, il n'est pas impossible d'entrée directement en Master 1 via une préparation et un certain investissement dont il s'agit de discuter ici. En effet, le cursus LI de Paris 7 propose un concours d'entrée en M1 à ceux qui souhaiteraient intégrer le parcours.

Quels sont les pré-requis ?

Tout d'abord, sachez qu'il existe déjà une rubrique en rapport avec le sujet sur la page du cursus LI. La bibliographie est sans doute un peu désuète et les attentes sont peut-être à revoir, mais tout cela ne nous concerne pas réellement, car ce que nous voulons ici, c'est vous faire part d'avis de gens qui sont rentrés directement en Master 1 et qui veulent donner quelques conseils aux nouveaux arrivants.

Pour entrer directement en Master 1, sans avoir suivi la L3, il faudra connaître un minimum de choses, tant du côté linguistique (syntaxe, phonétique, sémantique formelle, morphologie) que du côté informatique (algorithmique et programmation). Quoique ce descriptif puisse en effrayer plus d'un, il ne s'agit pas de devenir en quelques mois un génie de linguistique ni même de la programmation informatique, mais d'avoir acquis les bases nécessaires pour se permettre de suivre correctement le cursus.

Algorithmique et programmation

En algorithmique, il vous faudra maîtriser les structures de données de base telles que :

  • Les listes chaînées ;
  • Les piles ;
  • Les files ;
  • ( Les Arbres binaire de recherche (AVL) )

D'autre part, il sera nécessaire d'avoir une bonne idée de certains algorithmiques classiques, notamment les algorithmes de tri :

  • Tri par insertion ;
  • Tri par fusion ;
  • Tri rapide ;

Même s'il existe beaucoup d'algorithmes pour trier des données, il n'est pas obligatoire de tous les connaître, mais en maîtriser deux ou trois peut être utile. Enfin, une connaissance de base de la notion de complexité est indispensable. La bibliographie sur cette page ne donne pas de livres d'algorithmique en particulier, car les exemples de tous les concepts cités se trouvent facilement sur le net et sont souvent bien expliqués. De plus, vous pourrez trouver un lien vers les pages de cours de L3 sur le sujet.

En programmation informatique, il sera important de maîtriser les bases de la programmation impérative :

  • Variables et affectation ;
  • Boucles ;
  • Structures conditionnelles ;
  • Fonctions
  • Typage

et celles de la programmation orientée objet :

  • Classes ;
  • Constructeurs ;
  • (héritage) ;

Pour vous aider au premier semestre, on ne saura que trop vous recommander de commencer en apprenant le langage Java qui est impératif et orienté objet et qui donne une bonne base pour la suite.

Phonétique

Il vous faudra connaître les bases de la phonation et de l'audition : le mécanisme de la production et de la perception des phénomènes sonores en général et de la parole en particulier.

Enfin, la connaissance de l'alphabet phonétique internationale (API) restreint au Français est indispensable.

Syntaxe (formelle)

Les concepts à connaître sont les suivants :

  • But et objet de la linguistique ;
  • Acceptabilité / grammaticalité / interprétabilité ;
  • Distinction performance / compétence ;
  • Phonème, morphème, mot, constituant (syntagme), catégorie morpo-syntaxique, fonction grammaticale

En ce qui concerne les grammaires génératives, les concepts suivants sont à connaître :

  • Modèle X-barre ;
  • Modèle du « Gouvernement et Liage »

Sémantique

En sémantique lexicale :

  • Relations d'hyponymie / hyperonymie, antonymie, synonymie ;
  • Rôles thématiques ;
  • Anaphores ;
  • Présupposition

Pour aller plus loin !

Si les indications ci-dessus ne vous sont pas utiles, car vous avez déjà de bonnes connaissances dans l'un ou l'autre des domaines à considérer, vous pouvez tenter de vous avancer un peu pour être plus à l'aise durant le Master 1, notamment au second semestre.

Il vous sera utile de connaître un minimum de probabilités, surtout les axiomes des probabilités et le principe de dénombrement (permutations, arrangements, combinaisons, …). En ce qui concerne la syntaxe, vous pouvez aller voir ce qui concerne les grammaires d'unification (LFG ou HPSG), ce qui vous sera utile pour les cours de Nouvelles théories syntaxiques du second semestre. Pour ce faire, le livre d'Anne Abeillé, référencé dans la bibliographie, vous sera d'une grande aide (chapitre 1 et 2 tout particulièrement). Enfin, il vous est possible de vous renseigner sur la théorie des automates en langages formels (Automates à nombre fini d'états, automates déterministes, …)

Toutes ces informations, même si elles restent utiles, ne sont pas nécessaires pour l'entrée en Master 1. Elles sont présentées à titre indicatif et ne seront étudiées qu'au second semestre.

FAQ

Q : Il y a tellement de choses à voir, est-ce possible d'y arriver en peu de temps ?

R : Le programme semble chargé, mais ce n'est pas impossible d'y arriver. Il y a en fait certains cas de figure à examiner : Si vous n'avez aucune connaissances ni en linguistique, ni en informatique et qu'il vous semble difficile de travailler par vous-même pour y arriver, peut-être est-il préférable de commencer par la L3 du cursus pour vous familiariser correctement avec le domaine du TAL et commencer l'année suivante en Master1. Evidemment, on ne saura que trop vous conseiller de tenter quand même de passer le concours d'entrée. Vous n'avez rien à perdre. Si vous le réussissez, alors vous pourrez aller en Master 1, sinon vous retournerez automatiquement en Licence 3. Le jeu en vaut la chandelle.

Si vous avez des connaissances dans l'un ou l'autre des domaines, alors vous pourrez vous focaliser plus facilement sur le domaine où vous êtes le moins bon. Avec un peu de motivation et du travail, vous passerez la barre d'admission en Master 1.

Mais surtout, ne négligez pas l'un ou l'autre des domaines.

Q : Sans être passé par la L3, réussit-on son M1 ?

R : Bien sûr, la plupart des étudiants dans le cursus depuis quelques années viennent d'ailleurs et beaucoup réussissent avec un peu d'efforts. La bibliographie indicative pour bien démarrer ses révisions

La section En Plus! de la bibliographie donne d'autres ouvrages souvent plus complexes, pour ceux qui seraient désireux d'avancer encore et toujours plus. Algorithmique et programmation informatique

  • Cyrille Herby, Apprennez à programmer en Java, ISBN 978-2-9535278-3-4, Ed. Le Livre du Zéro
  • Vincent Granet, Algorithmique et programmation en Java, ISBN 2100545329, Ed. Dunod (dernière édition)

En Plus!

  • Thomas Cormen, Charles Leiserson, Ronald Rivest, Clifford Stein, Algorithmique, ISBN 978-2-10054526-1, Ed. Dunod (dernière édition)

Autres ressources

Phonétique

  • Pierre Léon, Phonétisme et prononciations du français, ISBN 2-20034297-7, Ed. Armand Colin
  • Philippe Martin, Phonétique acoustique, introduction à l'analyse acoustique de la parole, ISBN 978-2-200-35521-0, Ed. Armand Colin

Syntaxe

  • Jean-Yves Pollock, Langage et cognition, ISBN 978-2-13048090-7, Ed. PUF

En Plus!

  • Ivan Sag, Thomas Wasow, Emily Bender, Syntactic Theory: A Formal Introduction, ISBN 1-57586400-2, Ed. CSLI
  • Anne Abeillé, Les nouvelles syntaxes: grammaires d'unification et analyse du français, ISBN 2-74621251-X, Ed. Hermès Sciences

Sémantique

  • John I Saeed, Semantics, ISBN 063122693-1, Ed. Blackwell
  • La Sémanticlopédie qui contient quelques ressources utiles et gratuites en sémantique

STAGES

Stages effectués en L3

2010/2011

  • Laboratoire : INRIA Alpage
  • Adresse : 175 rue du Chevaleret, 75013 Paris (3ème étage) & Domaine de Voluceau, Rocquencourt, BP 105, 78153 Le Chesnay CEDEX (bâtiment 8)
  • Sujet du stage : Aide à la création d'un classificateur chargé d'identifier les rôles sémantiques grâce à Framenet.
  • Laboratoire : INRIA
  • Adresse : 175 rue du Chevaleret, 75013 Paris (3ème étage) & Domaine de Voluceau, Rocquencourt, BP 105, 78153 Le Chesnay CEDEX (bâtiment 8)
  • Sujet du stage : Annotation d'items lexicaux en contexte, selon des catégories sémantiques prédéfinies.
  • Entreprise : TEMIS
  • Adresse : 164 rue de Rivoli, 75001 Paris. La société est aussi basée à Grenoble.q
  • Sujet du stage : Stage de découverte de l'entreprise et des projets en text mining (stage de courte durée.)

2009/2010

  • Entreprise : Lingway
  • Adresse : Immeuble PARITALIE, 18 rue Pasteur – 94278 Le Kremlin Bicêtre CEDEX
  • Sujet du stage : Test d’un logiciel d’analyse d’offres d’emplois, contribution à une base de données pour l’analyse automatique de CVs (annotation d'une liste de diplômes, de métiers, recherche de CVs suisses francophones).
  • Entreprise : Lingway
  • Adresse : Immeuble PARITALIE, 18 rue Pasteur – 94278 Le Kremlin Bicêtre CEDEX
  • Sujet du stage : Contribution à une base de données pour l’analyse automatique de CVs (annotation d'une liste de diplômes, de métiers, recherche de CVs allemands).

Stages effectués en M1

2010/2011

  • Laboratoire : LIMSI-CNRS, Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur
  • Adresse : Université Paris-Sud 11 – 91403 Orsay CEDEX
  • Sujet : Extraction des événements saillants dans un ensemble de textes.
  • Laboratoire : LIMSI-CNRS, Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur
  • Adresse : Université Paris-Sud 11 – 91403 Orsay CEDEX
  • Sujet : Travaux sur la langue des signes : Annotation de corpus et études statistiques sur les structures étudiées comme cible pour la traduction et sur le corpus choisi.
  • Entreprise : MySoft
  • Adresse : 129 Boulevard Sébastopol – 75002 Paris
  • Sujet : Codage de dictionnaire médical pour Antidote.
  • Entreprise : Softissimo
  • Adresse : 5 rue Soyer – 92200 Neuilly sur Seine
  • Sujet : Travaux de teminologie (création, enrichissement, révision de dictionnaires de traduction français-anglais de langue générale et spécialisée) et de linguistique (recherche, analyse, préparation de coprus et de lexiques, analyse d'outils, analyse de résultats de traduction…) liés aux outils de traduction automatique.
  • Entreprise : Syllabs
  • Adresse : 15 rue Jean-Baptiste Berlier – 75013 Paris
  • Sujet : Création d'un lexique polonais/allemand/anglais et annotations de textes anglais/allemands.
  • Entreprise : VirtuOz
  • Adresse : 32 rue Mogador – 75009 Paris
  • Sujet : Adaptation d'un tagger pour l'anglais : création d'un grand corpus de données et entraînement du tagger sur ce corpus. Etude comparative réalisée par la suite pour gérer les performances sur les agents virtuels de conversation avant et après intégration du nouveau tagger.

2009/2010

  • Laboratoire : LIMSI-CNRS, Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur
  • Adresse : Université Paris-Sud 11 – 91403 Orsay CEDEX
  • Sujet : Estimation de la confiance à accorder à une réponse dans un système question-réponse.

Stages effectués en M2

2010/2011

  • Entreprise : Prima Solutions
  • Adresse : 12 rue le Châtelier – 75017 Paris
  • Sujet : Développement d’un éditeur de texte assisté pour le domaine de l’assurance.
  • Entreprise : Syllabs
  • Adresse : 15 rue Jean-Baptiste Berlier – 75013 Paris
  • Sujet : Détection de catégories hétérogènes et de concepts émergents dans un corpus de textes catégorisés.
  • Entreprise : Systran
  • Adresse : 5 rue Feydeau – 75002 Paris
  • Sujet : Amélioration d’un système de traduction statistique par l’intégration de dictionnaires.
  • Entreprise : Viavoo
  • Adresse : 69 rue Danjou – 92100 Boulogne Billancourt
  • Sujet : Vers la mise en place d’un correcteur grammatical.

PROJETS

Voir La liste des projets 1996-2009 dans les “Archives du cursus” sur la page du cursus LI.

Annales

Dernière mise à jour des annales du site le 24 novembre 2011

Examens CC = contrôle continu / Examens CF = contrôle final

Annales des examens de Licence 3 de 2009/2010

Semestre 1

  • Introduction au TAL CF
  • Linguistique de corpus CC
  • Morphologie 1 CC
  • Phonétique 1 CC
  • Phonologie 1 CC
  • Probabilités pour le TAL CC / CC corrigé / CF
  • Programmation 1 CC / CF
  • Théorie linguistique et grammaire du français CC / CF
  • Utilisation d'Unix CF

Annales des concours d'entrée en Master 1 de 2010/2011

Annales des examens de Master 1 de 2009/2010

Semestre 1

  • Programmation Orienté Objet CF
  • Programmation Fonctionnelle CF
  • Théorie générale des descriptions syntaxiques CC CF
  • Phonologie CF

Semestre 2

Annales des examens de Master 1 de 2010/2011

Semestre 1

Semestre 2

Dropbox!

Le 26 septembre 2012

Depuis l'année 2011/2012, nous mettons en commun, via un système de partage de fichiers (Dropbox), des cours et des documents en rapport avec ces cours accessibles à tous les LI qui en font la demande. Pour y accéder, envoyez-nous votre adresse e-mail, nous vous enverrons une invitation dans les plus brefs délais. Vous trouverez notre adresse dans la rubrique Contacts ci-dessous.

Contacts

Vous avez des remarques, des questions, vous voulez de l'aide ?

N'hésitez pas à nous contacter à talisman _dot_ paris7 _at_ gmail.com

Si vous voulez contacter un membre du bureau en particulier :

  • Audrey Champeau (Présidente/co-webmaster) : audreychampeau _at_ gmail.com
  • Antoine Lacambre (Membre du Bureau/co-webmaster) : antoine_lacambre _at_ hotmail.fr
  • Slimane Oussaid (Membre du Bureau/administration) : oussaidslimane _at_ gmail.com
  • Émilia (Membre du Bureau) : emilia.ve _at_ gmail.com
talisman.txt · Dernière modification: 2018/02/28 17:33 par acollot