|
Axe de recherche 3
L’axe de recherche 2 étudiera les asymétries spatiales dans les langues. Le but est de comparer les structures et l'utilisation des langues, d'examiner les facteurs déclenchant les asymétries spatiales, en se concentrant sur les distinctions sémantiques. Au-dela des descriptions linguistiques standard, nous comparerons les structures linguistiques et l'utilisation des langues. Pour atteindre cet objectif, nous nous appuierons sur plusieurs types de données collectées par des méthodes distinctes.
Une grande partie de nos données proviendra d’enquetes de terrain dans diverses régions du monde.
Responsables scientifiques : Alice Vittrant & Anetta Kopecka
WP3.1 : Conception et création d’un outil d’élicitation visuel pour collecter la collecte de données interlinguistiques
-
Plutôt que de s'appuyer uniquement sur des descriptions génériques de la langue, nous comparerons les structures linguistiques et l'utilisation de la langue. Pour atteindre cet objectif, nous nous appuierons sur une série d'outils d'élicitation, y compris des outils existants qui ont été largement testés et qui peuvent etre adaptés et améliorés pour répondre a nos besoins, par exemple les vidéos Trajectoire, et de nouveaux outils qui seront spécifiquement consacrés a l'élicitation des asymétries spatiales. Les recherches antérieures ont montré que l'élicitation est inestimable, dans la mesure ou elle facilite les recherches et les comparaisons interlinguistiques et permet d'aller bien au-dela des typologies standard reposant uniquement sur les descriptions linguistiques existantes. Cependant, elle a également montré que les données élicitées ne sont pas parfaitement naturelles : par conséquent, pour les langues qui n'ont pas été décrites de maniere suffisamment approfondie ou détaillée jusqu'a présent, nous devons rassembler des données "naturelles" avec lesquelles nos élicitations peuvent etre comparées. Alors qu'elles sont déja disponibles pour les langues bien décrites, ces données supplémentaires doivent etre collectées pour les langues sous-décrites.
Nous sommes conscients des avantages et des limites de cette méthodologie et, plus important encore, nous savons comment optimiser ces outils.
Étant donné que le matériel d'élicitation sera utilisé dans différents lieux et différentes cultures, nous accorderons une attention particuliere a sa valeur écologique (cadres naturels avec peu d'indices spécifiques a la culture européenne) et a son adéquation éthique (par exemple, types d'événements, de décors et de vetements). L'objectif principal est de collecter des données pour des comparaisons inter-linguistiques systématiques, ce qui nous permettra d'analyser comment les locuteurs de différentes langues conceptualisent et décrivent les memes scénarios visuels, et d'examiner l'utilisation et la fréquence de différents modeles.
Les stimuli visuels conçus pour obtenir des données linguistiques sur les asymétries spatiales seront organisés selon des principes de regroupement spécifiques afin de tester le rôle de différents facteurs susceptibles de jouer un rôle dans les asymétries spatiales,
- différents types d'événements - mouvement provoqué (par exemple, mettre ou prendre, recevoir ou donner), mouvement spontané (par exemple, protagonistes animés ou non animés), changement de posture (debout ou assis ou couché).);
- différents parametres : orientation (horizontale ou verticale), franchissement des limites (avec ou sans), intentionnalité (intentionnelle ou non intentionnelle), deixis (centrifuge, centripete ou transversale) ;);
- les parametres exploratoires, tels que l'animé ou le non-animé, qui se sont révélés cruciaux pour l'asymétrie source-but.

Responsables scientifiques : : Benjamin Fagard & Anetta Kopecka
WP3.2 : Transcription des données, annotation et codage dans une approche comparative
-
All data will be audio-recorded, transcribed, annotated and coded. Given our experience in language description and typological linguistics, we know how complicated it is to agree on a common semantic or even morphosyntactic coding for languages with different typological features. It is indeed a difficult and problematic task. The data gathered will therefore be minimally enriched, i.e. with lemma, gloss and part-of-speech (POS) tags, as has been done in various ANR projects in which the Lattice took part, for various languages (e.g. Old French, which is notoriously problematic for POS tagging).
The data collected with the visual stimuli will be analyzed following a unified theoretical approach, bridging the traditionally separate analytical/qualitative and experimental/quantitative studies.

Responsables scientifiques : Benjamin Fagard , Anetta Kopecka, Christine Lamarre & Alice Vittrant
WP3.3 : Construction d ‘une base de données interlinguistique
-
Toutes les données recueillies dans le cadre des WP1 et WP2 seront systématiquement incluses dans une grande base de données interlinguistique. Nous nous appuierons sur l'expertise et l'expérience du consortium en matiere d'outils de traitement du langage naturel et de mise en place de bases de données pour atteindre cet objectif spécifique, qui n'est en aucun cas une tâche facile. Il n'est pas entierement nouveau, puisqu'il existe des exemples de bases de données publiques disponibles contenant des caractéristiques linguistiques de nombreuses langues différentes, telles que la base de données WALS ou, dans le domaine de la typologie lexicale, les bases de données DECOLAR ou DatSemShifts.
Cette base de données s'appuiera sur des solutions existantes pour le stockage des données, telles que CoCoON.. Cette plateforme technique destinée aux scientifiques des domaines de la recherche humaine et sociale est dédiée a la structuration des données orales et a leur dépôt dans les archives de la TGIR Huma-Num (i.e. PANGLOSS).).

|