Site
>
Accueil LLA CREATIS
> Axe II
> Correctools
Programme Correctools : traductologie et informatique
Objectifs du programme
Ce programme est la suite d'un projet précédent dénommé « Transtyler », qu'il a repensé et redéfini sur des bases nouvelles.
Il vise à produire des outils informatiques de correction d'erreurs textuelles, grammaticales et stylistiques, associés à des outils d'apprentissage raisonné des langues.
Initié par LLA, il s'est étendu à une collaboration très poussée entre le laboratoire et l'Institut de Recherche Informatique de Toulouse (IRIT, UPS) qui copilote à présent le programme. Depuis la fin 2008, un partenariat est également engagé avec le laboratoire CAS (EA 801) de l'UTM. Il s'agit donc d'un projet collaboratif ouvert, à fort potentiel de valorisation industrielle.
Les locuteurs produisant des documents dans une autre langue que leur langue maternelle (par exemple les Français écrivant en anglais) rencontrent souvent des difficultés d'ordre lexical, grammatical ou stylistique qui rendent leurs textes difficiles à comprendre pour des locuteurs dont la langue maternelle est la langue cible de ces documents. Dès lors, le professionnalisme et la crédibilité de ces textes en sont souvent affectés. Le principal objectif de ce programme est de développer des procédures de corrections de ces erreurs qui ne peuvent pas (et ne pourront pas avant longtemps) être traitées par les traitements de textes les plus avancés (tels ceux de Suite Office ou Open Office ou leurs avatars). Par extension, l'objectif est également d'aider à corriger les erreurs de style devenues fréquentes dans les textes rédigés directement dans la langue maternelle du locuteur (l'un des aspects du programme étant par conséquent le travail sur le couple français incorrect/français correct).
Contrairement aux traitements de textes courants mais dans l'esprit des systèmes d'aide à l'apprentissage, le programme CorrecTools souhaite, et c'est l'une de ses spécificités, laisser à l'utilisateur le choix des corrections, lui fournissant des arguments pour/contre telle correction proposée, dans le cas où plusieurs corrections sont possibles. La dimension apprentissage du projet sera donc importante (proposition de solutions de correction, aide à la décision, et rappel des règles pouvant s'appliquer). Elle pourra soit aboutir à un logiciel indépendant, soit être implémentée comme « brique » dans un GED (Gestionnaire Electronique de Document) à l'appui de traitements de texte existant. Cette approche fondamentale (réflexion sur la grammaire) et l'aspect didactique du programme, en rupture avec les modèles existant, font l'intérêt de la démarche et la positionne de façon originale dans un champ de recherche déjà très balisé. Ainsi les évaluateurs du 3rd Linguistic Annotation Workshop (The LAW) de Singapour ont-ils pu évaluer très positivement le projet : This paper describes an attempt to richly annotate errors in language usage in text generated by native French speakers. The basic premise of the research is sound, and the resulting resource has tremendous applications in the growing field of language error correction.
Pour atteindre ces objectifs, il est nécessaire de produire un modèle de stratégies cognitives employées par les correcteurs humains (enseignants, traducteurs professionnels) lorsqu'ils détectent des erreurs. Les premières observations montrent qu'il ne peut s'agir de stratégies simples et immédiates, mais que les erreurs de diagnostic et les corrections sont souvent fondées sur un processus complexe d'analyse et de décision.
Ce projet comprend donc les composantes fondamentales et applicatives suivantes:
Ce programme est la suite d'un projet précédent dénommé « Transtyler », qu'il a repensé et redéfini sur des bases nouvelles.
Il vise à produire des outils informatiques de correction d'erreurs textuelles, grammaticales et stylistiques, associés à des outils d'apprentissage raisonné des langues.
Initié par LLA, il s'est étendu à une collaboration très poussée entre le laboratoire et l'Institut de Recherche Informatique de Toulouse (IRIT, UPS) qui copilote à présent le programme. Depuis la fin 2008, un partenariat est également engagé avec le laboratoire CAS (EA 801) de l'UTM. Il s'agit donc d'un projet collaboratif ouvert, à fort potentiel de valorisation industrielle.
Les locuteurs produisant des documents dans une autre langue que leur langue maternelle (par exemple les Français écrivant en anglais) rencontrent souvent des difficultés d'ordre lexical, grammatical ou stylistique qui rendent leurs textes difficiles à comprendre pour des locuteurs dont la langue maternelle est la langue cible de ces documents. Dès lors, le professionnalisme et la crédibilité de ces textes en sont souvent affectés. Le principal objectif de ce programme est de développer des procédures de corrections de ces erreurs qui ne peuvent pas (et ne pourront pas avant longtemps) être traitées par les traitements de textes les plus avancés (tels ceux de Suite Office ou Open Office ou leurs avatars). Par extension, l'objectif est également d'aider à corriger les erreurs de style devenues fréquentes dans les textes rédigés directement dans la langue maternelle du locuteur (l'un des aspects du programme étant par conséquent le travail sur le couple français incorrect/français correct).
Contrairement aux traitements de textes courants mais dans l'esprit des systèmes d'aide à l'apprentissage, le programme CorrecTools souhaite, et c'est l'une de ses spécificités, laisser à l'utilisateur le choix des corrections, lui fournissant des arguments pour/contre telle correction proposée, dans le cas où plusieurs corrections sont possibles. La dimension apprentissage du projet sera donc importante (proposition de solutions de correction, aide à la décision, et rappel des règles pouvant s'appliquer). Elle pourra soit aboutir à un logiciel indépendant, soit être implémentée comme « brique » dans un GED (Gestionnaire Electronique de Document) à l'appui de traitements de texte existant. Cette approche fondamentale (réflexion sur la grammaire) et l'aspect didactique du programme, en rupture avec les modèles existant, font l'intérêt de la démarche et la positionne de façon originale dans un champ de recherche déjà très balisé. Ainsi les évaluateurs du 3rd Linguistic Annotation Workshop (The LAW) de Singapour ont-ils pu évaluer très positivement le projet : This paper describes an attempt to richly annotate errors in language usage in text generated by native French speakers. The basic premise of the research is sound, and the resulting resource has tremendous applications in the growing field of language error correction.
Pour atteindre ces objectifs, il est nécessaire de produire un modèle de stratégies cognitives employées par les correcteurs humains (enseignants, traducteurs professionnels) lorsqu'ils détectent des erreurs. Les premières observations montrent qu'il ne peut s'agir de stratégies simples et immédiates, mais que les erreurs de diagnostic et les corrections sont souvent fondées sur un processus complexe d'analyse et de décision.
Ce projet comprend donc les composantes fondamentales et applicatives suivantes:
- Les aspects linguistiques : le fonctionnement de la grammaire en général, et en particulier en anglais, les liens entre le lexique et la grammaire, les différents paramètres du style selon le type de document (courriels, forums, rapports et publications), la prise en compte de l'utilisateur-apprenant,
- Les aspects cognitifs : les stratégies déployées par les experts pour identifier et analyser les erreurs et proposer une ou plusieurs corrections, les formes d'argumentation employées ainsi que les processus de décision menant à la correction effective,
- Les aspects didactiques : les types de dialogues entre l'assistant et l'utilisateur visant à faciliter l'acquisition de compétences en langue, dans le cadre d'une théorisation de l'explication,
- Les aspects de modélisation : le développement de modèles adaptés en particulier en traitement automatique des langues, ainsi qu'en argumentation et théorie de la décision (pour la correction) et en question-réponses (pour l'assistant intelligent et coopératif)
Les principaux langages étudiés (langues cibles et/ou sources) seront le français, l'anglais et l'espagnol.
Contacts : Arnaud Rykner (LLA), Patrick Saint-Dizier (IRIT)
Réalisations prévues
La principale réalisation visée est la création d'un prototype pouvant se greffer sur un éditeur de textes: ce prototype fera l'objet d'une évaluation détaillée par des étudiants et des enseignants en enseignement des langues.
Le programme reposera concrètement sur
Contacts : Arnaud Rykner (LLA), Patrick Saint-Dizier (IRIT)
Réalisations prévues
La principale réalisation visée est la création d'un prototype pouvant se greffer sur un éditeur de textes: ce prototype fera l'objet d'une évaluation détaillée par des étudiants et des enseignants en enseignement des langues.
Le programme reposera concrètement sur
- Des masters et thèses (plusieurs projets déjà inscrits),
- Des ateliers et séminaires réguliers, des publications internationales (plusieurs déjà publiées),
- Le développement de collaboration rapprochées avec les utilisateurs finaux (enseignants - dont enseignants de langue -, chercheurs, utilisateurs variés devant rédiger des textes en langues étrangères)
- Le dépôt d'une demande de financement auprès de l'ANR
- La recherche de partenaires industriels
- La publication des résultats obtenus lors de manifestations internationales (déjà 5 publications internationales en 2009 et 2010 ), dont C. Albert, M. Garnier, A. Rykner, P. Saint-Dizier, « Analyzing a corpus of documents produced by French writers in English: annotating lexical, grammatical and stylistic errors and their distribution », The Fifth Corpus Linguistics Conference, University of Liverpool, 20-23 juillet 2009. [Actes à paraître] ; C. Albert, M. Garnier, A. Rykner, P. Saint-Dizier, « Annotating language errors in texts: investigating argumentation and decision schémas », 3rd Linguistic Annotation Workshop (The LAW). Suntec, Singapore 6-7 août, 2009 ; C. Albert, M. Garnier, A. Rykner, P. Saint-Dizier, « Description et annotation des erreurs. Le cas des francophones s'exprimant en anglais », in Multilinguisme et traitement des langues naturelles, sous la dir. d'I. Biskri et A. Jebali, Québec, Presses de l'Université du Québec, 2010, p. 54-70.



Suivre les actualités