Modèles neuronaux pour la simplification de parole, application au sous-titrage - Traitement du Langage Parlé
Theses Year : 2022

Neural models for speech simplification, application to closed captioning

Modèles neuronaux pour la simplification de parole, application au sous-titrage

Abstract

In the context of linguistics, simplification is generally defined as the process consisting in reducing the complexity of a text (or speech), while preserving its meaning as much as possible. Its primary application is to make understanding and reading easier for a user. It is regarded, inter alia, as a way to enhance the legibility of texts toward deaf and hard-of-hearing people (deafness often causes a delay in reading development), in particular in the case of subtitling. While interlingual subtitles are used to disseminate movies and programs in other languages, intralingual subtitles (or captions) are the only means, with sign language interpretation, by which the deaf and hard-of-hearing can access audio-visual contents. Yet videos have taken a prominent place in society, wether for work, recreation, or education. In order to ensure the equality of people through participation in public and social life, many countries in the world (including France) have implemented legal obligations concerning television programs subtitling. ROSETTA (Subtitling RObot and Adapted Translation) is a public-private collaborative research program, seeking to develop technological accessibility solutions for audio-visual content in French. This thesis, conducted within the ROSETTA project, aims to study automatic speech simplification with neural models, and to apply it into the context of intralinguistic subtitling for French television programs. Our work mainly focuses on analysing length control methods, adapting subtitling models to television genres, and evaluating subtitles segmentation. We notably present a new subtitling corpus created from data collected as part of project ROSETTA, as well as a new metric for subtitles evaluation, Sigma.
Dans le contexte linguistique, la simplification est généralement définie comme le processus consistant à réduire la complexité d'un texte (ou de paroles), tout en préservant au mieux son sens. Son application principale est de rendre plus aisée la compréhension et la lecture pour un utilisateur. Elle est entre autres une solution envisagée pour renforcer la lisibilité des textes auprès des sourds et malentendants (la surdité étant souvent à l'origine d'un retard dans l'apprentissage de la lecture), en particulier dans le cas du sous-titrage. Alors que les sous-titres interlinguistiques servent à diffuser les films et programmes dans d'autres langues, les sous-titres intralinguistiques sont le seul moyen, avec l'interprétation en langue des signes, par lequel sourds et malentendants peuvent accéder aux contenus audio-visuels. Or la vidéo a pris une place importante dans la société, que ce soit dans le contexte professionnel, récréatif, ou de l'éducation. Afin de garantir l'égalité des individus dans la participation à la vie publique et sociale, un certain nombre de pays dans le monde (dont la France) ont mis en oeuvre des obligations légales concernant le sous-titrage des émissions télévisées. ROSETTA (RObot de Sous-titrage Et Toute Traduction Adaptés) est un projet de recherche collaboratif privé-public, qui se propose de développer des solutions technologiques d'accessibilité pour les contenus audiovisuels en français. La présente thèse, réalisée dans le cadre de ce projet, vise à étudier la simplification automatique de la parole par des modèles neuronaux, et à l'adapter au contexte du sous-titrage intralinguistique d'émissions télévisées en français. Nos travaux portent principalement sur l'analyse de méthodes de contrôle de longueur, l'adaptation de modèles de sous-titrage aux genres télévisuels, et l'évaluation de la segmentation des sous-titres. Nous présentons notamment un nouveau corpus pour le sous-titrage créé à partir de données recueillies au cours du projet ROSETTA, ainsi qu'une nouvelle métrique pour l'évaluation des sous-titres, Sigma.
Fichier principal
Vignette du fichier
105449_BUET_2022_archivage.pdf (3.05 Mo) Télécharger le fichier
Origin Version validated by the jury (STAR)

Dates and versions

tel-03920729 , version 1 (03-01-2023)

Identifiers

  • HAL Id : tel-03920729 , version 1

Cite

François Buet. Modèles neuronaux pour la simplification de parole, application au sous-titrage. Informatique et langage [cs.CL]. Université Paris-Saclay, 2022. Français. ⟨NNT : 2022UPASG074⟩. ⟨tel-03920729⟩
519 View
199 Download

Share

More