Prédiction et caractérisation des biais textuels basés sur le discours

Nicolas Devatine

Résumé

In an expanding information-based society, where public opinion is influenced by a plurality of sources and discourses, assessing the presence and extent of textual bias is of paramount importance. Therefore, the research undertaken in this thesis revolves around the detection and characterization of such biases, by placing a particular focus on political biases in news articles. What distinguishes this research from prior work on the subject lies in its shift beyond mere lexical analysis of documents. Instead, it integrates argumentative and rhetorical dimensions by considering the structure of the documents. To do so, we draw upon methodologies derived from the field of discourse analysis in Natural Language Processing (NLP). We latently induce a document structure by relying on elementary discourse units, which are sub-components of sentences and constitute the smallest textual unit capable of expressing a coherent proposition or idea. From an extensive set of experiments on the prediction of political leanings in news articles, we not only reveal the effectiveness of the proposed discourse-driven method, but also highlight several noteworthy findings that hold potential implications for further research. However, the ambition of this thesis goes beyond simply predicting biases, we aim to characterize them by getting some insights into the model's decisions. We therefore delve into the growing field of explainability in NLP, by making a particular focus on model-agnostic and perturbation-based explanation methods for text classification. While such methods have previously demonstrated their effectiveness across a wide range of tasks, they are not without their limitations, especially in terms of their computational cost and their ability to process long documents. To address these shortcomings, we propose a series of new strategies based on different levels of granularity. These include the development of explanation methods centered on discourse units, on specific vocabularies of interest, or on the document structure induced by the model. Following on from the experiments carried out on the prediction of political leanings in news articles, we evaluate both quantitatively and qualitatively the explanations generated for this task using our approach and demonstrate the benefits of the proposed strategies over existing methods. Thus, this work introduces a new perspective to the analysis of textual biases in NLP by proposing an integrated discourse-driven method for both predicting and characterizing biases.

Dans une société de l'information en pleine expansion, où l'opinion publique est influencée par une pluralité de sources et de discours, l'étude de la présence et de l'étendue des biais dans les textes se révèle être d'une importance capitale. Ainsi, la recherche menée dans cette thèse s'articule autour de la détection et de la caractérisation de ces biais, en mettant un accent particulier sur les biais politiques dans les articles de presse. Ce qui distingue notre étude des travaux existants sur le sujet est que nous allons au-delà de la simple analyse lexicale des documents. En effet, nous intégrons également les dimensions argumentatives et rhétoriques en prenant en compte la structure du texte. Pour ce faire, nous nous appuyons sur des méthodes dérivées du domaine de l'analyse du discours en Traitement Automatique des Langues (TAL). Nous induisons de manière latente une structure du document basée sur les unités élémentaires de discours, qui sont des sous-composants des phrases et qui constituent les plus petites unités textuelles capables d'exprimer une proposition ou une idée cohérente. À partir d'un ensemble d'expériences sur la prédiction des biais politiques dans les articles de presse, nous démontrons à la fois l'efficacité de la méthode proposée basée sur le discours et soulignons également plusieurs résultats notables ayant de potentielles implications pour de futures recherches. Cependant, l'ambition de cette thèse dépasse la simple prédiction des biais, nous cherchons aussi à les caractériser en examinant les décisions du modèle. Nous nous intéressons ainsi au domaine de l'explicabilité en TAL, en nous concentrant plus particulièrement sur les méthodes d'explication agnostiques au modèle et basées sur des perturbations pour la classification de texte. Bien que ces méthodes aient démontré leur efficacité sur un grand nombre de tâches, elles présentent certaines limites, notamment en ce qui concerne leur coût de calcul et leur capacité à traiter les documents longs. Afin de remédier à ces problèmes, nous proposons plusieurs nouvelles stratégies basées sur différents niveaux de granularité, parmi lesquelles le développement de méthodes d'explication basées sur les unités discursives, sur des vocabulaires spécifiques d'intérêt ou sur la structure du document induite par le modèle. Dans la continuité des expériences menées sur la prédiction des biais politiques dans les articles de presse, nous évaluons quantitativement et qualitativement les explications générées à l'aide de notre approche pour cette tâche et démontrons les bénéfices des stratégies proposées par rapport aux méthodes existantes. Ainsi, ce travail apporte une nouvelle perspective à l'analyse des biais textuels en TAL en proposant une méthode intégrée basée sur le discours permettant à la fois de prédire et de caractériser les biais.

Discourse-driven prediction and characterization of textual bias

Prédiction et caractérisation des biais textuels basés sur le discours

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager