LISN @ SIGMORPHON 2023 Shared Task on Interlinear Glossing
Abstract
This paper describes LISN's submission to the second track (open track) of the shared task on Interlinear Glossing for SIGMORPHON 2023. Our systems are based on Lost, a variation of linear Conditional Random Fields initially developed as a probabilistic translation model and then adapted to the glossing task. This model allows us to handle one of the main challenges posed by glossing, i.e. the fact that the list of potential labels for lexical morphemes is not fixed in advance and needs to be extended dynamically when labelling units are not seen in training. In such situations, we show how to make use of candidate lexical glosses found in the translation and discuss how such extension affects the training and inference procedures. The resulting automatic glossing systems prove to yield very competitive results, especially in low-resource settings.
Cet article décrit la soumission du LISN à la deuxième piste (piste ouverte) de la tâche partagée sur la génération de gloses interlinéaires pour SIGMORPHON 2023. Nos systèmes sont basés sur Lost, qui met en oeuvre une variante des champs aléatoires conditionnels linéaires, initialement développée comme un modèle de traduction probabiliste et ensuite adaptée à la tâche de la génération de gloses. Ce modèle nous permet de gérer l'un des principaux défis posés par cette tâche, à savoir le fait que la liste des étiquettes potentielles pour les morphèmes lexicaux n'est pas fixée à l'avance et doit être étendue dynamiquement lorsque des étiquettes ne sont pas vues lors de l'entraînement. Dans de telles situations, nous montrons comment utiliser les gloses lexicales candidates trouvées dans la traduction et discutons de la manière dont cette extension affecte les procédures d'apprentissage et d'inférence. Les systèmes de génération automatique de gloses qui en résultent donnent des résultats très compétitifs, en particulier lorsque les ressources d'apprentissage sont limitées.
Origin | Publisher files allowed on an open archive |
---|