Natural language processing for social inclusion: a text simplification architecture for different literacy levels

Abstract

Text simplification is a research area of Natural Language Processing, whose goal is to maximize text comprehension through simplification of its linguistic structure. This paper presents our approach for Brazilian Portuguese text simplification. As people have different literacy levels, we take that into account when generating simplified texts. We propose an architecture for text simplification composed by two layers: the first is a machine-learning system who learns from manually simplified texts the appropriate degree of simplification according to a given literacy level; and the second is a rule-based system that executes the actual simplification of the sentences, following the recommendations from the first layer. Resumo. A Simplificação Textual é uma área de pesquisa do Processamento de Lı́ngua Natural cujo objetivo é maximizar a compreensão de textos escritos via simplificação de sua estrutura linguı́stica. Este artigo apresenta nossa abordagem para simplificação de textos em português do Brasil. Como as pessoas possuem nı́veis diferentes de letramento, levamos isso em consideração na geração de textos simplificados. Propomos uma arquitetura para simplificação de textos composta de dois nı́veis: o primeiro é um sistema baseado em aprendizado de máquina que aprende a partir de textos simplificados manualmente o nı́vel apropriado de simplificação de acordo com um dado nı́vel de letramento; e o segundo é um sistema baseado em regras que executa a simplificação propriamente dita das sentenças, seguindo recomendações vindas do primeiro nı́vel.

Topics

11 Figures and Tables

Download Full PDF Version (Non-Commercial Use)