Segmentação de textos por idioma
DOI:
https://doi.org/10.18046/syt.v14i38.2289Palavras-chave:
Modelo oculto de Markov, segmentação de textos por idioma, processamento de linguagem natural.Resumo
A segmentação de textos por idioma pode ser abordada de duas maneiras: a primeira, assumindo que as alterações da linguagem ocorrem apenas nos saltos entre as frases; e a segunda, partindo do princípio que o idioma pode mudar em qualquer parte do texto. Este trabalho apresenta métodos para segmentar ambos os tipos de textos por idioma. No primeiro caso, o texto é segmentado para analisar frases e, em seguida, identifica-se a língua de cada frase; a segunda proposta consiste na adaptação dos modelos ocultos de Markov à tarefa de segmentação de textos por idioma. O estado da arte é ultrapassado por ambas as propostas, de acordo com os resultados obtidos na experimentação realizada.
Downloads
Publicado
Edição
Seção
Licença
Esta publicação está licenciada sob os termos da licença CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/deed.pt_BR).
