Segmentação de textos por idioma

Autores

DOI:

https://doi.org/10.18046/syt.v14i38.2289

Palavras-chave:

Modelo oculto de Markov, segmentação de textos por idioma, processamento de linguagem natural.

Resumo

A segmentação de textos por idioma pode ser abordada de duas maneiras: a primeira, assumindo que as alterações da linguagem ocorrem apenas nos saltos entre as frases; e a segunda, partindo do princípio que o idioma pode mudar em qualquer parte do texto. Este trabalho apresenta métodos para segmentar ambos os tipos de textos por idioma. No primeiro caso, o texto é segmentado para analisar frases e, em seguida, identifica-se a língua de cada frase; a segunda proposta consiste na adaptação dos modelos ocultos de Markov à tarefa de segmentação de textos por idioma. O estado da arte é ultrapassado por ambas as propostas, de acordo com os resultados obtidos na experimentação realizada.

Biografia do Autor

  • Robin Cabeza Ruiz, University of Holguín

     

    Bachelor’s degree in Computer Science from Universidad de Oriente (2015) and student of Master in Design Assisted by Computer at the Universidad de Holguín [UHo], Cuba. Currently he is professor of programming and member of CAD/CAM Studies Center at the Faculty of Engineering of UHo, where he researches about biomechanical 

Downloads

Publicado

2016-10-06

Edição

Seção

Original Research