Text segmentation by language

Robin Cabeza Ruiz

doi:10.18046/syt.v14i38.2289

Autores/as

Robin Cabeza Ruiz Universidad de Holguín

DOI:

https://doi.org/10.18046/syt.v14i38.2289

Palabras clave:

Modelos ocultos de Markov, segmentación de textos por idioma, procesamiento del lenguaje natural.

Resumen

La segmentación de textos por idioma puede ser abordada de dos maneras: la primera, asumiendo que los cambios de idioma solo ocurren en los saltos entre oraciones; y la segunda, asumiendo que el idioma puede cambiar en cualquier lugar del texto. En este trabajo se presentan métodos para segmentar ambos tipos de textos por idiomas. Para el primer caso se segmenta el texto a analizar por oraciones y luego se identifica el idioma de cada oración; la segunda propuesta consiste en la adaptación de los modelos ocultos de Markov a la tarea de segmentación de textos por idiomas. El estado del arte es superado por ambas propuestas, según los resultados obtenidos en la experimentación realizada.

Biografía del autor/a

Robin Cabeza Ruiz, Universidad de Holguín

Licenciado en Ciencias de la Computación, graduado en la Universidad de Oriente (UO) en 2015. Actualmente profesor en la Facultad de Ingeniería de la Universidad de Holguín (UHo), donde imparte la asignatura de Programación. Pertenece al centro de estudios CAD/CAM de la misma universidad, y forma parte del proyecto que realiza investigaciones en el campo de la biomecánica. Se encuentra cursando la Maestría en Diseño Asistido por Computadoras en la Universidad de Holguín.

Segmentación de textos por idioma

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Descargas

Publicado

Número

Sección

Licencia

Desarrollado por

Idioma

Información