Generación automática de resúmenes independientes del lenguaje

GRISELDA ARELI MATIAS MENDOZA

Please use this identifier to cite or link to this item: http://ri.uaemex.mx/handle20.500.11799/49479

Title:	Generación automática de resúmenes independientes del lenguaje
Authors:	GRISELDA ARELI MATIAS MENDOZA
Keywords:	generación de resúmenes;independencia del lenguaje;corpus en español;algoritmos genético;n-gramas;info:eu-repo/classification/cti/7
Publisher:	UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO
Description:	En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte.
Other Identifiers:	http://hdl.handle.net/20.500.11799/49479
Rights:	info:eu-repo/semantics/openAccess http://creativecommons.org/licenses/by/4.0
Appears in Collections:	Producción

Show full item record

Google Scholar^TM

Check

DSpace CRIS

Es una versión "extendida" de DSpace, con un modelo de datos potente y flexible para describir no sólo las publicaciones, sino también todas las entidades del entorno de investigación y sus enlaces significativos.

Creado en 2009 en la Universidad de Hong Kong

Google Scholar^TM

DSpace CRIS

Es una versión "extendida" de DSpace, con un modelo de datos potente y flexible para describir no sólo las publicaciones, sino también todas las entidades del entorno de investigación y sus enlaces significativos.Creado en 2009 en la Universidad de Hong Kong

Google ScholarTM

Es una versión "extendida" de DSpace, con un modelo de datos potente y flexible para describir no sólo las publicaciones, sino también todas las entidades del entorno de investigación y sus enlaces significativos.

Creado en 2009 en la Universidad de Hong Kong

Google Scholar^TM