Generación automática de resúmenes independientes del lenguaje

MATIAS MENDOZA, GRISELDA ARELI

Mostrar el registro sencillo del objeto digital

dc.contributor	García-Hernández, René Arnulfo
dc.contributor	SIDOROV, Grigori
dc.contributor	LEDENEVA, YULIA NIKOLAEVNA
dc.contributor.advisor	LEDENEVA, YULIA NIKOLAEVNA; 213954
dc.contributor.author	MATIAS MENDOZA, GRISELDA ARELI
dc.creator	MATIAS MENDOZA, GRISELDA ARELI; 559868
dc.date.accessioned	2016-06-24T17:19:51Z
dc.date.available	2016-06-24T17:19:51Z
dc.date.issued	2016-01
dc.identifier.citation	Na	es
dc.identifier.uri	http://hdl.handle.net/20.500.11799/49479
dc.description.abstract	En la actualidad la información en formato digital crece de manera exponencial y ante ello surgen diversas problemáticas, como la sobrecarga de información, redundancia de información, pérdida de información, entre otras. Este tipo de problemas puede ocasionar en los usuarios deficiencia en su trabajo, al no tener el tiempo disponible necesario, para procesar toda la información, ante esto surge la importante necesidad de contar con métodos que permitan la generación automática de resúmenes. Pero además de contar con un método que nos permite generar resúmenes, sería ideal que los métodos generaran resúmenes en cualquier lenguaje, principalmente en el lenguaje que domina el usuario (en nuestro caso el español). Un método de generación automática de resúmenes independientes del lenguaje, trata de contrarrestar los efectos negativos de la sobrecarga de información, además de que permite generar un resumen, independientemente del lenguaje en el que se encuentre el texto original. Según (Ledeneva, 2008) un resumen es un texto corto que transmite la información más importante de un documento de origen. Actualmente existen métodos del estado del arte que dicen ser independientes del lenguaje, pero solo prueban en el lenguaje inglés. Existen otros que son independientes del lenguaje y prueban más de una colección de documentos, pero no en español. Entre los métodos del estado del arte que dicen ser independientes del lenguaje está el propuesto por (Matias, 2013), el cual obtienen buenos resultados para el lenguaje inglés y puede trabajar con otros lenguajes. Entonces con referencia a los resultados que se obtienen con el método de (Matias, 2013), en este trabajo se propone el método en los lenguajes: inglés, portugués y español. Además se ajustaron los parámetros de las etapas: pre-procesamiento, modelo de texto, importancia de las oraciones, función de aptitud y el operador de selección, para tratar de mejorar la calidad de los resúmenes. Las colecciones de documentos utilizadas en este trabajo son, para inglés la colección DUC2002, para portugués la colección TeMário y para el lenguaje español TER. La colección TER es una aportación de este trabajo, la cual es una colección de noticias de un periódico mexicano (La crónica) especialmente para el uso de resúmenes. Los resúmenes resultantes son evaluados con la herramienta ROUGE la cual permite comparar los resúmenes generados a partir del método con los resúmenes generados por un humano. Los resultados obtenidos de los experimentos con cada una de las colecciones se comparan con los resultados obtenidos con los resúmenes generados con las herramientas comerciales 5 y otros métodos del estado del arte. Los resultados obtenidos con el método propuesto en todos los lenguajes superan tanto a las herramientas comerciales como a los métodos del estado del arte.	es
dc.language.iso	spa	es
dc.publisher	UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO	es
dc.rights	openAccess	es
dc.rights.uri	http://creativecommons.org/licenses/by/4.0
dc.subject	generación de resúmenes	es
dc.subject	independencia del lenguaje	es
dc.subject	corpus en español	es
dc.subject	algoritmos genético	es
dc.subject	n-gramas	es
dc.subject.classification	INGENIERÍA Y TECNOLOGÍA
dc.title	Generación automática de resúmenes independientes del lenguaje	es
dc.type	Tesis de Maestría	es
dc.provenance	Científica	es
dc.road	Dorada	es
dc.organismo	Unidad Académica Profesional Tianguistenco	es
dc.nivel	MaestrÍa	es
dc.programa	Maestría en Ciencias de la Computación	es
dc.ambito	Nacional	es
dc.audience	students
dc.audience	researchers
dc.type.conacyt	masterThesis
dc.identificator	7