Desarrollo de técnicas de computación evolutiva para soporte en minería de datos y texto

Cecchini, Rocío L.

dc.contributor.advisor	Brignole, Nélida Beatriz
dc.contributor.author	Cecchini, Rocío L.
dc.contributor.other	Vazquez, Gustavo E.
dc.date	2010-04-13
dc.date.accessioned	2015-03-25T13:04:16Z
dc.date.available	2015-03-25T13:04:16Z
dc.date.issued	2010	es
dc.identifier.other	2010-1043
dc.identifier.uri	http://repositoriodigital.uns.edu.ar/handle/123456789/2119
dc.description.abstract	La obtención de información a partir de un conjunto de datos o minería de datos es una tarea compleja que involucra varias etapas, tal como sucede en la minería de texto. Esta puede ser considerada como un caso particular de minería de datos donde los datos contemplan la incorporación de texto. Ambos procesos de minería se vuelven aun más complejos cuando nos encontramos ante grandes cúmulos de datos o texto. Es común encontrar conjuntos de datos grandes, complejos y ricos en información en áreas como medicina, comercio, ingeniería y ciencias de la computación. Simultáneamente, los avances tecnológicos han dado lugar a la acumulación de sustanciosas cantidades de documentos, artículos y texto; el ejemplo más contundente de esta clase de material es la Web, la cual se estima que alcanza más de 8.05 billones de páginas. La propuesta de esta tesis es el uso de herramientas evolutivas mono- y multi-objetivo como un soporte para algunas de las etapas de este proceso. En particular, las etapas que implican optimización y búsqueda dentro de estos grandes espacios en los cuales otros métodos serían inviables. A lo largo de la investigación se desarrollaron, evaluaron y compararon algoritmos evolutivos mono y multi-objetivo tanto para la rama de minería de datos como para la rama de minería de texto. Como caso particular dentro de minería de datos, se contempló el problema de encontrar las relaciones más relevantes entre variables dentro de distintos conjuntos de datos. Dichas relaciones, no son visibles para un experto cuando se encuentra frente a la base de datos original cruda, la cual puede contemplar miles de variables y miles de instan-cias. Para resolver este problema se propuso una metodología de dos fases. Los algoritmos desarrollados en este contexto se integraron a la primera fase de la arquitectura y fueron exitosamente utilizados como mecanismo de búsqueda masiva. Por otra parte, en el caso de minería de texto se abordó el problema de recuperar información relacionada y novedosa con respecto a un tópico de interés. Para este problema se propuso, implementó y evaluó una arquitectura que, partiendo de una descripción para el tópico de interés, evoluciona varios conjuntos de términos hacia conjuntos que logren obtener mejores documentos con respecto a dicho tema de interés y con respecto a los objetivos propuestos (por ejemplo: simi-litud, precisión, cobertura). Dentro de las técnicas evolutivas multi-objetivo propuestas, se diseñaron adaptaciones de los algoritmos basados en Pareto más prometedores reportados por la literatura y se propusieron versiones multi-objetivo agregativas. Ambos enfoques, los basados en Pareto y los agregativos, demostraron ser claramente competentes tanto para minería de datos como para minería de texto.	es
dc.description.abstract	Data mining comprises the capture of information from data, which is a complex task that involves many stages. The same applies to text mining that can be considered as a special case of data mining where the data include text. As data and text sets increase, both mining processes become even more complicated. Large, complex and rich information data sets arise in many common research elds like medicine, commerce, engineering and computer science. Simultaneously, techno-logical advances have led to theaccumulation of substantial amounts of documents, articles and text; the clearest example of this kind of material is the Web, which is estimated to have reached more than 8.05 billion pages. This thesis proposes the use of mono- and multi-objective evolutionary tools as support in some of the stages of the data and text mining processes. In particular, those stages which imply optimiza-tion and search in wide search spaces where other methods could be unfeasible. In this research work, several mono- and multi-objective evolutionary algorithms were developed, evaluated and compared for both, data and text mining research areas. As a particular case in data mining, the problem of finding the most relevant relationship among variables from the data was considered. These relations, are not obvious for experts when they are faced with the original raw database, which can include thousands of variables and thousand of samples. In order to solve this problem, a two-phase methodology was proposed. In this context, the developed algorithms were integrated into the first phase and were succesfully used as massive search mechanisms. On the other hand, as a particular case of the text mining research area, the problem of retrieving novel material that is related to a search context was considered. In order to overcome this problem, an architecture was proposed, implemented and evaluated. Starting from a description for the topic of interest, this architecture evolves several sets of terms towards sets which can obtain better documents with respect to both, the topic of interest and the proposed objectives (e.g., similarity, precision, recall). Among the proposed multi-objetive evolutionary techniques, adap-tations of the more promising reported Pareto-based evolutionary algorithms were designed and new multi-objective aggregative schemes were proposed. Both approaches- i.e., the Pareto-based strategy and the aggregative techniques- proved to be clearly competent for both research areas: data and text mining.	en
dc.format	application/pdf	es_AR
dc.language.iso	spa
dc.rights	Liberar contenido de archivos para acceso público.
dc.subject	Computación evolutiva	es
dc.subject	Minería de datos	es
dc.subject	Minería de texto	es
dc.subject	Evolutionary computation	es
dc.subject	Datamining	es
dc.subject	Text mining	es
dc.title	Desarrollo de técnicas de computación evolutiva para soporte en minería de datos y texto	es
dc.type	tesis doctoral	es
bcuns.collection.name	Biblioteca Digital Académica	es
bcuns.collection.acronym	BDA	es
bcuns.collection.url	http://tesis.uns.edu.ar/	es
bcuns.collection.institution	Biblioteca Central de la Universidad Nacional del Sur	es
bcuns.depositorylibrary.name	Biblioteca Central de la Universidad Nacional del Sur	es
bcuns.author.affiliation	Universidad Nacional del Sur	es
bcuns.authoraffiliation.acronym	UNS	es
bcuns.authoraffiliation.country	Argentina	es
bcuns.advisor.affiliation	Universidad Nacional del Sur	es
bcuns.advisoraffiliation.acronym	UNS	es
bcuns.advisoraffiliation.country	Argentina	es
bcuns.defense.city	Bahía Blanca	es
bcuns.defense.province	Buenos Aires	es
bcuns.defense.country	Argentina	es
bcuns.programme.name	Doctorado en Ciencias de la Computación	es
bcuns.programme.department	Departamento de Ciencias e Ingeniería de la Computación	es
bcuns.thesisdegree.name	Doctor en Ciencias de la Computación	es
bcuns.thesisdegree.grantor	Universidad Nacional del Sur	es
uns.type.publicationVersion	accepted	en
bcuns.depositarylibrary.acronym	EUN	es
uns.oai.snrd	no	es_AR

Ficheros en el ítem

Nombre:: mineria de datos y texto.pdf
Tamaño:: 3.133Mb
Formato:: PDF
Descripción:: Tesis de Doctor en Ciencias de ...

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis de postgrado [1479]
Reúne los trabajos finales de los estudios de posgrado de la UNS (especializaciones, maestrías y doctorados)

Mostrar el registro sencillo del ítem