Caracterización formal y análisis empírico de mecanismos incrementales de búsqueda basados en contexto

Lorenzetti, Carlos M.

Ver/

Tesis de Doctor en Ciencias de la Computación - Texto completo (2.121Mb)

Fecha

2011

Autor

Lorenzetti, Carlos M.

Director

Simari, Guillermo R.

Colaborador

Maguitman, Ana Gabriela

Palabras clave

Recuperación de información; Búsqueda web; Inteligencia artificial; Ciencias de la computación

Metadatos

Mostrar el registro completo del ítem

Resumen

LaWeb se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recupe-ración de información que ayuda al usuario a recuperar infor-mación relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuen-tran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación del método propuesto se desarrolló un marco teórico de eva-luación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrolla-ron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algorit-mos desarrollados a la largo de esta tesis evolucionan con-sultas de alta calidad, permitiendo recuperar recursos relevan-tes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles.

The Web has become a potentially infinite information resour-ce, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the users current thematic context. In order to evaluate the proposed method, a theoretical framework for the evalua-tion of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The experimental evidence indicates that the methods proposed in this thesis present significant improvements over previously published techniques. In addition the evaluation framework was equipped with novel evaluation metrics that favor the exploration of novel material and incorporates a semantic relationship metric between documents. The algorithms developed in this thesis evolve high quality queries, which have the capability of retrieving results that are relevant to the user context. These results have a positive impact on the way users interact with available resources.

URI

http://repositoriodigital.uns.edu.ar/handle/123456789/2153

Colecciones

Tesis de postgrado [1479]