Expansión de la capacidad de los filtros convolucionales en redes neuronales

Larregui, Juan Ignacio

dc.contributor.advisor	Castro, Silvia
dc.contributor.author	Larregui, Juan Ignacio
dc.date	2021-05-10
dc.date.accessioned	2023-06-12T16:17:38Z
dc.date.available	2023-06-12T16:17:38Z
dc.date.issued	2020
dc.identifier.other	2021-1818La	es_AR
dc.identifier.uri	https://repositoriodigital.uns.edu.ar/handle/123456789/6402
dc.description.abstract	En los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.	es_AR
dc.description.abstract	In the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures.	es_AR
dc.format	application/pdf	es_AR
dc.format.extent	xx, 89 p.	es_AR
dc.language.iso	spa	es_AR
dc.rights	Reconocimiento-NoComercial-SinObraDerivada 4.0 (CC BY-NC-ND 4.0)	es_AR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	es_AR
dc.subject	Ciencias de la computación	es_AR
dc.subject	Visión artificial	es_AR
dc.title	Expansión de la capacidad de los filtros convolucionales en redes neuronales	es_AR
dc.type	tesis doctoral	es_AR
bcuns.collection.name	Biblioteca Digital Académica	es
bcuns.collection.acronym	BDA	es
bcuns.collection.url	http://tesis.uns.edu.ar/	es
bcuns.collection.institution	Biblioteca Central de la Universidad Nacional del Sur	es
bcuns.depositorylibrary.name	Biblioteca Central de la Universidad Nacional del Sur	es
bcuns.author.affiliation	Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación	es_AR
bcuns.author.affiliation	Consejo Nacional de Investigaciones Científicas y Técnicas - Universidad Nacional del Sur. Instituto de Ciencias e Ingeniería de la Computación	es_AR
bcuns.authoraffiliation.acronym	UNS	es_AR
bcuns.authoraffiliation.acronym	CONICET-ICIC	es_AR
bcuns.authoraffiliation.country	Argentina	es_AR
bcuns.advisor.affiliation	Consejo Nacional de Investigaciones Científicas y Técnicas - Universidad Nacional del Sur. Instituto de Ciencias e Ingeniería de la Computación	es_AR
bcuns.advisoraffiliation.acronym	CONICET-ICIC	es_AR
bcuns.advisoraffiliation.country	Argentina	es_AR
bcuns.defense.city	Bahía Blanca	es
bcuns.defense.province	Buenos Aires	es
bcuns.defense.country	Argentina	es
bcuns.programme.name	Doctorado en Ciencias de la Computación	es_AR
bcuns.programme.department	Departamento de Ciencias e Ingeniería de la Computación	es_AR
bcuns.thesisdegree.name	Doctor en Ciencias de la Computación	es_AR
bcuns.thesisdegree.grantor	Universidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computación	es_AR
uns.type.publicationVersion	accepted	es_AR
bcuns.depositarylibrary.acronym	EUN	es
bcuns.subject.keywords	Aprendizaje profundo	es_AR
bcuns.subject.keywords	Redes neuronales	es_AR
bcuns.subject.keywords	Filtros convolucionales	es_AR
bcuns.subject.keywords	Convolución dilatada	es_AR
dcterms.accessRights.openAire	info:eu-repo/semantics/openAccess	es_AR
uns.oai.snrd	si	es_AR

Ficheros en el ítem

Nombre:: LARREGUI J.I._TESIS.pdf
Tamaño:: 1.204Mb
Formato:: PDF
Descripción:: Tesis Doctoral - Texto Completo

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis de postgrado [1479]
Reúne los trabajos finales de los estudios de posgrado de la UNS (especializaciones, maestrías y doctorados)

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Reconocimiento-NoComercial-SinObraDerivada 4.0 (CC BY-NC-ND 4.0)