Mostrar el registro sencillo del ítem

dc.contributor.advisorCastro, Silvia
dc.contributor.authorLarregui, Juan Ignacio
dc.date2021-05-10
dc.date.accessioned2023-06-12T16:17:38Z
dc.date.available2023-06-12T16:17:38Z
dc.date.issued2020
dc.identifier.other2021-1818Laes_AR
dc.identifier.urihttps://repositoriodigital.uns.edu.ar/handle/123456789/6402
dc.description.abstractEn los últimos años el campo de la Visión Artificial ha experimentado un crecimiento acelerado con el éxito de las Redes Neuronales Artificiales y el Aprendizaje Profundo. La cantidad de datos etiquetados que se han relevado, las mejoras en hardware especializado y las importantes modificaciones introducidas en los algoritmos tradicionales surgidos en la segunda mitad del siglo pasado han posibilitado el avance en problemas complejos que parecían imposibles de abordar pocos años atrás. En particular, las Redes Neuronales Convolucionales se han convertido en el modelo más popular dentro de este campo de las Ciencias de la Computación. A lo largo de la década del 2010, los trabajos que avanzaron el estado del arte en los diferentes problemas de la Visión Artificial han incluido casi exclusivamente redes de este tipo. Sin embargo, algunos componentes de las Redes Convolucionales han mantenido sus estructuras y definiciones originales. Este es el caso de los filtros convolucionales, los cuales han mantenido su estructura geométrica estática en las últimas décadas. El objetivo general de esta tesis es explorar las limitaciones inherentes a la estructura tradicional de los filtros convolucionales, proponiendo nuevas definiciones y operaciones para superar las mismas. En esta línea, se presenta una generalización de la definición de los filtros convolucionales, extendiendo el concepto de dilatación de los mismos a intervalos continuos sobre las dimensiones espaciales. Adicionalmente, se presenta una nueva definición de la Convolución Dilatada para permitir comportamientos dinámicos durante el proceso de entrenamiento. Basadas en las definiciones introducidas, se proponen las nuevas operaciones de Convolución de Dilatación Adaptativa y Convolución de Dilatación Aleatoria. La primera introduce a las redes convolucionales la capacidad de optimizar la dilatación de los filtros de acuerdo a los datos de entrada, de manera de adaptarse dinámicamente a los cambios semánticos y geométricos presentes en las diferentes escenas. La segunda permite explorar la utilización de filtros de dilataciones aleatorias para simular transformaciones de escala, con el objetivo de aumentar la invariancia a escala de una red convolucional, una de sus limitaciones más conocidas. Finalmente, se definieron casos de estudio para Clasificación de Imágenes y Segmentación Semántica, de manera de obtener métricas cuantitativas que permitan evaluar las propuestas realizadas. Se realizaron múltiples entrenamientos de diferentes arquitecturas y configuraciones para redes conocidas en la literatura, mostrando resultados favorables con la inclusión de las operaciones propuestas. Más aún, el diseño de estas es modular, por lo que pueden ser incluidas en arquitecturas arbitrarias.es_AR
dc.description.abstractIn the last years, the field of Computer Vision has seen incredible success through the adoption of Artificial Neural Networks and Deep Learning. The amount of labeled data, the improvements in specialized hardware, and further development in the traditional algorithms, have enabled advances in complex problems that seemed impossible to approach a few years before. In particular, these networks have become the most popular models within this field of Computer Sciences. Throughout the last decade, the state-of-the-art research in the different Computer Vision problems had almost exclusively included this type of model. However, the structure of some components of Convolutional Networks has remained almost unaffected. This is the case with convolutional filters, which have kept their original geometric structure in the last decades. The overall goal of this thesis is to explore the limitations inherent to the traditional structure of the convolutional filters, introducing new definitions and operations to overcome them. In this context, a generalization of the definition of convolutional filters is presented, extending the concept of dilation to continuous intervals in the spatial dimensions. Additionally, a new definition for the Dilated or Atrous Convolution is proposed, which enables dynamic behaviors in the dilation of the filters during the training process. Based on these new definitions, two new operations are presented: the Adaptive Dilation Convolution and the Random Dilation Convolution. The first one introduces the capacity for Convolutional Networks to optimize the dilation of the filters according to the input data, dynamically adapting to the semantic and geometric differences found across scenes. The second, enables the exploration of random dilations to simulate different scale transformations in the data, aiming to increase the scale invariance of these networks, one of their known limitations. Finally, different study cases were defined for Image Classification and Semantic Segmentation, in order to evaluate the introduced operations using quantitative metrics. Several training experiments were performed, using different architectures and configurations for renowned networks, showing positive results during the inclusion of the proposed operations. Moreover, their design is modular, enabling them to be included in arbitrary architectures.es_AR
dc.formatapplication/pdfes_AR
dc.format.extentxx, 89 p.es_AR
dc.language.isospaes_AR
dc.rightsReconocimiento-NoComercial-SinObraDerivada 4.0 (CC BY-NC-ND 4.0)es_AR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/es_AR
dc.subjectCiencias de la computaciónes_AR
dc.subjectVisión artificiales_AR
dc.titleExpansión de la capacidad de los filtros convolucionales en redes neuronaleses_AR
dc.typetesis doctorales_AR
bcuns.collection.nameBiblioteca Digital Académicaes
bcuns.collection.acronymBDAes
bcuns.collection.urlhttp://tesis.uns.edu.ar/es
bcuns.collection.institutionBiblioteca Central de la Universidad Nacional del Sures
bcuns.depositorylibrary.nameBiblioteca Central de la Universidad Nacional del Sures
bcuns.author.affiliationUniversidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computaciónes_AR
bcuns.author.affiliationConsejo Nacional de Investigaciones Científicas y Técnicas - Universidad Nacional del Sur. Instituto de Ciencias e Ingeniería de la Computaciónes_AR
bcuns.advisor.affiliationConsejo Nacional de Investigaciones Científicas y Técnicas - Universidad Nacional del Sur. Instituto de Ciencias e Ingeniería de la Computaciónes_AR
bcuns.defense.cityBahía Blancaes
bcuns.defense.provinceBuenos Aireses
bcuns.defense.countryArgentinaes
bcuns.programme.nameDoctorado en Ciencias de la Computaciónes_AR
bcuns.programme.departmentDepartamento de Ciencias e Ingeniería de la Computaciónes_AR
bcuns.thesisdegree.nameDoctor en Ciencias de la Computaciónes_AR
bcuns.thesisdegree.grantorUniversidad Nacional del Sur. Departamento de Ciencias e Ingeniería de la Computaciónes_AR
uns.type.publicationVersionacceptedes_AR
bcuns.depositarylibrary.acronymEUNes
bcuns.subject.keywordsAprendizaje profundoes_AR
bcuns.subject.keywordsRedes neuronaleses_AR
bcuns.subject.keywordsFiltros convolucionaleses_AR
bcuns.subject.keywordsConvolución dilatadaes_AR
dcterms.accessRights.openAireinfo:eu-repo/semantics/openAccesses_AR


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Reconocimiento-NoComercial-SinObraDerivada 4.0 (CC BY-NC-ND 4.0)
Excepto si se señala otra cosa, la licencia del ítem se describe como Reconocimiento-NoComercial-SinObraDerivada 4.0 (CC BY-NC-ND 4.0)