Circuitos integrados de bajo consumo para arquitecturas de redes neuronales profundas
Fecha
2024Autor
Rodríguez, Nicolás Daniel
Director
Julián, PedroColaborador
Paolini, EduardoPalabras clave
Ingeniería; Circuitos neuronales profundas; Redes neuronales profundas; Circuitos integrados eficientes; Sistema en chip; Algoritmo simplicial simétricoMetadatos
Mostrar el registro completo del ítemResumen
Esta tesis se enfoca en el desarrollo e implementación de aceleradores en circuitos
integrados de uso específico (ASIC) para la ejecución eficiente de Redes Neuronales
Profundas (DNN). Estas redes se caracterizan por involucrar una gran cantidad de
datos, tanto de parámetros como de entradas, por lo que resulta imprescindible no
solo un cómputo energéticamente eficiente, sino también un balance óptimo entre
la transferencia de datos y el procesamiento. Para ello, en este trabajo se propone
un algoritmo Simplicial Simétrico a Canales Separados (ChSymSim), que produce
implementaciones de bajo consumo, y se optimiza una arquitectura que permite so
portar la ejecución de distintos tipos de capas (diversas configuraciones de precisión,
kernel, stride y padding) manteniendo la eficiencia energética.
Para poner en evidencia el impacto de la implementación, se realizaron dos prototipos preliminares con estructuras de prueba y evaluación (I/O de datos, buses,
configuración, control) y se culminó con la fabricación de un sistema en chip (SoC)
complejo de 9mm2 en una tecnología de 65nm. Adicionalmente, se desarrollaron
técnicas de entrenamiento con cuantización (QAT), optimizadas para funciones Simpliciales Simétricas en punto fijo.
Los experimentos realizados mostraron una eficiencia energética elevada, alcanzando valores promedios superiores a los 4 TOPS/W bajo diversas configuraciones,
con un máximo de 12,12 TOPS/W. Estos resultados permiten asegurar que el acelerador ChSymSim propuesto es una solución viable para el procesamiento eficiente
de algoritmos para aprendizaje de máquina (ML) en dispositivos embebidos de baja
potencia. This thesis focuses on the development and implementation of accelerators in
application-specific integrated circuits (ASIC) for the efficient execution of Deep
Neural Networks (DNN). These networks involve a large amount of data, both in
terms of parameters and inputs, making it essential to achieve not only energy
efficient processing but also an optimal balance between data transfer and compu
tation. To this end, this work proposes a Channel-wise Symmetric Simplicial al
gorithm (ChSymSim), which yields low-power implementations, and optimizes an
architecture that supports the execution of different types of layers (various configu
rations of precision, kernel, stride, and padding) while maintaining energy efficiency.
To highlight the impact of the implementation, two preliminary prototypes were
developed with testing and evaluation structures (data I/O, buses, configuration,
control), culminating in the fabrication of a complex system-on-chip (SoC), with
an area of 9mm2 in a 65nm technology. Additionally, quantization-aware training
(QAT) techniques were developed, optimized for Symmetric Simplicial functions in
fixed-point arithmetic.
The experiments conducted showed high energy efficiency, achieving average va
lues above 4 TOPS/W under various configurations, with a maximum of 12,12 TOP
S/W. These results confirm that the proposed ChSymSim accelerator is a viable so
lution for the efficient processing of machine learning (ML) algorithms in low-power
embedded devices.
Colecciones
- Tesis de postgrado [1461]