Arquitecturas hardware de procesamiento para redes neuronales por eventos
Fecha
2024Autor
Gigena Ivanovich, Diego
Director
Julián, PedroColaborador
De Marziani, CarlosPalabras clave
Ingeniería eléctrica; Acelerador de hardware; Inteligencia artificial embebida; Bajo consumo; Procesamiento de eventos; Redes neuronales convolucionalesMetadatos
Mostrar el registro completo del ítemResumen
En los últimos años, el avance exponencial en la capacidad de procesamiento computacional, combinado con el desarrollo de la inteligencia artificial, en particular de las redes neuronales profundas, ha impulsado avances notables en áreas diversas como la medicina, el Internet de las cosas (IoT) y los vehículos inteligentes, alcanzando resultados sobresalientes gracias al aprendizaje profundo. Los sistemas de visión artificial capturan y procesan secuencias de fotogramas a una tasa fija de cuadros (FPS), generalmente a través de operaciones de convolución que extraen características para generar un resultado. Sin embargo, este procesamiento es altamente demandante en términos energéticos dado que requiere el procesamiento completo de una imagen, lo cual se agrava a medida que se requieren tasas de cuadros más elevadas. Además, las cámaras convencionales presentan limitaciones como el desenfoque por movimiento cuando intentan capturar escenas rápidas.
En contraposición, los sensores de visión por eventos, debido a su principio de funcionamiento, registran únicamente los cambios en la dinámica de la escena, lo que permite alcanzar altas resoluciones temporales con un menor ancho de banda. Para aprovechar estas ventajas, es fundamental contar con plataformas de hardware especializadas que puedan procesar de manera eficiente.
En esta tesis se proponen técnicas para la adquisición y el procesamiento de datos por eventos mediante redes neuronales convolucionales profundas y arquitecturas para implementaciones energéticamente eficientes en circuitos integrados CMOS.
Para ello se utilizan memorias direccionables por contenido (CAM, del inglés Content Addressable Memories), dado que presentan ventajas para la adquisición, actualización y almacenamiento de eventos y matrices dispersas en tiempo real.
Una contribución central de la presente tesis doctoral es la implementación de un Sistema en chip (SoC) constituido por dos memorias CAM capaces de almacenar 1024 coordenadas de una imagen de a lo sumo 512 x 512 pixeles. Además, el SoC integra un procesador RISC V dedicado para el manejo del sistema, un acelerador para el cómputo de características con su decodificador de coordenadas, 80 KiB de memoria RAM, dos bloques dedicados para la adquisición por eventos y ocho QSPI para tráfico de datos. Este sistema, que permite implementar en forma secuencial varias capas convolucionales, fue fabricado en una tecnología CMOS de 65 nm, produciendo un SoC de 〖9 mm〗^2, el cual fue probado exitosamente y verificado en tiempo real con datos tanto artificiales como provenientes de una cámara por eventos comercial.
Las mediciones de potencia y eficiencia realizadas, demostraron una eficiencia energética que supera en al menos un 16 % a los consumos obtenidos mediante un esquema de cómputo de matriz densa tradicional, particularmente para casos de matrices altamente dispersas con niveles de activación menores al 1 %. In recent years, the exponential growth in computational processing power,
combined with the development of artificial intelligence—particularly deep neural networks—has driven remarkable advances in diverse fields such as medicine,
the Internet of Things (IoT), and intelligent vehicles, achieving outstanding results thanks to deep learning. Artificial vision systems capture and process frame
sequences at a fixed frame rate (FPS), generally via convolution operations that
extract features to produce an output. However, this processing is highly energy-
intensive, since it requires the full processing of each image, an issue that becomes
more severe as higher frame rates are demanded. In addition, conventional cameras suffer from motion blur when attempting to capture fast scenes.
In contrast, event-based vision sensors, due to their operating principle, record
only changes in the scene’s dynamics, allowing them to achieve high temporal
resolution with lower bandwidth. To exploit these advantages, it is essential to
have specialized hardware platforms that can process events efficiently.
This thesis proposes techniques for the acquisition and processing of event-
based data using deep convolutional neural networks, as well as architectures
for energy-efficient implementation in CMOS integrated circuits. To this end,
content-addressable memories (CAMs) are employed, since they offer advantages
for the real-time acquisition, updating, and storage of events and sparse matrices.
A central contribution of this doctoral thesis is the implementation of a
system-on-chip (SoC) comprising two CAMs capable of storing 1024 coordina-
tes from an image up to 512 × 512 pixels. The SoC also integrates a dedicated
RISC-V processor for system management, a feature-compute accelerator with its
coordinate decoder, 80 KiB of RAM, two dedicated event-acquisition blocks, and
eight QSPI interfaces for data traffic. This system—able to sequentially implement multiple convolutional layers—was fabricated in a 65 nm CMOS process,
yielding a 9 mm2 SoC, which was successfully tested and verified in real time
using both synthetic data and data from a commercial event-based camera.
Power and efficiency measurements demonstrated an energy efficiency at least
16 % higher than that of a traditional dense-matrix computation scheme, parti-
cularly in cases of highly sparse matrices with activation levels below 1 %.
Colecciones
- Tesis de postgrado [1442]