Desarrollo de técnicas de computación evolutiva : multiobjetivo y aprendizaje automático para la inferencia, modelado y simulación de redes regulatorias
Fecha
2014Autor
Gallo, Cristian Andrés
Director
Ponzoni, IgnacioCarballido, Jessica Andrea
Palabras clave
Ciencias de la computación; Redes regulatorias de genes; Aprendizaje automático; Algoritmos evolutivos; Gene regulatory networks; Machine learning; Evolutionary algorithmsMetadatos
Mostrar el registro completo del ítemResumen
Durante las últimas décadas el desarrollo de la bioinformática nos ha permitido lograr una mayor
comprensión de los procesos biológicos que ocurren con nuestras células a nivel molecular. Al
respecto, las mejoras e innovaciones en la tecnología continúan estimulando la mejora en la calidad de
los datos biológicos que pueden ser obtenidos a nivel genómico. En tal sentido, grandes volúmenes de
información pueden ser encontrados en formas de anotaciones o bases de datos computacionales.
Estos conjuntos de datos, apropiadamente combinados, tienen el potencial de posibilitar
descubrimientos novedosos que lleven a avances en campos tan relevantes para el desarrollo nacional
como son la biotecnología o la medicina post-genómica.
En particular, esta tesis se centra en la investigación de técnicas de aprendizaje automático y
computación evolutiva para la inferencia de redes regulatorias de genes a partir de datos de expresión
de genes, a nivel de genomas completos. Una red regulatoria de genes es una colección de segmentos
de ADN (ácido desoxirribonucleico) en una célula que interactúan unos con otros (indirectamente a
través del producto de su expresión) y con otras sustancias en la célula, gobernando así las tasas de
transcripción de los genes de la red en ARNm (ácido ribonucleico mensajero).
La principal contribución de esta tesis esta relacionada con el desarrollo de metodologías
computacionales que asistan, a expertos en bioinformática, en la ingeniería inversa de las redes
regulatorias de genes. En tal sentido, se desarrollaron algoritmos de computación evolutiva que
permiten la identificación de grupos de genes co-expresados bajo ciertos subconjuntos de condiciones
experimentales. Estos algoritmos se aplican sobre datos de expresión de genes, y optimizan
características deseables desde el punto de vista biológico, posibilitando la obtención de relaciones de
co-expresión relevantes. Tales algoritmos fueron cuidadosamente validados por medio de
comparaciones con otras técnicas similares disponibles en la literatura, realizando estudios con datos
reales y sintéticos a fin de mostrar la utilidad de la información extraída. Además, se desarrolló un
algoritmo de inferencia que permite la extracción de potenciales relaciones causa-efecto entre genes,
tanto simultáneas como también aquellas diferidas en el tiempo. Este algoritmo es una evolución de
una técnica presentada con anterioridad, e incorpora características novedosas como la posibilidad de
inferir reglas con múltiples retardos en el tiempo, a nivel genoma completo, e integrando múltiples
conjuntos de datos. La técnica se validó mostrando su eficacia respecto de otros enfoques relevantes de
la literatura. También se estudiaron los resultados obtenidos a partir de conjuntos de datos reales en
términos de su relevancia biológica, exponiendo la viabilidad de la información inferida. Finalmente,
estos algoritmos se integraron en una plataforma de software que facilita la utilización de estas técnicas
permitiendo la inferencia, manipulación y visualización de redes regulatorias de genes. In recent decades, the development of bioinformatics has allowed us to achieve a greater
understanding of the biological processes that occur at the molecular level in our cells. In this
regard, the improvements and innovations in technology continue to boost the improvement in
the quality of the biological data that can be obtained at the genomic level. In this regard, large
volumes of information can be found in forms of ontology's or computer databases. These
datasets, appropriately combined, have the potential to enable novel discoveries that lead to
progress in relevant fields to national development such as biotechnology and post-genomic
medicine.
In particular, this thesis focuses on the research of machine learning techniques and
evolutionary computation for the inference of gene regulatory networks from gene expression
data at genome-wide levels. A gene regulatory network is a collection of segments of DNA
(deoxyribonucleic acid) in a cell which interact with each other (indirectly through their
products of expression) and with other substances in the cell, thereby governing the rates of
network genes transcription into mRNA (messenger ribonucleic acid).
The main contribution of this thesis is related to the development of computational
methodologies to attend experts in bioinformatics in the reverse engineering of gene regulatory
networks. In this sense, evolutionary algorithms that allow the identification of groups of coexpressed
genes under certain subsets of experimental conditions were developed. These
algorithms are applied to gene expression data, and optimize desirable characteristics from the
biological point of view, allowing the inference of relevant co-expression relationships. Such
algorithms were carefully validated by the comparison with other similar techniques available in
the literature, conducting studies with real and synthetic data in order to show the usefulness of
the information extracted. Furthermore, an inference algorithm that allows the extraction of
potential cause-effect relationships between genes, both simultaneous and time-delayed, were
developed. This algorithm is an evolution of a previous approach, and incorporates new features
such as the ability to infer rules with multiple time delays, at genome-wide level, and integrating
multiple datasets. The technique was validated by showing its effectiveness over other relevant
approaches in the literature. The results obtained from real datasets were also studied in terms of
their biological relevance by exposing the viability of the inferred information. Finally, these
algorithms were integrated into a software platform that facilitates the use of these techniques
allowing the inference, manipulation and visualization of gene regulatory networks.
Colecciones
- Tesis de postgrado [1412]