Selección de variables y descubrimiento causal a partir de textos de artículos periodísticos
Fecha
2021Autor
Maisonnave, Mariano
Director
Maguitman, Ana GabrielaTohmé, Fernando
Palabras clave
Causalidad; Ciencias de la computación; Procesamiento de lenguaje natural; Pesaje de términos; Detección de eventosMetadatos
Mostrar el registro completo del ítemResumen
La existencia de relaciones o dependencias estadísticas en los datos (correlaciones) se puede estudiar mediante herramientas estadísticas que se han desarrollado en los últimos dos siglos. Sin embargo, una pregunta tan simple de formular como: “¿Existe un vínculo causal entre estas dos variables correlacionadas?'' presenta un desafío diferente que escapa a las respuestas que pueden brindar herramientas estadísticas clásicas, ya que, como se suele enseñar en todos los cursos de estadística: “correlación no es causalidad''. La necesidad por parte de la comunidad científica de responder preguntas causales (¿El fumar causa cáncer? ¿Este medicamento es efectivo para tratar esta enfermedad?, etc.) generó un esfuerzo para la creación de herramientas formales que permitan descubrir y cuantificar efectos causales. Algunos ejemplos son la técnica basada en la Causalidad de Granger (GC por sus siglas en inglés) y la técnica de descubrimiento de estructuras causales PC (que recibe el nombre por las iniciales de sus autores).
Por otro lado, existe un gran interés por parte de la comunidad de procesamiento de lenguaje natural (NLP por sus siglas en inglés) en el descubrimiento de relaciones causales a partir de textos. Sin embargo, la mayoría de los esfuerzos están enfocados en recuperar información causal ya explícita en el texto. Por ejemplo, en la siguiente frase sobre la crisis argentina del 2001: “Sucedió en el marco de una crisis mayor que se extendió entre 1998 y 2002, causada por una larga recesión que disparó una crisis humanitaria'' se tendría por objetivo extraer los dos vínculos causales que relacionan los tres eventos descritos (la recesión, una crisis económica y otra humanitaria). Estos trabajos, si bien tienen por objetivo el descubrimiento causal, utilizan herramientas más cercanas al área de NLP que a las herramientas usuales en la literatura sobre descubrimiento causal (tales como GC o PC).
Esta tesis propone un marco de trabajo (framework) en el que, a través de la utilización de herramientas como GC o PC, se plantea como objetivo el descubrimiento causal entre variables extraídas de textos de artículos periodísticos cuya relación causal no necesariamente está explícita en el texto. De este modo se obtiene una red causal, donde cada nodo es una variable relevante y cada arco un vínculo causal. Para alcanzar este objetivo primero se proponen soluciones al desafío de extraer y filtrar variables relevantes a partir de textos. Este problema se resuelve mediante el uso de dos enfoques tomados de NLP: (1) una técnica de pesaje de términos y (2) un modelo de detección de menciones de eventos en curso a partir de textos de artículos periodísticos. Se crea un conjunto de datos utilizando las variables extraídas usando estas herramientas de NLP ((1) y (2)). Este conjunto de datos es usado en el paso posterior de extracción de relaciones causales. Se estudian nueve técnicas de descubrimiento causal, y se lleva a cabo un estudio comparativo de la aplicación de las técnicas en más de sesenta conjuntos de datos sintéticos y en un conjunto de datos real de demanda de energía eléctrica. Finalmente, un caso de uso es presentado donde se aplican las mejores técnicas de descubrimiento causal sobre los conjuntos de datos de variables extraídas de los textos de artículos periodísticos, dando lugar así a una demostración completa de la funcionalidad del framework (extracción de variables de textos y descubrimiento causal a partir de las mismas).
Los resultados obtenidos muestran la gran flexibilidad del framework, permitiendo la combinación de variables de diferentes tipos, con diferentes procesos de construcción, posibilitando la extracción causal posterior. Más aún, dando evidencia que información no textual podría ser incorporada al framework (por ejemplo, precios de materias primas, precios de acciones de la bolsa, indicadores socioeconómicos, entre otros). Este framework permitiría a un experto partir de un dominio, que puede ser un conjunto de textos periodísticos sobre algún episodio del mundo real, y obtener de manera automática un conjunto de variables relevantes a ese dominio (de las cuales puede elegir visualizar solo algunas, o todas). Posteriormente, se le mostraría al experto un conjunto de vínculos causales extraídos de manera automática, que vincularía a las diferentes variables relevantes al dominio. El grafo causal resultante (variables y vínculos relevantes a un dominio) puede representar una herramienta de gran interés para permitir a un experto tener una visión procesada y resumida de las interdependencias, permitiéndole un mejor entendimiento del dominio o posibilitando sacar conclusiones o explicaciones sobre eventos que se sucedieron o están sucediendo.
Las primeras dos contribuciones de esta tesis están enfocadas en la propuesta de técnicas novedosas de NLP para la etapa de extracción de variables. En esta etapa se propone, primero, una herramienta nueva para pesaje de términos y estimación de puntajes de relevancia de términos asignados por usuarios. Segundo, se propone una tarea de NLP, de detección de eventos en curso (OED por sus siglas en inglés) para ser usados como variables en el framework. Se muestran los resultados de diferentes modelos para la tarea de OED, alcanzando un modelo superador con respecto a modelos existentes para tareas similares. Estas dos contribuciones permitieron la extracción de variables relevantes para ser usadas como nodos del grafo. Finalmente, la tercera contribución principal es la presentación de un análisis comparativo de nueve técnicas de extracción de causalidad y la posterior aplicación de las mejores para un ejemplo de un caso de uso del framework completo. The existence of statistical relationships or dependencies in the data (correlations) can be studied using well-known statistical tools that have been developed over the last two centuries. However, a question as simple to pose as “Is there a causal link between these two correlated variables?'' entails a whole set of different challenges that escape from the answer that classical statistical tools can provide, since, as is usually taught in statistical courses: “correlation is not causation''.
The need by the scientific community to answers to causal questions (such as: “does smoking cause cancer?'' or “is this drug effective in treating this disease?'') generated an effort to create formal tools for detecting and quantifying causal effects. Some examples are the methods based on the Granger Causality (GC) test and the PC causal structure learning algorithm.
On the other hand, there is great interest from the natural language processing (NLP) community in discovering causal relationships from texts.
However, most efforts are focused on recovering causal information already explicit in the text.
For example, in the following sentence about the Argentine crisis of 2001: “It happened in the context of a bigger crisis that lasted between 1998 and 2002, caused by a long recession that triggered a humanitarian crisis'' the goal would be to extract the two causal links that relate the three events described (the recession, an economic crisis, and a humanitarian crisis).
In that literature, although the goal is also to detect causal relations, tools closer to the NLP field are used, instead of the usual tools in the literature of causal discovery (such as GC-based techniques or PC).
This thesis proposes a framework that aims at performing causal discovery between variables extracted from texts of newspaper articles using tools like GC and PC. In contrast to other approaches, the causal relationships do not need to be explicit in the texts.
Using this framework, a causal network is obtained, where each node is a relevant variable and each edge is a causal link.
To achieve this goal, the first challenge addressed is to extract and select relevant variables from texts.
This is achieved by the use of two NLP approaches: (1) a term weighting technique and (2) a model for detecting ongoing event mentions in news articles.
A data set is built using these two types of variables extracted from texts using these two NLP approaches ((1) and (2)).
This data set is used in the following stage of causal discovery.
Nine causal discovery techniques are analyzed, and a comparative study of the application of these techniques is carried out in sixty-four synthetic data sets and in one real-world electricity demand data set.
Finally, a use case is presented where the best causal discovery techniques are applied to the data sets of variables extracted from the texts of newspaper articles, thus giving rise to a complete demonstration of the functionality of the framework (extraction of text variables and causal discovery from them).
The results obtained show the great flexibility of the framework, which allows the combination of variables of different types (potentially with different generative processes), enabling the subsequent causal extraction.
Furthermore, they provide evidence that non-textual information could be incorporated into the framework (for example, commodity prices, stock prices, and socioeconomic indicators, among others).
This framework would allow an expert to start from a domain, which can be defined as a set of newspaper texts about some real-world episode, and automatically obtain a set of variables relevant to that domain (from which the expert could choose to visualize either a subset or the entire set).
Subsequently, the expert would be shown a set of causal links extracted automatically, linking the relevant variables of the domain.
The resulting causal graph (variables and edges relevant to a domain) can become a tool of great interest for an expert to process and summarize the variables and interdependencies in a domain, allowing a better understanding and making it possible to draw conclusions or find explanations for events that happened or are happening in the domain.
The first two contributions of this thesis are focused on the proposal of novel NLP techniques to be applied at the variable extraction stage.
First, a new tool for weighing terms and estimating relevance scores of terms assigned by users is proposed.
Secondly, an NLP task consisting of the detection of ongoing events (OED) from texts is proposed to use those events as variables in the framework.
The results for different instances of the OED task are shown, indicating that the model outperforms state-of-the-art models for similar tasks.
These two contributions allow the extraction of relevant variables to be used as nodes of the graph.
Finally, the third main contribution is the presentation of a comparative analysis of nine causality extraction techniques and the subsequent application of the best ones on a use case of the complete framework.
Colecciones
- Tesis de postgrado [1417]