class: title-slide .title[ # Clase 2. Inferencia causal ] .subtitle[ ## Evaluación de Programas ] .author[ ### Irvin Rojas <br> [rojasirvin.com](https://www.rojasirvin.com/) <br> [<i class="fab fa-github"></i>](https://github.com/rojasirvin) [<i class="fab fa-twitter"></i>](https://twitter.com/RojasIrvin) [<i class="ai ai-google-scholar"></i>](https://scholar.google.com/citations?user=FUwdSTMAAAAJ&hl=en) ] .affiliation[ ### Centro de Investigación y Docencia Económicas <br> División de Economía ] --- # Agenda 1. ¿Por qué evaluar? 1. Sobre la importancia del diseño 1. Definición de causalidad --- class: inverse, middle, center # ¿Por qué evaluar? --- # ¿Por qué evaluar? - Probar teoría económica - Explicar las características de los abundantes datos microeconómicos - Desde la perspectiva de políticas públicas - Rendición de cuentas - Estimación de relaciones costo-beneficio - Replicabilidad - Competencia por fondos -- - Queremos evidencia más allá de las anécdotas - Una evaluación responde a la pregunta de *qué parte de un cambio `\(\Delta y\)` en una variable de interés se puede atribuir a un programa `\(T\)`* --- # Programas implementados de forma deliberada - Gobiernos en todos los niveles implementan programas públicos con distintos objetivos: - Salud - Educación - Empleo - Mejoras urbanas - Siempre encontrarán referencias al extinto *PROGRESA* - *OPORTUNIDADES* - *PROSPERA* que fue parte fundamental del diseño de intervenciones diseñadas para ser evaluadas - ¿Qué saben de este programa? --- # Impacto de otro tipo de cambios exógenos - Lo que aprenderemos puede aplicarse a otras preguntas causales - El impacto de la aparición en la primera página de una boleta en la probabilidad de ser electo - El impacto del cambio de legislación relativa al divorcio o al aborto - El efecto de cambios geopolíticos, como la reunificación de Alemania - El impacto del cambio climático en la productividad -- - En todas estas preguntas estamos pensando en la idea de **causalidad** - Lo que queremos conocer es qué le hubiera pasado a la población que recibió la intervención de no haberla recibido: el **contrafactual** --- class: inverse, middle, center # La epidemiología está de moda --- # La epidemia de cólera en Londres - En aquellos tiempos (1854) se creía que el cólera se transmitía por medio del *miasma* en el aire - Snow conjeturaba que la causa era un organismo vivo que se introducía en el cuerpo - Siguió una estrategia que podemos imitar: -- 1. Localizar el primer caso 1. Rastrear al segundo y notar que ocupó el mismo espacio que el primero 1. Notar las diferencias en la limpieza entre los hogares infectados y los adyacentes 1. Creó un mapa para rastrear a los infectados 1. Notó que los infectados eran atendidos por la ciertas compañías de agua 1. Experimentó cortando el suministro de compañías sospechosas --- # Para los que aman los mapas .pull-left[ <div class="figure" style="text-align: center"> <img src="https://thumbs-prod.si-cdn.com/trC5qb_ILIffjzsnX3kEbvscwM0=/fit-in/1072x0/https://public-media.si-cdn.com/filer/20110520102403643px-Snow-cholera-map-1-300x279.jpg" alt="Fuente: Smithsonian Magazine" width="90%" /> <p class="caption">Fuente: Smithsonian Magazine</p> </div> ] .pull-right[ <iframe width='100%' height='450' frameborder='0' src='https://simonrogers.carto.com/tables/john_snow/embed_map?title=false&description=false&search=true&shareable=true&cartodb_logo=true&sql=SELECT%20*%20FROM%20john_snow%20ORDER%20BY%20num_deaths%2C%20geom_type%20ASC&sw_lat=51.51177397755052&sw_lon=-0.1421356201171875&ne_lat=51.51477858782044&ne_lon=-0.1318359375' allowfullscreen webkitallowfullscreen mozallowfullscreen oallowfullscreen msallowfullscreen></iframe> ] - Acá les dejo una nota en [The Guardian](https://www.theguardian.com/news/datablog/2013/mar/15/john-snow-cholera-map) sobre los mapas para hacer periodismo --- # El problema era el agua .pull-left[ - La Tabla 1 nos muestra la idea básica de su **diseño** - Es como si hubiera habido un experimento: casas comparativamente iguales recibían agua de distintas compañías - Podemos notar las diferencias en el número de muertes por compañía - Muchas veces no necesitaremos cosas más complicadas que esto - A partir de estos hallazgos se propusieron algunas políticas que eran consistentes con la hipótesis de transmisión - En muchos sentidos Snow hizo un trabajo de detective ] .pull-right[ <table class=" lightable-paper lightable-hover" style='font-family: "Arial Narrow", arial, helvetica, sans-serif; margin-left: auto; margin-right: auto;border-bottom: 0;'> <thead> <tr><th style="padding-bottom:0; padding-left:3px;padding-right:3px;text-align: center; font-weight: bold; padding-right: 4px; padding-left: 4px; background-color: white !important;" colspan="4"><div style="TRUE">Tabla XI de Snow</div></th></tr> <tr> <th style="text-align:left;"> Ciudad </th> <th style="text-align:center;"> Hogares </th> <th style="text-align:center;"> Muertes por cólera </th> <th style="text-align:center;"> Muertes / 10 mil hogares </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> Southwark y Vauxhall </td> <td style="text-align:center;"> 40,046 </td> <td style="text-align:center;"> 1,263 </td> <td style="text-align:center;"> 315 </td> </tr> <tr> <td style="text-align:left;"> Lambeth </td> <td style="text-align:center;"> 26,107 </td> <td style="text-align:center;"> 98 </td> <td style="text-align:center;"> 37 </td> </tr> <tr> <td style="text-align:left;"> Resto de Londres </td> <td style="text-align:center;"> 256,423 </td> <td style="text-align:center;"> 1,422 </td> <td style="text-align:center;"> 59 </td> </tr> </tbody> <tfoot><tr><td style="padding: 0; " colspan="100%"> <span style="font-style: italic;">Nota:</span> <sup></sup> Reproducida por Freedman (1991).</td></tr></tfoot> </table> ] --- # El caso del asbesto - Un estudio publicado en el *American Journal of Epidemiology* mostraba que la fibra de asbesto **causaba** cáncer de pulmón (Kanarek et al., 1980) - Se estudiaron 722 secciones censales en San Francisco - Se formuló un modelo econométrico del tipo `$$tasa=f(sexo,raza,estado\,civil, educación, ingreso, ocupación)$$` - ¿Qué salió mal? -- - Variable omitida: fumar - Se corrieron 200 regresiones y solo en una `\(p<0.001\)` - Se antepusieron las técnicas estadísticas y los supuestos a la lógica y el razonamiento --- # Asumir causalidad de una regresión - ¿Confiar más o menos en la KGB te hace más o menos políticamente activo (Bahry y Silver (1987)? - ¿Y si la relación es a la inversa? - ¿Qué otras cosas como estas no se leen a diario en los periódicos? -- - ¿Los estados en Estados Unidos tienen diferentes *culturas* (Erikson et al. 1987)? - ¿Puede una serie de variables *dummy* capturar la diferencia de culturas? --- # Nota sobre la *falacia ecológica* - Término atribuido a [Robinson (1950)](https://academic.oup.com/ije/article/38/2/337/658252?login=true) - Robinson, W. S. (1950). Ecological correlations and the behavior of individuals. *American Sociological Review*. - Es asumir algo sobre un individuo a partir de los datos agregados - Cuando las conclusiones cambian cuando el análisis se realiza a nivel individual que cuando se realiza a nivel agrupado, hablamos de una *falacia ecológica* - En el caso de Kanarek y coautores, dedujeron causalidad usando datos agregados sobre el contenido de asbesto en el agua - [Greenland & Morgenstern (1989)](https://academic.oup.com/ije/article-abstract/18/1/269/616865) argumentan que una de las dos causas de la falacia ecológica son los **confundidores omitidos** - El hábito de fumar es un confundidor omitido que sesga los resultados atribuidos a otros factores de riesgo - Pueden ver más [en este artículo](https://www.nature.com/articles/7500533) --- # Conclusión de Freedman sobre la regresión - Bastante pesimista sobre la utilidad de la econometría - Refinamiento técnico no resuelve el problema - LaLonde (1986) compara estimadores experimentales vs no experimentales - Crítica a la minería de datos y a correr miles de modelos -- - La regresión no revela por sí sola una causalidad - Hay que poner énfasis en el diseño -- - Yo no soy tan pesimista como Freedman --- class: inverse, middle, center # El problema de la causalidad en economía --- # Efecto causal - Pensemos en un tratamiento binario `$$T_i=\begin{cases} 1 \quad\text{tratado} \\ 0 \quad\text{no tratado} \end{cases}$$` - El resultado que cada individuo tendría bajo cada régimen de tratamiento: - `\(y_{1i}\)` con `\(T_i=1\)` - `\(y_{0i}\)` con `\(T_i=0\)` - Supongamos que el tratamiento es recibir un trasplante y el resultado es morir (1) o seguir vivo (0) cinco días después de recibirlo (Hernan & Robins, 2018) - Supongamos que Zeus recibió el trasplante y a los cinco días había fallecido - Por otro lado, Hena no recibió el trasplante y a los cinco días seguía viva -- - No tardarían nuestros columnistas en decir que hay que prohibir los trasplantes --- # Efecto causal - Supongamos también que podemos conocer que: `$$y_{Zeus}=\begin{cases} y_{1,Zeus}=1\\ y_{0,Zeuz}=0 \end{cases}$$` es decir, si no hubiera recibo el trasplante, estaría vivo cinco días después - Similarmente, conocemos que: `$$y_{Hena}=\begin{cases} y_{1,Hena}=0\\ y_{0,Hena}=0 \end{cases}$$` - **Efecto causal para un individuo**: el tratamiento tiene un efecto causal para `\(i\)` si `\(y_{1i}\neq y_{0i}\)` - En nuestro ejemplo, el tratamiento tuvo un efecto causal en Zeus, pero no en Hena --- # Resultados potenciales - `\(y_{1i}\)` y `\(y_{0i}\)` se conocen como resultados potenciales o contrafactuales - El término *potencial* se debe a que solo vemos uno de ellos - En nuestro ejemplo, solo observamos que `\(y_{0,Zeus}=y_{1,Zeus}=1\)` - En general, el efecto causal para un individuo no puede ser identificado --- # Efectos causales promedio - Supongamos que podemos estudiar a la familia de Zeus, `\(N=20\)` <div style="border: 1px solid #ddd; padding: 0px; overflow-y: scroll; height:70%; "><table class=" lightable-paper lightable-hover" style='font-family: "Arial Narrow", arial, helvetica, sans-serif; margin-left: auto; margin-right: auto;'> <thead> <tr><th style="padding-bottom:0; padding-left:3px;padding-right:3px;text-align: center; font-weight: bold; padding-right: 4px; padding-left: 4px; background-color: white !important;position: sticky; top:0; background-color: #FFFFFF;" colspan="3"><div style="TRUE">Efectos individuales</div></th></tr> <tr> <th style="text-align:left;position: sticky; top:0; background-color: #FFFFFF;"> Persona </th> <th style="text-align:center;position: sticky; top:0; background-color: #FFFFFF;"> y0 </th> <th style="text-align:center;position: sticky; top:0; background-color: #FFFFFF;"> y1 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;"> 1 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 2 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 3 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 4 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 5 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 6 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 7 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 8 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 9 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 10 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 11 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 12 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 13 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 14 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 15 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 16 </td> <td style="text-align:center;"> 0 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 17 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 1 </td> </tr> <tr> <td style="text-align:left;"> 18 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 19 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> <tr> <td style="text-align:left;"> 20 </td> <td style="text-align:center;"> 1 </td> <td style="text-align:center;"> 0 </td> </tr> </tbody> </table></div> --- # Efectos causales promedio - De la tabla podemos concluir que `\(P(y_{1i}=1)=10/20=0.5\)`, es decir, la mitad de quienes reciben el trasplante morirían después de cinco días - Y también observamos que `\(P(y_{0i}=1)=0.5\)`, es decir, que la probabilidad de morir de no haber recibido el tratamiento es también de 0.5 -- - En el anterior ejemplo, el tratamiento no tiene un efecto causal pues la probabilidad de morir con y sin el tratamiento es igual - **Efecto causal promedio** en una población: un efecto causal promedio de `\(T\)` en el resultado `\(y\)` está presente si `\(P(Y_{1i}=1\neq Y_{0i}=1)\)` en la población de interés - Cuando pensamos en **poblaciones**, podemos usar expectativas para definir el efecto causal promedio: `\(E(Y_{1i}\neq Y_{0i})\)`, lo cual permite generalizar a resultados no binarios - La ausencia de efectos individuales promedio no implica ausencia de efectos individuales -- - Cuando no hay efecto causal individual para ningún individuo, `\(y_{0i}=y_{1i}\)`, para todo `\(i\)`, decimos que la hipótesis **estricta** (*sharp*) de efecto de tratamiento nulo es verdadera --- # Variabilidad aleatoria - En la práctica, casi nunca podemos observar a la población de interés, sino solo a una muestra - Por tanto, `\(P(y_{ti}=y)\)` no puede ser observada sino estimada - Debido al error muestral, la proporción que muere en la muestra no es numéricamente igual a la proporción que muere en la población -- - La hipótesis que queremos probar es que hay un efecto causal en la población - Pero al trabajar con muestras, puede haber diferencias que surjan solo por el muestreo - Nuestra tarea es distinguir estas diferencias de los verdaderos efectos causales --- # Próxima sesión - Pregunta: ¿están libres el lunes por la mañana? - Introduciremos el concepto de sesgo de selección - Veremos un ejemplo de un experimento para identificar efectos causales - MHE, Capítulo 2 --- class: center, middle Presentación creada usando el paquete [**xaringan**](https://github.com/yihui/xaringan) en R. El *chakra* viene de [remark.js](https://remarkjs.com), [**knitr**](http://yihui.org/knitr), y [R Markdown](https://rmarkdown.rstudio.com). Material de clase en versión preliminar. **No reproducir, no distribuir, no citar.**