Correlación no es igual a causalidad

La correlación entre dos variables no implica necesariamente una relación de causalidad. Este es un error común que puede llevar a conclusiones erróneas.

La correlación entre dos variables es una herramienta estadística invaluable que nos permite identificar la tendencia de dos variables a variar juntas. Sin embargo, es importante tener en cuenta que la existencia de una correlación no implica necesariamente una relación de causalidad. Mientras que la correlación nos muestra que dos fenómenos están asociados entre sí, hablar de causalidad es un terreno mucho más complejo que requiere un análisis detallado y la consideración de otros factores.

Contenidos relacionados:

La confusión entre correlación y causalidad es un problema común, especialmente en el terreno de la divulgación científica. Muchas veces, los medios de comunicación y las redes sociales tienden a simplificar los resultados de estudios científicos, presentando correlaciones como si fueran pruebas de causa y efecto. Esto puede llevar a una interpretación errónea de los hallazgos científicos por parte del público en general. En este artículo, exploraremos la diferencia entre correlación y causalidad, y entenderemos por qué es crucial no confundir estos conceptos en la interpretación de los datos.

¿Qué es una correlación?

La correlación es un concepto estadístico que nos permite examinar la tendencia de dos variables a ir juntas. Se basa en el análisis de un par de observaciones, representadas por las variables X y Y, y nos ayuda a entender la relación entre ellas (Roy, et.al 2022). Por ejemplo, si queremos investigar la relación entre el tiempo de estudio (X) y el rendimiento académico (Y) de un grupo de estudiantes universitarios, la prueba de correlación nos proporciona una herramienta relevante.

Las pruebas de correlación cuantifican la magnitud de la relación entre dos variables y nos permiten predecir valores. Si existe una correlación perfecta entre las variables, podemos inferir el valor de una variable conociendo el valor de la otra (Roy, et.al 2022). En el ejemplo anterior, si existiera una correlación positiva entre el tiempo de estudio y el rendimiento académico de las y los estudiantes, sería posible pensar que entre más tiempo se dedicara al estudio, mejores serían las notas obtenidas por los miembros de la muestra investigada.

La correlación es aplicable en muchos campos, como la psicología, la ciencia de datos, la economía y las finanzas. En la psicología, por ejemplo, se utiliza para definir las propiedades de escalas e inventarios, así como para investigar la relación entre variables como el agotamiento laboral y el estrés postraumático. En la ciencia de datos, la correlación de Pearson es ampliamente utilizada en la medicina para estimar el riesgo de obesidad, segmentar hematomas subdurales y realizar aislamiento de secciones epidurales mediante tomografía computarizada (Hernández, et.al 2018).

Pruebas de correlación

Existen diversas pruebas estadísticas que nos permiten medir la fuerza de asociación o relación entre dos variables cuantitativas u ordinales y cuyos resultados se expresan mediante el coeficiente de correlación. Las pruebas más comunes en este sentido son la siguientes:

  • Pearson: Es una medida de correlación utilizada para medir la relación lineal entre dos variables continuas. El coeficiente de correlación de Pearson, representado por ‘r’, varía entre -1 y +1. Un valor de -1 indica una correlación lineal negativa perfecta, mientras que un valor de +1 indica una correlación lineal positiva perfecta. Por ejemplo, se podría utilizar el coeficiente de correlación de Pearson para medir la relación entre la altura y el peso de una muestra de individuos.
  • Spearman: Esta prueba de correlación se utiliza cuando las variables son ordinales o cuando la relación entre las variables no es lineal. El coeficiente de correlación de Spearman, representado por ‘ρ’ (rho), también varía entre -1 y +1. Por ejemplo, se podría utilizar el coeficiente de correlación de Spearman para analizar la relación entre la clasificación de desempeño laboral (variable ordinal) y el nivel de satisfacción de los empleados.

(Roy, et.al 2020).

También existen otras pruebas menos comunes, como el coeficiente de correlación de Kendall, que mide la concordancia o discordancia de los rankings entre las variables (puntajes o calificaciones, por ejemplo); o el coeficiente de punto biserial, que permite medir la relación existente entre dos variables, de las cuales una es una escala de intervalos y la otra resulta ser una variable dicotómica (por ejemplo, examinar la relación entre el estilo de aprendizaje de los estudiantes, clasificado en visual y auditivo, y su rendimiento académico en un curso de matemáticas) (González, 2018).

¿Qué implica la causalidad?

En términos generales, la causalidad implica una relación entre dos fenómenos, donde uno es considerado la causa y el otro el efecto. Es la creencia filosófica de que todos los eventos y estados son el resultado de fuerzas que actúan sobre eventos y estados previos (Matsumoto, 2009).

Para que exista una relación causal, generalmente se requieren ciertos elementos, como una causa inicial, un efecto resultante y una conexión lógica o mecanismo que explique cómo la causa produce el efecto. Además, la relación causal implica que el efecto no se habría producido sin la presencia o influencia de la causa (Cañadas, et.al 2015).

La causalidad desempeña un papel crucial en la investigación científica, ya que permite comprender las relaciones de causa y efecto entre los fenómenos estudiados. De esta manera, permite establecer conexiones lógicas y establecer explicaciones teóricas sólidas. Sin embargo, es importante tener en cuenta que establecer una relación causal sólida requiere un análisis riguroso, considerando variables confusas, diseño experimental adecuado y replicación de resultados.

Tipos de causalidad

Algunos autores han distinguido diferentes tipos de causalidad. Entre ellas se encuentran las siguientes:

  • Monocausalidad unidireccional: En este caso, se postula la existencia de una sola causa que actúa en una sola dirección y una vez que se obtiene el efecto, se agota. Un ejemplo podría ser un objeto que cae al suelo debido a la fuerza de gravedad.
  • Monocausalidad en cadena: Similar a la monocausalidad unidireccional, pero el efecto producido se convierte a su vez en la causa de un nuevo efecto, y así sucesivamente. Un ejemplo podría ser el juego de billar, donde el golpe a una bola la pone en movimiento y al chocar con otra bola, esta también se desplaza.
  • Policausalidad unidireccional: Este enfoque corrige el error de los enfoques anteriores, postulando que todo fenómeno es el resultado de múltiples causas que actúan en la misma dirección, impulsando al objeto hacia el mismo fin. Un ejemplo podría ser el crecimiento de una planta, que depende de múltiples factores como la luz, el agua y los nutrientes.
  • Policausalidad concéntrica: Aquí, muchas causas actúan sobre un objeto al mismo tiempo, pero cada una en direcciones diferentes. El efecto final es una resultante del paralelogramo de fuerzas y no una simple suma. Un ejemplo podría ser una conducta que resulta de motivos en conflicto entre sí.
  • Acción recíproca: En este tipo de causalidad, se admite la existencia de múltiples causas y se reconoce que el efecto producido “retroactúa” sobre las causas, en un condicionamiento recíproco complejo. Este tipo de causalidad entra en el ámbito del materialismo dialéctico.

(Gallo, 2000).

No toda correlación implica causalidad

Como ya lo hemos destacado, una correlación estadística entre dos variables no implica necesariamente una relación causal. De esta manera, aunque pueda haber una correlación positiva o negativa significativa entre las variables, no podemos asumir automáticamente que una variable causa directamente el cambio en la otra (Roy, et.al 2020).

Por ejemplo, consideremos una correlación positiva y significativa entre el consumo de chocolate al día y el cociente intelectual. Aunque esta correlación puede ser estadísticamente significativa, no existe una explicación plausible desde el punto de vista biológico que conecte directamente el consumo de chocolate con un aumento en el CI.

En este sentido, es común encontrar correlaciones espurias, es decir, correlaciones que no tienen una relación causal subyacente significativa. A menudo, se asume erróneamente una relación causal entre dos variables cuando estas exhiben una fuerte correlación. Sin embargo, existen varias situaciones que pueden explicar dicho fenómeno, como que una variable origine a la otra, que ambas sean influenciadas por una tercera variable o que la relación observada sea simplemente producto del azar (Luque, 2016; Hernández, et.al 2018).

Es crucial comprender que dos variables pueden estar correlacionadas en su comportamiento o cambios, pero eso no significa necesariamente que una sea la causa directa de la otra. Esta distinción es fundamental para evitar malas interpretaciones en diversos campos, desde la investigación científica hasta el periodismo. Un ejemplo común de esto, se encuentra en las explicaciones de la inflación en economía. A menudo, se muestra una correlación fuerte entre la oferta monetaria y la tasa de inflación. Sin embargo, esto no es una evidencia irrefutable de causalidad. Es decir, la correlación elevada y significativa no garantiza una relación causal directa (Tessmer, Jara, 2017).

La correlación y el análisis de datos

En la actualidad, el Big Data ofrece enormes posibilidades para analizar y visualizar grandes volúmenes de información y descubrir relaciones antes ocultas entre variables. No obstante, es cada vez más común que este tipo de resultados sean interpretados automáticamente como relaciones de causalidad directa.

En este sentido, algunos seguidores entusiastas del Big Data han promovido la idea de que, con algoritmos adecuados, podemos descubrir automáticamente nuevas correlaciones y regularidades en los datos, sin necesidad de análisis causal o semántica. Incluso, se ha sostenido que los números y los algoritmos pueden encontrar patrones donde la ciencia tradicional no puede. No obstante, esta visión optimista ha sido fuertemente cuestionada, ya que se ha encontrado que, en bases de datos muy grandes, pueden surgir correlaciones arbitrarias que no están necesariamente relacionadas con la naturaleza de los datos, sino simplemente con su cantidad (Luque, 2016).

Por tal motivo, confundir correlación con causalidad en el análisis de Big Data puede llevar a conclusiones erróneas e interpretaciones incorrectas de los datos. Ya que, si bien es cierto que las correlaciones pueden revelar patrones interesantes y sugerir asociaciones entre variables, realmente no proporcionan una comprensión completa de las relaciones de causa y efecto. De esta manera, sin un análisis causal adecuado, existe el riesgo de basar decisiones importantes en relaciones espurias o coincidencias estadísticas (Luque, 2016).

Considerando esto, es esencial que las y los profesionales y científicos que trabajan con Big Data sean conscientes de los límites de la correlación y utilicen enfoques adecuados para determinar la causalidad. Solo adoptando este enfoque, será posible evitar interpretaciones erróneas, lo que garantizará la toma de decisiones fundamentadas y precisas en el ámbito de las nuevas tecnologías de análisis de datos.

Confusión entre correlación y causalidad en la vida cotidiana

La confusión entre correlación y causalidad es una falacia común en la vida cotidiana, y se manifiesta de diversas formas en nuestra sociedad tecnocientífica e irracional. A menudo, las personas interpretan erróneamente una correlación entre dos variables como evidencia directa de una relación causal, sin considerar otros factores o posibles explicaciones.

Un claro ejemplo de lo anterior, es el caso de la homeopatía. En muchas ocasiones, alguien afirma haberse curado gracias a este tipo de tratamiento y utiliza su experiencia personal como prueba de su efectividad. En este sentido, aunque pueda haber una correlación aparente entre el uso de la homeopatía y la mejoría de la persona, confundir esta correlación con una relación causal directa sería un error, ya que otros factores, como el efecto placebo, el paso del tiempo o el propio sistema inmunológico, podrían haber contribuido a la mejoría.

Otro ejemplo común de este error lo encontramos en la creencia de que el insomnio es ocasionado por el uso de smartphones antes de dormir. Ante esto, si bien puede existir una correlación entre el uso de dispositivos electrónicos y el insomnio, no se puede concluir automáticamente que el uso de smartphones sea la causa directa del problema. Existen otros factores, como la exposición a la luz azul de las pantallas o los hábitos inadecuados, que podrían contribuir a la dificultad para conciliar el sueño.

Estos ejemplos ilustran cómo la confusión entre correlación y causalidad puede llevar a conclusiones erróneas en la vida cotidiana. Por lo tanto, es importante tener en cuenta que, para determinar una relación causal sólida, se requiere un análisis riguroso que considere múltiples variables, diseños de estudio adecuados y evidencia respaldada por la comunidad científica.

Confusión entre correlación y causalidad en la divulgación científica

La confusión entre correlación y causalidad puede tener efectos nocivos en la divulgación científica y en la forma en que interpretamos los avances científicos, ya que puede llevar a conclusiones erróneas y a la toma de decisiones inapropiadas. Por ejemplo, algunos estudios sugirieron una relación causal directa, afirmando que la TSH reducía el riesgo de enfermedades del corazón. Sin embargo, investigaciones posteriores revelaron la presencia de una variable oculta: las mujeres que tomaban TSH pertenecían principalmente a grupos socioeconómicos altos, que llevaban estilos de vida más saludables en términos de dieta y ejercicio. Cuando se realizaron pruebas más rigurosas para controlar las variables ocultas, se descubrió que, de hecho, la TSH aumentaba ligeramente el riesgo de enfermedades cardiovasculares.

Un ejemplo similar lo encontramos en un estudio publicado en el año 2000, que afirmó que los niños que dormían con la luz encendida tenían cinco veces más probabilidades de desarrollar miopía. Sin embargo, un estudio posterior refutó estos resultados, demostrando que la verdadera causa de la miopía en los niños era genética y no ambiental. Se encontró una conexión entre la miopía de los padres y el desarrollo de la miopía en los niños, además de señalar que los padres miopes tienden a dejar una luz encendida en la habitación de sus hijos.

Estos ejemplos ilustran cómo la confusión entre correlación y causalidad puede generar interpretaciones erróneas y llevar a conclusiones equivocadas. En este sentido, es esencial tener en cuenta que la interpretación adecuada de los datos es fundamental para tomar decisiones informadas y evitar conclusiones erróneas que puedan tener consecuencias perjudiciales.

Importancia de distinguir entre correlación y causalidad

En vista de lo anterior, es crucial comprender que la correlación, por sí misma, no nos dice nada acerca de la dirección o el mecanismo causal de la relación observada. Por un lado, es posible que existan variables ocultas o factores confusos que influyen en las variables y que generan esta aparente relación. Además, la correlación observada también podría ser simplemente una coincidencia estadística sin ninguna relación causal subyacente.

Por su parte, la interpretación errónea de correlación como causalidad puede tener consecuencias significativas, especialmente en el ámbito de la salud y la toma de decisiones. Por ejemplo, se pueden generar conclusiones precipitadas o implementarse intervenciones inapropiadas basadas en una correlación observada. De esta forma, es esencial reconocer que establecer una relación causal requiere de estudios rigurosos y un enfoque más profundo que vaya más allá de la mera correlación.

Al analizar lo hasta aquí dicho, entendemos que la correlación es una herramienta útil para identificar patrones entre variables, pero no implica necesariamente una relación de causa y efecto. La confusión entre correlación y causalidad puede distorsionar la interpretación de los hallazgos científicos y afectar la toma de decisiones informadas. Por lo tanto, es fundamental fomentar una comprensión adecuada de estos conceptos en la divulgación científica y promover un pensamiento crítico para evitar conclusiones simplistas basadas únicamente en una supuesta correlación.

Referencias:

  • Cañadas, G., Gea, M., Contreras, J., Roa, R. (2015). La “Causalidad” y su relación con la correlación y asociación. 17JAEM Cartagena 2015: Jornadas sobre el Aprendizaje y la Enseñanza de las Matemáticas. scalahed.com
  • Gallo, R. (2000). Diccionario de la Ciencia y la Tecnología. Universidad de Guadalajara [Documento PDF]. jmcprl.net
  • González, J. (2018). Coeficientes Correlación: Phi, Contingencia, Biserial, Spearman [Presentación PDF]. Universidad Central de Venezuela Facultad de Humanidades y Educación Escuela de Educación. saber.ucv.ve
  • Hernández, J., Espinosa, F., Rodríguez, J., Chacón, J., Toloza, C., Arenas, M., Carrillo, S., Bermúdez, V. (2018). Sobre el uso adecuado del coeficiente de correlación de Pearson: definición, propiedades y suposiciones. Archivos Venezolanos de Farmacología y Terapéutica, volumen (37), número (5). redalyc.org
  • Luque, B. (2016). Correlación no implica causalidad: De las promesas del Big Data a los usos y abusos de la estadística. Investigación y Ciencia. uba.ar
  • Matsumoto, D. (Ed.) (2009). The Cambridge Dictionary of Psychology. Cambridge University Press. pbworks.com
  • Pita, S., Pértega, S. (1997). Relación entre variables cuantitativas. Atención Primaria en la Red. cloudfront.net
  • Roy, I., Rivas, R., Pérez, M., Palacios, L. (2020). Correlación: no toda correlación implica causalidad. Revista Alergia México, volumen (66), número (3). scielo.org.mx
  • Tessmer, G., Jara, L. (2017). Gnomos, calzoncillos y… correlación. Informes del Observatorio UNR número (36), Puente Académico (12). unr.edu.ar

Créditos de imagen de portada: Photo by Nataliya Vaitkevich from Pexels

R. Mauricio Sánchez
R. Mauricio Sánchez
Licenciado en Psicología por la Facultad de Ciencias de la Conducta de la UAEMex (México). Experiencia docente y en atención clínica en entidades privadas y públicas, como el Instituto de la Seguridad Social. Editor adjunto y redactor especializado en Psicología en Mente y Ciencia.

Artículos diarios sobre psicología, neurociencias y salud para profesionales, estudiantes y mentes inquietas

CONTENIDO RELACIONADO

R. Mauricio Sánchez
R. Mauricio Sánchez
Licenciado en Psicología por la Facultad de Ciencias de la Conducta de la UAEMex (México). Experiencia docente y en atención clínica en entidades privadas y públicas, como el Instituto de la Seguridad Social. Editor adjunto y redactor especializado en Psicología en Mente y Ciencia.