Actualizado 10 de diciembre, 2021
El tratamiento masivo de datos (Big data), se ha convertido en paradigma de revolución tecnológica y promesa de nuevas herramientas predictivas infalibles. Sin embargo, el tratamiento de datos a escala gigantesca amenaza también con alimentar un océano de las confusiones cuando aparecen correlaciones a partir de números inmensos de datos pero sin una lógica o relación plausible.
Bastan algunos ejemplos para comprender lo disparatado de algunas correlaciones (1):
1.- la evolución de los suicidios en EEUU es casi paralela al ritmo de las inversiones en ciencia espacial.
2.- Los divorcios del estado de Maine en EEUU se correlacionan con el consumo de margarina.
3.- El consumo per cápita de pollo está relacionado con las importaciones de petróleo en EEUU.
Las limitaciones y peligros de big data es particularmente preocupante en nuestro contexto pandémico. Los resultados engañosos pueden ser particularmente dañinos cuando las acciones se basan en ellos, señalan los autores del recientemente publicado artículo en Nature (2)
Cuando se trata de datos de encuestas, los encuestados vacunados tienen más probabilidades de responder y que los grupos marginados estén sub representados. Esto puede sobreestimar el número de vacunados y conducir a relajar las medidas. El estudio de Nature, identifica otras áreas de posible sesgo en las encuestas de vacunación. Los informes que se basaron en los usuarios diarios del sitio de redes sociales, no tomaron en cuenta factores como el nivel educativo y la raza y el origen étnico, ninguna encuesta recopiló datos sobre el partidismo de los encuestados, lo que puede influir en la aceptación de la vacuna. Además, ninguno ajustó su muestra para representar la distribución de las áreas urbanas y rurales, otro factor potencialmente importante.
Los autores del artículo señalan que es deseable obtener los mayores conjuntos de datos posibles y la tecnología moderna, big data, lo ha hecho posible. Esto permite es un análisis impensado en otros tiempos, pero debemos ser conscientes de que los sesgos en los datos empeoran con un tamaño de muestra más grande.
Agregan que los gestores de las redes sociales creen tener una muestra pública representativa pero es posible que no se den cuenta que su población está compuesta por quienes quieren responder o interactuar. De hecho, el sesgo por falta de respuesta sigue siendo pernicioso incluso cuando los investigadores lo tienen en cuenta.
Esta es la paradoja de Big Data: «cuanto más grandes son los datos, más seguros nos engañamos» si no tenemos en cuenta el sesgo en la recopilación de datos.
En este artículo se demuestra esta paradoja en estimaciones de la recepción de la primera dosis de la vacuna COVID-19 en adultos de EE. UU. del 9 de enero al 19 de mayo de 2021 de dos grandes encuestas: una de cerca de 250,000 respuestas por semana, y otra de 75,000 cada dos semanas. Ambas sobreestimaron la vacunación en un 14-17%, en comparación con una referencia actualizada retrospectivamente por CDC. Además, por sus grandes tamaños muestrales tenían minúsculos márgenes de error en las estimaciones incorrectas. Por el contrario, un panel online con solo 1,000 respuestas semanales, que siguió las mejores prácticas de investigación de encuestas, proporcionó estimaciones confiables y cuantificación de la incertidumbre.
No existe una fórmula mágica: cada pequeña parte del panel incluido, muestreo y ponderación es importante para controlar la calidad de los datos, medida como la correlación entre un resultado y la situación real, lo que los autores llaman ddc.
Se debe tener en cuenta que los intervalos de confianza tradicionales capturan solo los errores de muestreo (y no el error total), y el marco de la encuesta tradicional carece de herramientas analíticas para cuantificar los errores ajenos al muestreo, por separado de los errores de muestreo.
De hecho, matemáticamente, cuando se encuentra que una encuesta está sesgada con respecto a una variable, esto implica que toda la encuesta no es estadísticamente representativa. El trabajo demuestra el riesgo de calificar “a priori” como mejor evidencia la derivada de las grandes muestras del mundo real. Las muestras con “n grandes” ganan en atinencia (evidencia directamente relacionada) y en precisión (se achican los intervalos de confianza) sin poder superar el riesgo de sesgo por ser observaciones de baja calidad metodológica.
En definitiva, invertir en la calidad de los datos (especialmente durante la recopilación, pero también en el análisis) minimiza los errores de manera más eficiente que el aumento de la cantidad de datos.
Eduardo Luis De Vito- Hugo Catalano; Isabel Kantor
eldevito@gmail.com; hugoncatalano@gmail.com; isabel.kantor1.@gmail.com
1. 2 early vaccination surveys worse than worthless thanks to ‘big data paradox,’ analysts say. Alvin Powell. https://news.harvard.edu/gazette/story/2021/12/vaccination-surveys-fell-victim-to-big-data-paradox-harvard-researchers-say/
2. Unrepresentative big surveys significantly overestimated US vaccine uptake. Nature 2021; https://doi.org/10.1038/s41586-021-04198-4 (www.nature.com).