Lo que esos estudios de pizza de Cornell nos enseñan sobre la mala ciencia

Lo que esos estudios de pizza de Cornell nos enseñan sobre la mala ciencia

Beth Skwarecki

imageLas estadísticas descuidadas y la mala conducta de la investigación no son nada nuevo, pero es raro tener una idea clara de cómo los datos cuestionables se convierten en titulares de clic. Tenemos eso ahora con los últimos informes sobre el científico de alimentos de Cornell, Brian Wansink, y vale la pena tomarse un minuto para ver qué hay de malo en las técnicas de investigación dudosas que ha sido acusado de emplear.

Mencionamos el año pasado que la investigación de Wansink estaba siendo cuestionada, comenzando con cuatro estudios sobre buffets de pizza que según Cornell eran, descuidados, pero no fraudulentos. Más de su trabajo ha sido investigado desde entonces, y se ve más delgado y pesimista. Este fin de semana, Stephanie M. Lee de Buzzfeed (sin relación con nuestra propia Stephanie Lee) publicó correos electrónicos del equipo de investigación de Wansink que ofrecen una gran lección sobre cómo no hacer ciencia.

Antes de entrar en detalles, una nota importante: la ciencia todavía funciona. Los malos estudios están por ahí, y las personas también pueden malinterpretar o divulgar incorrectamente los buenos estudios. (Cualquiera que lea nuestras publicaciones de Dose of Reality lo ha descubierto). Lo difícil es decir quién está haciendo estudios legítimos y bien diseñados y procesarlos con técnicas estadísticas apropiadas, en comparación con quién simplemente imita esas prácticas. El mundo real es una mezcla de ambos. Entonces, ¡no pierdas la fe! Pero mantente escéptico. Estas son algunas de las cosas que pueden salir mal:

P-hacking puede “encontrar” correlaciones que no están realmente allí

Una de las preguntas fundamentales que debe formular después de hacer un estudio es: ¿Encontré algo? Supongamos que quiere saber si la gente prefiere pastel o tarta. Si nadie tiene una preferencia, puede establecer ambos postres en su próxima fiesta, y esperaría que desaparezca la misma cantidad de porciones de cada uno.

Pero digamos que la gente come 31 rebanadas de pastel y 30 rebanadas de tarta. Esa diferencia probablemente no sea lo suficientemente grande como para que puedas concluir que tu público tiene una preferencia. En términos de investigación, la diferencia no es estadísticamente significativa.

Entonces, ¿cómo se puede saber si un resultado es significativo? Una forma es calcular la probabilidad de que veas tu resultado por casualidad. Si es inferior al 5 por ciento, la regla general es que las personas creerán que su resultado podría ser válido.

Los estadísticos llaman a ese número un valor p, y si está por debajo de 0.05 (que es solo otra forma de decir el 5 por ciento), entonces puede llamar a su resultado significativo. Los valores P tienen sus limitaciones, y no significa que haya determinado que su resultado se debe a un efecto real más que a la casualidad. Pero te dan un punto de partida para saber con qué datos no molestar. Si su p es más de 0.05, sus números probablemente no tengan sentido.

Entonces, aquí está el problema. Si observa un conjunto de datos totalmente aleatorios, encontrará valores de p “significativos” del 5 por ciento del tiempo. Si tuvieras que mirar un montón de variables hasta que te resaltara un valor p, podrías seleccionar esos puntos de datos inusuales y pretender que significan algo. XKCD resumió esto muy bien en forma de caricatura: los caramelos de goma pueden no causar acné, pero si realizas la misma prueba en 20 sabores diferentes de caramelos de goma, podrías encontrar que uno de los sabores da un resultado positivo como un golpe de suerte.

Si eres un científico cuidadoso, te asegurarás de analizar tus resultados teniendo en cuenta este peligro. (Una forma simple: elija un número menor que 0.05 como valor de corte de p).

Pero si no eres un científico cuidadoso, este no es un escollo sino una oportunidad. Puede ejecutar cualquier estudio que desee, y si es lo suficientemente grande, siempre encontrará algunos resultados que parecen significativos. La explotación de este fenómeno estadístico se denomina “p-hacking” o “pesca de datos”. Si publica los resultados que obtiene de esta manera, es probable que publique muchos falsos positivos.

Cuando leo trabajos de investigación, tan pronto como noto que un estudio está analizando muchas variables diferentes, presiono Ctrl-F para buscar en la página la frase “comparaciones múltiples” para ver si hay una sección donde los investigadores explican cómo manejaron la situación. Dado que las estadísticas no son mi área de especialización, le preguntaré a un experto externo si necesito un juicio sobre la calidad de su análisis. Pero si los investigadores están haciendo comparaciones múltiples y ni siquiera mencionan este problema, eso es una gran señal de advertencia.

Los buenos científicos hacen la pregunta antes de recopilar los datos, no viceversa

Cada experimento es una pregunta. Lo ideal sería recopilar datos como una forma de responder a su pregunta, y verá lo que le dicen los datos.

Pero si usted hace p-hack, puede que simplemente recopile datos aleatorios y luego invente historias sobre lo que podrían significar los datos. Es el equivalente científico de ver a tu Magic 8-Ball dar una respuesta que no te gusta, y luego mentir acerca de qué pregunta hiciste.

El apodo para esto es HARKing, o “hipótesis después de conocer los resultados”. (La hipótesis es su conjetura de lo que los datos le mostrarán, básicamente es su pregunta de investigación).

Este es un problema porque si realmente desea probar una determinada pregunta, debe configurar un experimento que lo pregunte bien. Tomar algunos puntos de datos de un estudio mucho más grande no es lo mismo.

HARKing es fácil de ocultar: todo lo que tienes que hacer es nunca publicar la parte de tu experimento que no funcionó. Simplemente escriba el documento como si supiera lo que estaba haciendo desde el principio. Para evitar esto, las revistas médicas a menudo requieren que los investigadores pre-registren sus estudios, escribiendo una descripción en algún lugar como clinicaltrials.gov explicando cómo se diseña el estudio y qué resultados probará. El neurocientífico cognitivo Chris Chambers aconsejó a los investigadores jóvenes en Twitter que siempre puede preinscribir sus propios estudios de forma privada, incluso si a la persona que dirige su laboratorio no le gusta la idea. Los registros donde puede hacer esto incluyen aspredicted.org y osf.io.

Las carreras de los científicos se forman por la presión de publicar

P-hacking y HARKing son discutiblemente el resultado, no la causa, de un problema mayor en la ciencia: la presión para publicar. Su carrera como científico, incluidos sus fondos y sus posibilidades de conseguir un puesto o ser promovido, generalmente dependen de haber publicado una gran cantidad de investigaciones, preferiblemente en revistas de renombre, e idealmente con estudios lo suficientemente grandes como para llegar a los titulares de las noticias. (Recordarás que los estudios de Wansink llegaron a los titulares todo el tiempo).

Estas presiones fomentan los trucos estadísticos y el mal diseño de la investigación porque los estudios generalmente tienen que mostrar algo, idealmente algo nuevo o sorprendente, para tener una buena oportunidad de ser publicado. ¿Recuerdas el estudio de la dieta de la semana pasada y cómo mencioné que era inusual que se publicara algo con resultados negativos? Necesitamos más de eso en ciencia, pero es una batalla cuesta arriba.

Este detalle de los correos electrónicos de Wansink Lab muestra cómo la presión para publicar puede cambiar la forma en que un laboratorio procesa sus datos:

Wansink escribió: “Demasiado inventario; no hay suficientes envíos”. Idealmente, reflexionó, un laboratorio de ciencias funcionaría como una compañía de tecnología. Tim Cook, por ejemplo, era conocido por sacar productos de los almacenes de Apple más rápido y aumentar las ganancias. “Como dijo Steve Jobs, ‘los Genios envían’”, escribió Wansink.

Entonces, propuso, el laboratorio debería adoptar un sistema de fechas límites estrictas para enviar y volver a enviar la investigación hasta que aterrice en alguna parte. “Muchos de estos documentos están en cada uno de nuestros escritorios y son como un inventario que no nos funciona”, dijo al equipo. “Tenemos tanto impulso enorme. Esto podría hacer que nuestra productividad sea legendaria”.

La persistencia en la presentación de documentos puede ser rentable al publicar su trabajo, pero ¿qué significa eso para el resto de nosotros? Personas que leen (y escriben) titulares basados en investigaciones de mala calidad que fueron rechazadas de muchas revistas pero reenviadas hasta que finalmente se publicaron?

Un flujo de trabajo como este podría tomar casi cualquier estudio, relevante o no, y hacerlo publicable analizándolo mal y enviándolo a journals de nivel inferior hasta que sean aceptados en algún lugar, y luego escribiendo un comunicado de prensa que anuncie los resultados. La mayoría de la gente común ve el último paso en ese proceso: una conclusión plausible en los medios, con garantías de que había algún tipo de ciencia detrás de eso.

Se están llevando a cabo investigaciones sobre la cantidad de anomalías del laboratorio de Wansink son p-hacking y HARKin versus fraude deliberado, versus una serie de errores honestos. Pero toda la historia es una especie de advertencia sobre lo que hay detrás de una gran cantidad de ciencia que no se escudriña y que aparece en los medios. Probablemente nadie hubiera averiguado qué estaba haciendo el laboratorio si Wansink no hubiera escrito un blog post a finales de 2016, elogiando a un estudiante que convirtió un “estudio fallido que tuvo resultados nulos” en cuatro artículos publicados.

Me ha parecido aleccionador, aunque no sorprendente, ver cómo los científicos están procesando las noticias. En una encuesta informal de Twitter entre investigadores, el 68 por ciento dijo que las acciones de Wansink no eran diferentes de lo que normalmente sucede en la ciencia, son simplemente más descaradas. El psicólogo Pete Etchells tuiteó un pensamiento más desalentador: “Sí, mucha gente ha estado diciendo lo que separa Wansink es la escala de lo que ha estado sucediendo. Sigo pensando que lo que lo distingue es que ha sido atrapado”.

https://vitals.lifehacker.com/what-those-cornell-pizza-studies-teach-us-about-bad-sci-1823370508

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *