Darpa quiere construir un detector de BS para la ciencia

Darpa quiere construir un detector de BS para la ciencia

Adam Rogers

Getty Images

Adam Russell, un antropólogo y director de programa de la división de ciencia loca del Departamento de Defensa Darpa, se ríe de la sugerencia de que está tratando de construir un detector de mentiras real, en vivo. Pero en realidad no parece que sea gracioso. La muy seria convocatoria de propuesta que Russell acaba de enviar a Darpa pide a la gente – ¡cualquiera! ¡Incluso usted! – encontrar formas de determinar qué descubrimientos de las ciencias sociales y del comportamiento son realmente, usted sabe, verdad. O en su construcción: «creibles».

Incluso para Darpa, eso es una gran pregunta. El Departamento de Defensa tiene muchas buenas razones para querer saber qué ciencias sociales deben creer. Pero hay mucho más en juego aquí. Darpa está pidiendo un sistema que pueda resolver uno de los problemas filosóficos más urgentes de nuestro tiempo: ¿Cómo sabes lo que es verdad cuando la ciencia, las noticias, y los medios sociales luchan con errores, publicidad, propaganda y mentiras?

Tome una afirmación científica. Haga algún tipo de operación con ella. Determine si la afirmación es lo suficientemente correcta para actuar. Entonces… ¿un detector de mentiras?

«No lo caracterizaría de esa manera, y creo que es importante no hacerlo», dice Russell. No quiere contribuir al cinismo que permite a la gente pensar si los científicos admiten la incertidumbre, lo que significa que no se puede confiar en ellos. «Tengo una fe profunda de que hay ciencia real. No es que no sepamos nada sobre el mundo». La ciencia sigue siendo la mejor manera de saber cosas. Darpa sólo quiere saber de qué cosas la ciencia está realmente segura y cómo lo sabe. Y cómo sabe que lo sabe.

Se puede imaginar por qué Darpa y el DoD podrían querer reforzar las ciencias sociales. Quieren entender cómo funciona la identidad colectiva, o por qué algunos grupos (y naciones) son estables y algunos se desmoronan. A los militares les gustaría tener un mejor control sobre cómo los humanos se asocian con las máquinas antes de que las máquinas se vuelvan más inteligentes y se desplieguen más. ¿Cómo funciona la radicalización, especialmente en línea? ¿Por qué la gente coopera a veces y compite en otras? Todas estas preguntas tienen dos cosas en común: Son muy importantes para la seguridad nacional, y nadie sabe la respuesta.

Las personas que se supone que tienen que resolver esos problemas nudosos tienen sus propios problemas. Es posible que hayas oído hablar de la «crisis de la reproducibilidad«, la preocupación de que muchos descubrimientos científicos, particularmente en psicología y sociología, no pasen una prueba fundamental de validez – que investigadores posteriores pueden hacer el mismo experimento y obtener los mismos resultados que los primeros. O tal vez esté familiarizado con «P-hacking» y otras formas en que algunos investigadores, bajo presión para publicar y obtener subvenciones, seleccionan sus resultados experimentales para asegurar la aparición de significación estadística.

Esto no se trata de si cualquier reclamación particular puede ser replicada, ¿verdad? Es que colectivamente las reclamaciones no tienen sentido.

Duncan Watts, Microsoft Research

Esos temas aparecen en la convocatoria de propuestas de Darpa, pero los investigadores reconocen que las preocupaciones no terminan ahí. «Si le preguntas a un grupo de científicos sociales cómo funcionan las organizaciones, no vas a obtener 20 respuestas diferentes. Obtienes respuestas que ni siquiera son comparables entre sí», dice Duncan Watts, sociólogo de Microsoft Research, quien escribió una ampulosa critica del problema de la incoherencia de las ciencias sociales en el número de enero de 2017 de Nature Human Behavior. «Uno lee un paper y luego otro paper, y tiene las mismas palabras en el título, pero diferentes unidades de análisis, diferentes construcciones teóricas, nociones completamente diferentes de causalidad. En el momento en que has hecho una revisión de la literatura, estás completamente confundido acerca de lo que incluso piensas. Esto no se trata de si cualquier afirmación particular puede ser replicada, ¿verdad? Es que colectivamente las afirmaciones no tienen sentido».

Pero… Darpa, ¿verdad? ¡ Problemas imposibles! ¡Aquí hay un internet que te hicimos! ¡Darpa! La agencia tiene un programa global llamado Next Generation Social Science, creado en 2016 para utilizar la economía, la sociología, la antropología, y así sucesivamente para comprender mejor cualquier cosa, desde el terrorismo hasta la propagación de la propaganda en línea. Y, sí, es un problema imposible. «En los campos emergentes se comienza a ver el desarrollo de estándares como una buena señal de que algo está sucediendo allí», dice Russell. «Ciertamente no tenemos esos estándares en ciencias sociales».

Así que Darpa quiere construirlos. «Niveles de Confianza para las Ciencias Sociales y del Comportamiento» es el título formal de la «solicitud de información» de la agencia, la charla burocrática de «tenemos algo de dinero para conceder; envíanos tus lanzamientos». Pero esta RFI es amplia en su ambición, va mucho más allá de la reproducibilidad. Se nombra a otros baluartes de validación científica – revisión por pares, metanálisis, técnicas estadísticas y enfoques aún más modernos como los factores de impacto, las webs de citas y los mercados de predicción de expertos. Pero sólo por decir, incorporar estos y superarlos. Grandes cosas, chicos, cosas realmente geniales. ¿Algo más para lanzar?

Del documento: «Puede haber nuevas maneras de crear capacidades automatizadas o semi-automatizadas para asignar rápida, precisa y dinámicamente Niveles de Confianza a resultados o afirmaciones específicas de SBS». («SBS» = «Ciencias Sociales y del Comportamiento») Y los no expertos separan el trigo científico de la paja mal hecha utilizando «lectura de máquina, procesamiento del lenguaje natural, metanálisis automatizado, algoritmos de comprobación de estadísticas, análisis del sentimiento, herramientas de crowdsourcing, plataformas de intercambio y archivado de datos, análisis de redes, etc».

Claramente lo que necesitamos aquí es algún tipo de máquina con, algo como, una ranura para la alimentación en artículos de revistas. Y dos luces en el frente: rojo y verde. Ping o bzzzt.

Sí, pero no. «Creo que estamos a muchos años de eso», dice Matthew Salganik, un sociólogo de Princeton que no planea enviar una idea a Darpa, pero trabaja en cuestiones relacionadas con la validación. Aunque permitirá: «Algo que podría ser más posible serían luces de advertencia para los papers de un número relativamente pequeño de revistas». Tal vez sólo restringir el corpus a los Tres Grandes – Science, Nature, y Proceedings of the National Academy of Sciences.

Realmente, sin embargo, nadie sabe cómo será una respuesta. De hecho, una de las primeras personas en presentar una respuesta a la RFI de Darpa está pidiendo dinero para esbozar una. «El reto clave de hacer esto es que no hay un estándar de oro para la credibilidad. No tenemos un punto de referencia», dice el psicólogo Brian Nosek de la Universidad de Virginia, jefe del Centro de Ciencias Abiertas y uno de los principales actores en la lucha por la reproducibilidad. Muchas personas dicen que tienen formas de validar los resultados científicos, dice Nosek. «Así que tienes que jugar contra ellos. Creemos que todas estas ideas dicen algo sobre credibilidad, así que comencemos a compararlas».

El desafío clave de hacer esto es que no hay un estándar de oro para la credibilidad. No tenemos un punto de referencia.

Brian Nosek, Centro de Ciencia Abierta

El pitch de Nosek se titula «Camino a la Evaluación Iterativa del Nivel de Confianza», o, con encanto, «Pickle». Propone que Darpa establezca, de manera clásica, una competencia: Permita que las personas con modelos de evaluación de la credibilidad las prueben contra corpus específicos, como los estudios replicados. Entonces construiría lo que se llama una red nomológica, enfrentando las ideas entre sí. «La única manera de desarrollar confianza en la evidencia es mirar el problema de muchas maneras diferentes y ver dónde comienza a conseguir la convergencia», dice Nosek. En otras palabras, establecer un marco para establecer la credibilidad de establecer la credibilidad. «Es muy meta», dice.

Otros campos de la ciencia tienen sus propios problemas con la replicabilidad y confiabilidad. (Las personas con cáncer se están volviendo locas.) Pero las ciencias sociales tienen su propio problema epistemológico particular. El gran obstáculo de Darpa aquí podría no ser las respuestas de las ciencias sociales, sino las ciencias sociales. «Los científicos informáticos están más acostumbrados a hacer preguntas donde pueden verificar fácilmente la respuesta», dice Salganik. ¿Qué filtro de spam filtra mejor el spam? Aquí hay 900,000 correos electrónicos etiquetados como «spam» y «no-spam». Ahora, aquí hay otros 100,000 correos electrónicos. Dejemos que 10 sistemas los etiqueten, y veremos cuál es la que más se aprovecha. Resultado: filtro de spam. «El objetivo es explícitamente sobre la predicción, y los problemas de predicción son fáciles de expresar de forma cuantificable», dice Salganik. «Pero un montón de preguntas de ciencias sociales son diferentes. Son más acerca de preguntar por qué algo está sucediendo».

Las preguntas descriptivas básicas pueden ser útiles para Darpa y sus clientes militares. Pero son difíciles de cuantificar. «Esto realmente va más allá de la significación estadística», dice Salganik. Incluso si ajusta el valor de P aceptable, una prueba de significación estadística, de 0.05 a 0.005, mientras más bajo sea, más significativo será su dato, que no se ocupará, digamos, de un sesgo resultante de la financiación corporativa. (Los físicos de partículas exigen un valor de P ¡por debajo de 0.0000003! Y tienes que llegar por debajo de 0.00000005 para un estudio de asociación genómica.)

¿Cuál es la respuesta? Un enfoque podría ir más allá de las estadísticas y la reproducibilidad para agregar nuevas herramientas de confianza al kit. El Center for Open Science de Nosek concede «insignias» a artículos para cosas como pre-registrar un plan de investigación (para rechazar las acusaciones de hackeo P) y hacer disponible juegos completos de datos y el código usado para analizarlos. Es como la certificación LEED para edificios ambientalmente diseñados.

Las redes sociales también pueden desempeñar un papel positivo: las métricas pueden mostrar no sólo cuántas personas se citaron o se vincularon a un estudio, sino cómo hablaron de ello. Las publicaciones de blog y los tweets sobre un nuevo hallazgo en, como, la astronomía, podrían casi constituir una especie de revisión por pares post-publicación en la que una comunidad científica entera cava en un paper. En otras palabras, ¿sabes quién va a salvar la ciencia? Los Trolls

Russell parece que estaría totalmente abierto a eso. No sabe cuántas ideas va a financiar – la RFI está abierta hasta mediados de agosto – y no sabe cuánto dinero podrá repartir. «Lo bueno de Darpa es que si tienes muchas ideas y se requiere presupuestos grandes para hacer eso, puedes hacer ese argumento», dice Russell. «A la larga, estamos todos juntos en esto. Cuanto mejor nuestra ciencia, mejores decisiones podemos tomar».

Es un complicado problema de filosofía de la ciencia, con una complicada respuesta de filosofía de la ciencia. «Es un poco impactante de alguna manera que incluso estamos teniendo esta conversación ahora, que muchos de nosotros estamos despertando y dándonos cuenta de que no estamos tan seguros en nuestros métodos como creíamos que lo estábamos», dice Watts. «Va a ser un gran esfuerzo colectivo para simplemente mejorar nuestra capacidad de decir que realmente creemos este resultado versus no deberíamos todavía». Tienes que creer que la ciencia puede arreglar la ciencia – con alguna ayuda de Darpa.

https://www.wired.com/story/darpa-bs-detector-science

Deja una respuesta

Tu dirección de correo electrónico no será publicada.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.