Informes registrados: un primer ejemplo y análisis
Richard Wiseman1, Caroline Watt2, Diana Kornbrot1
Publicado el 16 de enero de 2019
PubMed 30671302
Información de autor y artículo
Abstract
La reciente «crisis de replicación» en psicología ha centrado la atención en formas de aumentar el rigor metodológico dentro de las ciencias del comportamiento. Parte de este trabajo ha implicado la promoción de «Informes registrados», en los que las revistas revisan los artículos antes de la recopilación y publicación de datos. Aunque este enfoque generalmente se considera un desarrollo relativamente reciente, observamos que un prototipo de este modelo de publicación fue iniciado a mediados de la década de 1970 por el parapsicólogo Martin Johnson en el European Journal of Parapsychology (EJP). Una comparación retrospectiva y observacional de informes registrados y no registrados publicados en el EJP durante un período de diecisiete años proporciona evidencia circunstancial para sugerir que el enfoque ayudó a reducir las prácticas de investigación cuestionables. Este documento tiene como objetivo llevar el trabajo pionero de Johnson a una audiencia más amplia e investigar el papel positivo que pueden desempeñar los informes registrados para ayudar a promover estándares metodológicos y estadísticos más elevados.
Cite esto como
Wiseman R, Watt C, Kornbrot D. 2019. Registered reports: an early example and analysis. PeerJ 7: e6232 https://doi.org/10.7717/peerj.6232
Texto del artículo principal
Antecedentes
En 2011, Daryl Bem publicó un artículo en el Journal of Personality and Social Psychology describiendo los resultados de nueve experimentos que parecían respaldar la existencia de la capacidad psíquica (Bem, 2011). La naturaleza de alto perfil de la revista, combinada con los hallazgos controvertidos, hizo que el artículo de Bem atrajera una cantidad considerable de atención tanto dentro del mundo académico como de los medios de comunicación (Carey, 2011; Halliwell, 2011). Varios académicos criticaron el artículo de Bem, y posteriormente los investigadores informaron que no lograron replicar sus experimentos (Ritchie, Wiseman & French, 2012), comentaron sobre la improbabilidad a priori de que exista una capacidad psíquica (Wagenmakers et al., 2011) y cuestionaron la validez de los estudios originales (Wagenmakers et al., 2011; Alcock, 2011; Francis, 2012; Schimmack, 2012). Esta última línea de crítica se centró en una variedad de cuestiones metodológicas y estadísticas, incluida la falta de un plan de análisis detallado, la notificación selectiva de datos, los análisis post hoc que se presentan como hallazgos confirmatorios y la descripción incompleta de los procedimientos experimentales.
Algunos comentaristas señalaron que muchas de las críticas dirigidas al trabajo de Bem también podrían aplicarse a la investigación dentro de la ciencia del comportamiento convencional (LeBel & Peters, 2011). El trabajo adicional sobre este tema identificó varias «prácticas de investigación cuestionables» (QRP), incluida la falta de publicación de estudios nulos (creando el llamado «problema de cajón de archivos»), la alteración de hipótesis después de la recopilación de datos (a menudo denominada «˜Hypothesizing After the Results are Known»™ o «˜HARKing»™), y la búsqueda de datos en busca de hallazgos significativos («˜p-hacking»™: ver, por ejemplo, John, Loewenstein & Prelec, 2012; Neuroskeptic, 2012). Este trabajo, combinado con los resultados de una iniciativa a gran escala que cuestiona las tasas de replicación de algunos efectos psicológicos bien considerados (Open Science Collaboration, 2015), sentó las bases de la reciente «crisis de replicación» en psicología (Pashler & Wagenmakers, 2012).
Algunos investigadores han comenzado a abordar los problemas relacionados con las tasas de replicación deficientes mediante el desarrollo de procedimientos para ayudar a minimizar los QRP (Nosek, Spies & Motyl, 2012). Uno de los enfoques más populares consiste en alentar a los experimentadores a describir sus hipótesis y análisis planificados antes de la recopilación de datos (Wagenmakers et al., 2012; Van»˜t Veer & Giner-Sorolla, 2016). Este concepto, conocido como «prerregistro», ayuda a minimizar varios de los QRP más importantes, incluido el informe selectivo de estudios, HARKing y p-hacking.
Hay dos formas principales de registro de estudios. El primer enfoque implica que los experimentadores produzcan una descripción de su estudio previsto (incluido el número de participantes, hipótesis y análisis planificados) y luego envíen esta información a algún tipo de registro de estudios confiable como el Open Science Framework (Nosek et al., 2018).
Los registros de estudios han funcionado durante mucho tiempo. Los primeros registros fueron establecidos por investigadores médicos en la década de 1960 y fueron diseñados originalmente para ayudar a los experimentadores a reclutar participantes para ensayos clínicos en lugar de prevenir los QRP (Dickerson & Rennie, 2003). Sin embargo, desde mediados de la década de 1980 en adelante, los investigadores médicos comenzaron a reconocer la importancia de los problemas relacionados con la no publicación de resultados nulos (Simes, 1986; Easterbrook et al., 1991) y, por lo tanto, desarrollaron registros de estudios diseñados explícitamente para abordar el problema.
Kaplan & Irvin (2015) demostraron recientemente la necesidad de tales registros. En 2000, la National Library of Medicine de los National Institutes of Health requirió que los investigadores médicos registraran previamente los aspectos clave de sus estudios (incluyendo protocolo experimental, tamaños de muestra, planes para el manejo de datos faltantes y análisis estadísticos). Kaplan & Irvin compararon los resultados de los estudios antes y después de la necesidad obligatoria de preinscripción, examinando estudios que habían investigado el impacto de los medicamentos y los suplementos dietéticos en las enfermedades cardiovasculares. Sorprendentemente, el 57% de los estudios publicados antes de 2000 informaron un efecto significativo, en comparación con solo el 8% de los estudios publicados después de la introducción del registro previo obligatorio.
En 2008, el blog Neuroskeptic (25 de octubre de 2008; 3 de noviembre de 2008) discutió la necesidad de preinscripción en psicología. Hasta donde sabemos, el primer registro de estudios formales de psicología (que revisa todas las presentaciones y las hace públicas de manera irreversible) se lanzó en 2012 en la Universidad de Edimburgo y se centró en la investigación parapsicológica (Watt, 2012; Watt & Kennedy, 2015). En 2013, Jona Sassenhagen de la Universidad de Marburg fue el primer investigador en prerregistrar un estudio psicológico convencional, aunque utilizó un registro diseñado para registrar estudios clínicos (Neuroskeptic, 3 de febrero de 2013). Desde entonces, se han creado varias plataformas en línea para el registro de estudios dentro de las ciencias del comportamiento, incluido el Open Science Framework (https://osf.io), «As Predicted» (https://aspredicted.org) y The American Economic Association»™s Registry for Randomized Controlled Trials (https://www.socialscienceregistry.org).
El segundo tipo de prerregistro se basa en revistas e implica que los investigadores produzcan una descripción completa de su estudio previsto (incluidos los fundamentos experimentales, las hipótesis, el método y los análisis planificados) y luego envíen este informe para su revisión por pares antes de la recopilación de datos. Si se acepta la presentación, se garantiza la publicación de los autores independientemente del resultado del estudio. Chambers (2017) acuñó la frase «Informes registrados» (RR) para describir este procedimiento.
Hay varias formas en que los RR pueden ayudar a mejorar la calidad de la investigación. Al igual que con todas las formas de prerregistro, los RR requieren que los experimentadores especifiquen previamente varios aspectos de su estudio (incluidas las hipótesis planificadas, el número de participantes y los análisis previstos) y así ayudar a prevenir el sesgo de publicación, el p- hacking y el HARKing. Además, los RR requieren que los investigadores describan el fundamento de su estudio y los procedimientos metodológicos, lo que brinda a los árbitros la oportunidad de ayudar a mejorar la base teórica y el diseño de un experimento antes de la recopilación de datos.
Al rastrear las raíces históricas de esta idea, Chambers (2017) ha señalado que Rosenthal (1966), Walster & Cleary (1970) y Newcombe (1987) describieron las primeras versiones de esta idea, principalmente en un intento de combatir el sesgo de publicación. De manera similar, Kupfersmid (1988) sugirió que la revisión por pares debería realizarse antes del análisis de datos, y señaló que esto ayudaría a prevenir el sesgo de publicación y la piratería informática. Weiss (1989) también recomendó que se revisara un artículo antes de la recopilación de datos, pero sugirió que esto ayudaría a evitar que los investigadores pierdan el tiempo realizando estudios de mala calidad, en lugar de minimizar los QRP. Desafortunadamente, las revistas de psicología en ese momento no adoptaron el procedimiento.
En 2012, Chambers fue invitado a unirse al Consejo Editorial de Cortex y sugirió que la revista ayudara a prevenir los QRP al alentar a los investigadores a enviar artículos para su revisión antes de la recopilación de datos (Chambers, 2017). En 2013, Cortex adoptó la sugerencia de Chambers (Chambers, 2013), y Chambers & Munafo (2013) publicaron una carta abierta pidiendo que otras revistas adopten el mismo enfoque. Esta carta fue firmada por un gran número de psicólogos y ayudó a llamar la atención sobre la noción de RR. Actualmente, más de un centenar de revistas aceptan esta forma de presentación (Center for Open Science, 2018).
Comprensiblemente, los intentos de delinear las raíces históricas de los RR han tendido a centrarse en investigaciones previas dentro de la psicología convencional y la adopción del procedimiento por Cortex en 2013. Sin embargo, muchos académicos desconocen que una versión prototipo de RR se implementó a mediados de la década de 1970 por una revista de parapsicología poco conocida, y que esta política de publicación pionera funcionó con éxito durante muchos años.
En 1973, el psicólogo Martin Johnson fue nombrado oficialmente profesor de parapsicología en la Universidad de Utrecht (Schouten, 1988 «“1989; Parker & Mörck, 2011). Johnson permaneció en el cargo hasta 1986 y falleció en 2011.
Debido a su controvertido tema, la parapsicología tradicionalmente ha atraído una considerable cantidad de atención crítica. A mediados de la década de 1970, gran parte de esta atención se centró en identificar posibles deficiencias metodológicas y estadísticas y en desarrollar formas de ayudar a minimizar estos problemas. Gran parte de este debate anticipó el trabajo actual sobre los QRP en la psicología convencional e involucró discusiones detalladas sobre el impacto de los análisis post hoc (Wiklund, 1977) y el sesgo de publicación (Rhine, 1975; Johnson, 1976).
En noviembre de 1974, Johnson pronunció su discurso inaugural como profesor en la Universidad de Utrecht y posteriormente publicó algunos de los puntos clave de la charla en un artículo de revista (Johnson, 1975). En este artículo, Johnson argumentó que era vital minimizar los posibles problemas metodológicos tanto en la parapsicología como en la psicología convencional. Luego describió tres formas de realizar la investigación y exploró el grado en que cada una estaba abierta al sesgo. El primer enfoque simplemente involucró a un investigador que realizaba un experimento por su cuenta, mientras que el segundo enfoque los involucró trabajando como parte de un equipo. Como tal, ambos enfoques eran de naturaleza relativamente informal y, por lo tanto, estaban abiertos a varios QRP. Sin embargo, el tercer enfoque descrito por Johnson fue mucho más riguroso y fue diseñado explícitamente para prevenir varios problemas metodológicos y estadísticos:
«… de acuerdo con la filosofía de este modelo, el experimentador debe definir su problema, formular sus hipótesis y esbozar su experimento, antes de comenzar su estudio. Debería redactar su manuscrito, indicando al menos los hechos esenciales, antes de llevar a cabo su investigación. Este manuscrito, que en principio solo carece de datos en las tablas, presentación de resultados e interpretación de resultados, debe enviarse a uno o más editores, y el experimentador no debe iniciar su estudio hasta que al menos uno de los editores se haya comprometido a publicar el estudio, independientemente del resultado del experimento. De esta forma, podríamos evitar los informes selectivos. Además, al experimentador no se le dará la oportunidad de cambiar sus hipótesis de tal manera que «˜se ajusten»™ al resultado del experimento». (Página 41)
En resumen, en 1974, Johnson describió muchos de los atributos clave ahora asociados con los RR, incluidos los investigadores que describen aspectos importantes de un estudio antes de la recopilación de datos, la revisión de este informe y la garantía de publicación independientemente del resultado del estudio.
Johnson luego se asoció con otro parapsicólogo y miembro del Departamento de Psicología de Utrecht, Sybo Schouten, y juntos lanzaron The European Journal of Parapsychology (EJP). Esta revista poco conocida fue diseñada principalmente para publicar trabajos experimentales que prueban la posible existencia de la capacidad psíquica. En el Volumen 1:1 (noviembre de 1975), los editores describieron su preferencia por que los investigadores envíen artículos antes de la recopilación de datos (Johnson & Schouten, 1975). Este volumen inicial también contenía el documento basado en el discurso inaugural de Johnson. El volumen 1:2 (mayo de 1976) contenía otro artículo de Johnson sobre la importancia de esta política para combatir la no publicación de resultados nulos (Johnson, 1976). El volumen 1:3 (noviembre de 1976) contenía la primera declaración formal que describía la política de publicación de la revista y señaló:
«Un sello distintivo del European Journal of Parapsychology es el intento de evitar los informes selectivos, es decir, la tendencia a enterrar los resultados «˜negativos»™ y solo a publicar estudios que «˜resultan»™. Para evitar que la revista se convierta en un cementerio de todos los estudios «˜fallidos»™, requerimos que la aceptación o el rechazo de un manuscrito se produzca antes de la fase en la que se recopilan los datos experimentales. La calidad del diseño y la metodología y la justificación del estudio deben considerarse más importantes per se que el nivel de significación del resultado del estudio. Como regla práctica, recomendamos al contribuyente de un artículo que envíe un diseño de su estudio planificado antes de que el estudio se lleve a cabo. Debe indicarse la justificación del estudio, así como todas las hipótesis relacionadas con él. Además, uno debería intentar especificar el número de sujetos, el número de ensayos, etc., más el tipo de métodos estadísticos que se planea utilizar para la evaluación. Se dará prioridad a la publicación de estudios que cumplan con la política de publicación antes mencionada».
Como tal, los editores de EJP adoptaron el espíritu subyacente de los RR (incluida la importancia de publicar resultados tanto positivos como negativos, y juzgar la calidad de la investigación antes de la recopilación de datos) e hicieron intentos iniciales para diseñar un sistema que encapsulara muchos de los atributos clave. de RR (incluso alentar a los investigadores a enviar un documento que especifique su protocolo experimental, tamaño de la muestra, número de ensayos, justificación e hipótesis y análisis de datos). Sin embargo, cabe señalar que las directrices editoriales de EJP no incluían muchos de los controles y contrapesos más elaborados asociados con muchos sistemas modernos para RR (incluidos, por ejemplo, los investigadores que tienen que completar plantillas que les exigen especificar previamente información clave; editores, árbitros y autores que trabajan juntos para formar una «˜aceptación en principio»™ del estudio; una segunda ronda de revisión por pares después de la recopilación de datos; registro de estudios incompletos o retirados; el almacenamiento y publicación de la documentación inicial de los investigadores). Además, como la documentación inicial enviada al EJP por los investigadores no fue, que sepamos, retenida o publicada, no es posible juzgar retrospectivamente el grado en que los investigadores se adhieren a las pautas editoriales. Dejando a un lado estas deficiencias, está claro que los editores de EJP desarrollaron y llevaron a cabo una versión prototípica de los sistemas modernos para RR.
Esta declaración de publicación apareció en todos los números de la EJP desde 1976 a 1992. En 1992, tras el cierre del laboratorio de parapsicología de Utrecht, la dirección editorial de EJP se transfirió a la Unidad de Parapsicología Koestler (Universidad de Edimburgo), y una versión ligeramente modificada de la publicación. La política (aunque todavía enfatiza la apertura a la revisión de manuscritos antes de la recolección de datos) apareció entre 1992 y 2000. El RR final se publicó en el EJP en el Volumen 9 (1992-1993). En 2000, la dirección editorial de EJP se transfirió a la Universidad de Estocolmo y la política de publicación ya no se refería a los RR.
Durante unos 17 años (1976 a 1993), la EJP publicó una combinación de RR y no RR. Además de desempeñar un papel importante y poco conocido en la historia de los RR, esta base de datos única presenta una oportunidad para realizar un estudio exploratorio y retrospectivo que evalúe el impacto de los RR en el resultado del estudio. Dado que los RR fueron diseñados para reducir los QRP, se formuló la hipótesis de que los RR contendrían una proporción menor de resultados estadísticamente significativos que los no RR. Los análisis adicionales tuvieron como objetivo explorar si tal hallazgo podría deberse a dos explicaciones alternativas (a saber, si las diferencias se debieron a los RR y no RR que incluían diferentes tipos de estudios o se realizaron en diferentes momentos). Todos los análisis fueron exploratorios y se informaron todas las exclusiones y medidas de datos.
Método
Diseño: este estudio empleó un diseño observacional retrospectivo
Conjunto de datos y codificación
El conjunto de datos consistió en todos los artículos experimentales que probaron la existencia de capacidad psíquica en los números del EJP entre la publicación del primer y último RR (Volumen 1:3 [1976] al Volumen 9 [1992-1993]). Este conjunto de datos contenía 63 artículos que informaban 110 experimentos. Un asistente de investigación hizo dos copias de cada artículo y luego retiró la primera página del artículo (que contenía una nota al pie que indicaba si el artículo era un RR), aleatorizó el orden de los artículos y se los presentó a dos de los autores (RW y CW) para codificación ciega.
Los experimentos fueron rechazados si no contenían al menos una hipótesis formalmente establecida (N = 4), o si los autores describieron un artefacto metodológico que creían que socavaba todo el experimento (N = 15). Los ejemplos de la última categoría incluyeron: (i) experimentadores que intentaban investigar la supuesta influencia psíquica sobre el crecimiento de las semillas, pero observando que no habían descartado posibles influencias «normales»‘ debido a la siembra, el manejo y la medición no ciegos (Solfvin, 1982); e (ii) investigadores que realizaron una serie de estudios piloto en los que se pidió a grupos de participantes que determinaran psíquicamente la naturaleza de un objetivo oculto, y observaron que sus datos no eran independientes y, por lo tanto, no podían evaluarse de manera significativa (Blackmore, 1981). Se eliminaron tres artículos de la base de datos porque todos sus experimentos habían sido rechazados.
A los experimentos restantes se les asignó un número de identidad de experimento único (ExperimentID) y se codificaron en las siguientes variables:
N: El número de hipótesis formales probadas. Se excluyeron las hipótesis que estaban claramente etiquetadas como exploratorias, post hoc o informales.
H: El número de hipótesis respaldadas. Los experimentos involucrados en el análisis se llevaron a cabo desde mediados de la década de 1970 hasta mediados de la de 1990 y en ese momento los investigadores tendían a centrarse en si sus hallazgos eran estadísticamente significativos en lugar de en los tamaños del efecto. Como resultado, varios artículos contenían escasez de información estadística y algunos incluso simplemente indicaron si los resultados eran o no significativos. Por lo tanto, se decidió emplear la métrica que se informó en cada artículo, y una que hubiera sido más relevante para los investigadores en el momento en que se realizaron los estudios, es decir, si se informó que el análisis que probaba la hipótesis era estadísticamente significativo.
Tema
Los experimentos parapsicológicos se consideran tradicionalmente como una prueba de uno de dos tipos de supuestas habilidades psíquicas: Percepción extrasensorial (ESP: la supuesta conciencia de información sobre eventos externos no obtenida a través de los sentidos tradicionales o deducibles de experiencias previas) y Psicoquinesis (PK: La supuesta influencia mental de un sistema físico o biológico sin interacción física). Algunos investigadores han argumentado que los efectos supuestamente obtenidos en los experimentos de ESP son más robustos que los de los estudios de PK (ver, por ejemplo, Jahn et al., 2000; Bösch, Steinkamp & Boller, 2006). Para ayudar a evaluar si las diferencias en la proporción de hallazgos significativos en RR y no RR podrían deberse a los dos conjuntos de estudios que se centran en diferentes temas, cada estudio se codificó como prueba «ESP» o «PK».
Tiempo
Era posible que los artículos de EJP tuvieran menos probabilidades de informar efectos significativos a lo largo del tiempo (tal vez debido a la identificación en curso y eliminación de artefactos metodológicos) y que los RR tendían a ser publicados en revistas posteriores. Para ayudar a examinar esta posibilidad, los números de las revistas se numeraron cronológicamente del «1» (volumen 1:3) al «23» (volumen 9).
Cada codificador calificó cada artículo de forma independiente, y luego se resolvieron las áreas de desacuerdo antes de romper el ciego. Una vez completada la codificación, el estado de registro de cada experimento se codificó como «RR» o «no RR».
Resultados
El conjunto de datos final contenía 60 artículos: 25 RR y 35 no RR. Los RR describieron 31 experimentos que probaron 131 hipótesis, y los no RR describieron 60 experimentos que probaron 232 hipótesis.
El 28.4% de las pruebas estadísticas informadas en los no RR fueron significativas (66/232: IC del 95% [21.5% -36.4%]); en comparación con el 8.4% de los de los RR (11/131: IC del 95% [4.0% -16.8%]). Un análisis de contingencia simple de 2 × 2 mostró que esta diferencia es altamente estadísticamente significativa (prueba exacta de Fisher: p <.0005, chi-cuadrado de Pearson = 20.1, d de Cohen = .48). Un análisis de modelo lineal generalizado (modelo probit: variable de respuesta; predictor H/N; estado de registro: factor aleatorio; ID de experimento) arrojó un efecto significativo del estado de registro (F (1, 89) = 16.3, p = .0001, d de Cohen = .43). Para examinar si este efecto podría deberse a que los RR y los no RR examinaron diferencialmente la supuesta existencia de ESP o PK, se agregó «Tema» al Modelo Lineal Generalizado y no tuvo una mejora significativa (F [1, 87] = .56, p = .45; para Tema por estado de registro: F [1, 87] = 1.79, p = .18). Además, la variable «Tiempo» se agregó como marcador continuo, pero no produjo efectos significativos (F [1, 87] = 1.01, p = .32; para la edición de la revista por Estado de registro: F [1, 87] = .14 , p = .71). Estos hallazgos sugieren que la diferencia en la proporción de hallazgos significativos informados en RR y no RR no se debió a los dos conjuntos de estudios que investigaron diferentes temas, ni a una metodología mejorada a lo largo del tiempo que se corresponde con menos resultados significativos.
Discusión
Los investigadores han comenzado recientemente a utilizar los RR como una forma de minimizar los QRP dentro de las ciencias del comportamiento. Gran parte de la literatura que describe las raíces históricas de los RR se ha centrado en trabajos anteriores dentro de la psicología convencional y el papel clave desempeñado por Cortex en 2012. Sin embargo, a mediados de la década de 1970 el parapsicólogo Martin Johnson propuso una versión prototípica de los RR. Johnson y el parapsicólogo Sybo Schouten lanzaron el EJP y alentaron explícitamente a los investigadores a presentar RR. Durante los siguientes 17 años, esta revista publicó una combinación de RR y no RR.
La mayoría de los sistemas actuales para RR por lo general implican varias etapas, incluida una revisión previa editorial, el arbitraje del artículo antes de la recopilación de datos y un arbitraje adicional del artículo completo. En contraste, el procedimiento creado por Johnson solo involucró una única ronda de revisión por pares antes de la recolección de datos. Además, mientras que a los investigadores de hoy en día que envían un RR se les pide que preespecifiquen explícitamente una serie de detalles sobre su estudio, la política de publicación de EJP fue más relajada y simplemente instó a los autores a presentar sus fundamentos, hipótesis, número de sujetos y ensayos análisis estadísticos planificados, etc. (desafortunadamente, hasta donde sabemos, la documentación inicial enviada al EJP no se archivó y, por lo tanto, no es posible evaluar el detalle o la precisión del material enviado). Sin embargo, es evidente que el enfoque de Johnson era similar a los sistemas actuales para RR, y era anterior a esos sistemas en unos cuarenta años.
La combinación de RR y no RR del EJP nos permitió evaluar la relación entre los RR y el resultado del estudio. En comparación con los no RR, los RR fueron significativamente menos propensos a contener resultados estadísticamente significativos. Además, no hubo evidencia que sugiriera que este efecto se debiera a diferencias en los temas parapsicológicos bajo investigación, ni a que los dos conjuntos de estudios se llevaran a cabo durante diferentes períodos de tiempo. Como tal, estos resultados son consistentes con la noción de que los RR ayudaron a reducir los QRP (que, a su vez, redujeron la presencia de errores de Tipo 1) y están en línea con trabajos similares reportados en la literatura médica (Kaplan & Irvin, 2015). Sin embargo, los estudios de EJP no se asignaron al azar a la condición, por lo que los RR y los no RR pueden haber variado en varios otros factores (incluidos, por ejemplo, el diseño del estudio, el poder y la calidad metodológica), por lo tanto, es posible que estos factores ser responsable del efecto observado. Como resultado, los hallazgos deben verse como evidencia circunstancial, más que definitiva, de la noción de que los RR ayudan a prevenir los QRP.
Los parapsicólogos investigan la posible existencia de fenómenos que, para muchos, tienen una baja probabilidad a priori de ser genuinos (ver, por ejemplo, Wagenmakers et al., 2011). Esto a menudo ha resultado en que su trabajo esté sujeto a una cantidad considerable de atención crítica (tanto dentro como fuera del campo) que los ha llevado a ser pioneros en varios avances metodológicos antes de su uso dentro de las áreas principales de la psicología convencional, incluido el desarrollo de la aleatorización en el diseño experimental (Hacking, 1988), el uso de ciegos (Kaptchuk, 1998), las exploraciones sobre la aleatorización y la inferencia estadística (Fisher, 1924), los avances en cuestiones de replicación (Rosenthal, 1986), la necesidad de preespecificaciones en el metanálisis (Akers, 1985; Milton, 1999; Kennedy, 2004), y la creación de un registro formal de estudios (Watt, 2012; Watt & Kennedy, 2015). El trabajo de Johnson sobre los RR proporciona otra ilustración sorprendente de este principio en funcionamiento.
Finalmente, el análisis de los artículos de EJP basados en RR reveló que alrededor del 8.4% de los hallazgos fueron estadísticamente significativos, en comparación con el 5% esperado solo por casualidad. Aunque los hallazgos significativos informados en los RR representan evidencia de mayor calidad que los informados en los no RR, este resultado no es una evidencia convincente de la existencia de capacidad psíquica, ya que los experimentos pueden haber contenido otras deficiencias metodológicas no obvias, como problemas relacionados con la pérdida sensorial y mala asignación al azar (Milton & Wiseman, 1997).
Conclusión
En los últimos años, muchos psicólogos han centrado su atención en la reducción de prácticas de investigación cuestionables y la promoción de tasas de replicación. Gran parte de este trabajo ha implicado alentar a los investigadores a registrar previamente sus experimentos como RR. La idea de los RR dentro de las ciencias del comportamiento se considera un desarrollo relativamente reciente y, a menudo, se percibe que las revistas la adoptaron por primera vez alrededor de 2012.
De hecho, un prototipo de este modelo de publicación fue iniciado a mediados de la década de 1970 por el parapsicólogo Martin Johnson, y se publicó durante muchos años en el European Journal of Parapsychology. Una comparación empírica de RR y no RR proporciona evidencia circunstancial que sugiere que el enfoque puede haber ayudado a reducir las prácticas de investigación cuestionables.
Parece apropiado que la última palabra sea para uno de los investigadores involucrados en la política de publicación pionera de EJP. Hace treinta años, Schouten (1988″“1989) señaló que la política innovadora que había ayudado a crear podría actuar como un terreno de prueba útil para un procedimiento que, algún día, podría resultar valioso para la ciencia convencional:
«Especialmente en un área discutible como la parapsicología, es importante enfrentar todo tipo de desafíos con la mente abierta e introducir nuevas y mejores formas de hacer las cosas. Bien podríamos compensar nuestro, a muchos ojos, tema sospechoso estableciendo nuevos y mejores estándares en áreas del proceso científico, como por ejemplo, la metodología o las políticas editoriales». (Página 101)
Es agradable ver que los pensamientos de Schouten ahora se han hecho realidad.
Información suplementaria
Guiones de datos, libros de recetas y análisis
DOI: 10.7717/peerj.6232/supp-1
Información y declaraciones adicionales
Conflicto de intereses
Los autores declaran que no existen intereses en competencia.
Contribuciones de autor
Richard Wiseman y Caroline Watt concibieron y diseñaron los experimentos, realizaron los experimentos, contribuyeron con reactivos/materiales/herramientas de análisis, redactaron o revisaron borradores del documento y aprobaron el borrador final.
Diana Kornbrot analizó los datos, contribuyó con reactivos/materiales/herramientas de análisis, redactó o revisó borradores del documento y aprobó el borrador final.
Disponibilidad de datos
Se proporcionó la siguiente información sobre la disponibilidad de datos:
Se proporciona la lista de artículos de revistas codificados, junto con el libro de cocina y los scripts de análisis como un archivo complementario.
Fondos
Los autores no recibieron financiación para este trabajo.
Agradecimientos
Agradecemos a Ed Venables por preparar los materiales de la revista para la codificación enmascarada y a Chris Chambers por proporcionar información sobre la historia de los RR.
Referencias
Akers C. 1985. Can meta-analysis resolve the ESP controversy? In: Kurtz P, ed. A skeptic»™s handbook of parapsychology. Buffalo: Prometheus.
Alcock JE. 2011. Back from the future: Parapsychology and the Bem affair. Skeptical Inquirer, January 6th. https://doi.org/103758/s13423-012-0227-9, http://www.csicop.org/specialarticles/show/back_from_the_future
Bem DJ. 2011. Feeling the future: experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology 100:407-425
Blackmore SJ. 1981. Errors and confusions in ESP. European Journal of Parapsychology 4:49-70
Bösch H, Steinkamp F, Boller E. 2006. Examining psychokinesis: the interaction of human intention with random number generators»”A meta-analysis. Psychological Bulletin 132:497-523
Carey B. 2011. Journal»™s paper on ESP expected to prompt outrage. New York Times, Jan 5 2011. https://www.nytimes.com/2011/01/06/science/06esp.html
Center for Open Science. 2018. Registered reports: list of participating journals. (accessed 20 August 2018)
Chambers C. 2013. Registered reports: a new publishing initiative at Cortex. Cortex 49:609-610
Chambers C. 2017. The seven deadly sins of psychology: a manifesto for reforming the culture of scientific practice. Princeton: Princeton University Press.
Chambers C, Munafò M. 2013. Trust in science would be improved by study pre-registration.
Dickerson K, Rennie D. 2003. Registering clinical trials. Journal of the American Medical Association 290(4):516-523
Easterbrook PJ, Berlin JA, Gopalan R, Matthews DR. 1991. Publication bias in clinical research. The Lancet 337(8746):867-872
Fisher RA. 1924. A method of scoring coincidence in tests with playing cards. Proceedings of the Society for Psychical Research 34:181-185
Francis G. 2012. Too good to be true: publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review 19(2):151-156
Hacking I. 1988. Telepathy: origins of randomization in experimental design. Isis 70:427-451
Halliwell E. 2011. Can we feel the future through psi? Don»™t rule it out. The Guardian, 25th January 2011. https://www.theguardian.com/commentisfree/belief/2011/jan/25/precognition-feeling-the-future
Jahn R, Dunne B, Bradish G, Dobyns Y, Lettieri A, Nelson R, Mischo J, Boller E, Bösch H, Vaitl D+2 more. 2000. Mind/Machine interaction consortium: portREG replication experiments. Journal of Scientific Exploration 14:499-555
John LK, Loewenstein G, Prelec D. 2012. Measuring the prevalence of questionable research practices with incentives for truth»“telling. Psychological Science 23:524-532
Johnson M. 1975. Models of control and control of bias. European Journal of Parapsychology 1(1):36-44
Johnson M. 1976. On publication policy regarding non-significant results. European Journal of Parapsychology 1(2):1-5
Johnson M, Schouten SA. 1975. Editorial. European Journal of Parapsychology 1(1):1-2
Kaplan RM, Irvin VL. 2015. Likelihood of null effects of large NHLBI clinical trials has increased over time. PLOS ONE 10(8):e0132382
Kaptchuk TJ. 1998. Intentional ignorance: a history of blind assessment and placebo controls in medicine. Bulletin of the History of Medicine 72:389-433
Kennedy JE. 2004. A proposal and challenge for proponents and skeptics of psi. Journal of Parapsychology 68:157-167
Kupfersmid J. 1988. Improving what is published: a model in search of an editor. American Psychologist 43(8):635-642
LeBel EP, Peters KR. 2011. Fearing the future of empirical psychology: Bem»™s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology 15:371-379
Milton J. 1999. Should ganzfeld research continue to be crucial in the search for a replicable psi effect? Part I. Discussion paper and introduction to an electronic-mail discussion. Journal of Parapsychology 63:309-333
Milton J, Wiseman R. 1997. Guidelines for extrasensory perception research. Hatfield: University of Hertfordshire Press.
Neuroskeptic. 2008a. New age experiment goes wrong, hundreds dead. Discover Magazine. http://blogs.discovermagazine.com/neuroskeptic/2008/10/25/new-age-experiment-goes-wrong-hundreds-dead/#.W3nX_NuZM3E (accessed 25 October 2008)
Neuroskeptic. 2008b. Registration: not just for clinical trials. Discover Magazine. http://blogs.discovermagazine.com/neuroskeptic/2008/11/03/registration-not-just-for-clinical-trials/#.W3nYw9uZM3G (accessed 3 November 2008)
Neuroskeptic. 2012. The nine circles of scientific hell. Perspectives on Psychological Science 7:643-644
Neuroskeptic. 2013. Unilaterally raising the scientific standard. Discover Magazine. http://blogs.discovermagazine.com/neuroskeptic/2013/02/03/unilaterally-raising-the-scientific-standard/#.W3nas9uZM3H (accessed 3 February 2013)
Newcombe RG. 1987. Towards a reduction in publication bias. British Medical Journal 295(6599):656-659
Nosek BA, Ebersole CR, DeHaven AC, Mellor DT. 2018. The preregistration revolution. Proceedings of the National Academy of Sciences United States of America 115(11):2600-2606
Nosek BA, Spies JR, Motyl M. 2012. Scientific utopia: I.I. Restructuring incentives and practices to promote truth over publishability. Perspectives on Psychological Science 7:615-631
Open Science Collaboration. 2015. Estimating the reproducibility of psychological science. Open Science 349(6251):aac4716
Parker A, Mörck NC. 2011. Obituaries: Martin Johnson 1930″“2011. Journal of Parapsychology 75(2):353-359
Pashler H, Wagenmakers E-J. 2012. Editors»™ introduction to the special section on replicability in psychological science: a crisis of confidence? Perspectives on Psychological Science 7(6):528-530
Rhine JB. 1975. Publication policy regarding nonsignificant results. Journal of Parapsychology 39(2):135-142
Ritchie SJ, Wiseman R, French CC. 2012. Failing the future: three unsuccessful attempts to replicate Bem»™s «˜retroactive facilitation of recall»™ effect. PLOS ONE 7(3):e33423
Rosenthal R. 1966. Experimenter effects in behavioral research. New York: Appleton-Century-Croft.
Rosenthal R. 1986. Meta-analytic procedures and the nature of replication: the ganzfeld debate. Journal of Parapsychology 50:315-336
Schimmack U. 2012. The ironic effect of significant results on the credibility of multiple-study articles. Psychological Methods 17(4):551-566
Schouten SA. 1988″“1989. The end of the parapsychology laboratory at the University of Utrecht. European Journal of Parapsychology 7:95-116
Simes RJ. 1986. Publication bias: the case for an international registry of clinical trials. Journal of Clinical Oncology 4(10):1529-1541
Solfvin J. 1982. Studies of the effects of mental healing and expectations on the growth of corn seedlings. European Journal of Parapsychology 4(3):287-323
Van «˜t Veer AE, Giner-Sorolla R. 2016. Pre-registration in social psychology»”a discussion and suggested template. Journal of Experimental Social Psychology 67:2-12
Wagenmakers E-J, Wetzels R, Borsboom D, Van der Maas HLJ. 2011. Why psychologists must change the way they analyse their data: the case of psi. Journal of Personality and Social Psychology 100:426-432
Wagenmakers E-J, Wetzels R, Borsboom D, Van der Maas HLJ, Kievit RA. 2012. An agenda for purely confirmatory research. Perspectives on Psychological Science 7(6):632-638
Walster GW, Cleary TA. 1970. A proposal for a new editorial policy in the social sciences. American Statistician 24(2):16-19
Watt C. 2012. Letter to the editor. Journal of Parapsychology 76(2):403
Watt C, Kennedy JE. 2015. Lessons from the first two years of operating a study registry. Frontiers in Psychology 7 Article 173
Weiss D. 1989. An experiment in publication: advance publication review. Applied Psychological Measurement 13(1):1-7
Wiklund N. 1977. Parapsychological temptations: a discussion on decline effects, sex effects, and post-hoc effects. In: Morris JD, Roll WG, Morris RL, eds. Research in Parapsychology 1976. Metuchen: Scarecrow Press. 125-128