Taller XSEDE14 Lucha con la reproducibilidad - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Taller XSEDE14 Lucha con la reproducibilidad

Hola de nuevo. En el teclado Simón Sánchez y en esta ocasión hablaremos sobre Taller XSEDE14 Lucha con la reproducibilidad

Imagínese intentar crear una nueva salsa para un plato especial, o la pegatina perfecta para un nuevo avión, o pilotar un helicóptero en busca de víctimas de un desastre natural, y tendrá éxito en todos ellos. Esta es una gran noticia para los invitados a la cena, o para la empresa que usará el nuevo adhesivo, y especialmente para las víctimas del desastre natural. Pero la pregunta es, ¿podría hacerlo de nuevo y obtener los mismos resultados? ¿O tuviste suerte la primera vez?

En la conferencia XSEDE14 en Atlanta, una sala llena de veteranos computacionales de dentro y fuera de NSF Extreme Science and Engineering Discovery Environment (XSEDE) asistió a un seminario de un día completo sobre el tema de la reproducibilidad y, por supuesto, el correo está en juego mucho.

«Hay una conciencia creciente en la comunidad de investigación computacional de que esta pregunta de ‘podemos hacerlo de nuevo’ se está volviendo importante para nosotros de nuevas maneras y hay mucho en juego: la investigación computacional está ayudando a salvar vidas al responder cuestiones políticas e impactando al mundo «, dijo Doug James, investigador de HPC en el Centro de Computación Avanzada de Texas, en su discurso de apertura del taller.

La gente ha estado pensando en la reproducibilidad durante mucho tiempo: una cosa es reproducir un experimento de laboratorio a pequeña escala o un cálculo en el escritorio, pero es una cuestión completamente diferente reproducir algo que el telescopio espacial Hubble hizo en cinco años al costo de cientos de millones de dólares, por ejemplo.

Entonces, ¿qué es la reproducibilidad? Una definición operativa podría verse así: la capacidad de repetir un experimento en la medida necesaria para evaluar la precisión y la importancia de los resultados. Las prácticas que promueven la reproducibilidad incluyen cualquier cosa que haga que un investigador esté más organizado, proporcione una mejor pista de auditoría, le permita al investigador realizar un seguimiento del código fuente y saber qué fuentes de datos se utilizaron.

Victoria Stodden de la Universidad de Columbia, quien dirigió un panel de discusión sobre reproducibilidad en 2009 y un seminario ICERM sobre reproducibilidad en matemáticas computacionales y experimentales en 2012, pronunció el discurso de apertura en el taller XSEDE14. Planteó la cuestión de una crisis de credibilidad.

«La reproducibilidad ha afectado a la prensa popular en los últimos meses», dijo Stodden, citando la cobertura reciente de The Economist (octubre de 2013) y editoriales de Nature and Science. Las preguntas sobre la importancia de la reproducibilidad fueron catalizadas por el escándalo del ensayo clínico de la Universidad de Duke sobre genómica computacional, donde se descubrieron errores de investigación en 2010 en The Cancer Letter.

“Esto realmente va al corazón de cuán importantes son los problemas de reproducibilidad y cómo necesitamos reconstruir la línea de pensamiento, razonamiento y observación que hace un científico, pero también a los aspectos computacionales, donde se manifiestan muchas de estas decisiones. «

Stodden también insinuó discusiones en curso separadas sobre diferentes aspectos de la reproducibilidad, como la reproducibilidad estadística, que cuestiona las decisiones de investigación sobre estadísticas y análisis de datos, y la reproducibilidad empírica, que se centra en los estándares de informes para el experimento físico, pero no se centra en los pasos computacionales.

Todos en la sala estuvieron de acuerdo en que la investigación computacional se encuentra ahora en una posición en la que la complejidad y la criticidad de la misión adquieren un nuevo significado y la comunidad debe desarrollar confianza en los resultados de esa investigación. Pero, ¿cuáles deberían ser nuestras prioridades? ¿Formación? ¿Mejores herramientas? ¿Nuevos pasos en propuestas y presentaciones?

El director de NCSA, Ed Seidel, compartió su opinión de que hay tres niveles en los que deben suceder las cosas para que el impulso se mueva en la dirección correcta: 1) el nivel del campus; 2) nivel nacional; y 3) a nivel de editor.

Seidel dijo que los campus locales deben pensar en cómo comenzar a respaldar los servicios de datos locales, no solo los repositorios, para que exista una estructura local. «Este es un tema político que los vicerrectores de investigación y los rectores deben tomar en serio … y existen organizaciones como Internet2 y Educause que cubren universidades de investigación en todo el país que pueden ayudar», dijo Seidel. . “Es importante enmarcarlos no solo como datos sino más en torno a la reproducibilidad; alcance el problema más allá de los datos y la infraestructura de datos.

Además, Seidel citó la iniciativa XSEDE como una buena organización para ayudar al proceso de reproducibilidad. XSEDE fue fundamental en el inicio del Consorcio Nacional de Servicios de Datos, cuyo objetivo era organizar una serie de esfuerzos de servicios de datos individuales en torno a herramientas para crear colecciones de datos para obtener identificadores de objetos digitales o «DOI» asociados con ellos y proporcionar servicios de enlace con los editores. Aunque normalmente se consideran indicadores de la recopilación de datos, los DOI también se pueden vincular al código. Esta es una parte crucial de la reproducibilidad.

Las empresas y las revistas profesionales también pueden influir. Muchos están empezando a solicitar enlaces a datos a los que se hace referencia en una publicación. Pero las prácticas reproducibles deben comenzar en el grupo de investigación.

Victoria Stodden, profesora asistente, Departamento de Estadística, Universidad de Columbia, y Lorena Barba, profesora asistente, Instituto de Tecnología de California

Lorena Barba, de la Universidad George Washington y una de las principales defensoras de la ciencia reproducible, dijo: «Realizar una investigación de manera reproducible no significa que alguien más reproducirá los resultados, sino que lo está haciendo como si alguien quisiera hacerlo. Al proporcionar documentación completa, acceso a los datos. entrada y código fuente, la comunidad confiará en sus resultados y los etiquetará como reproducibles incluso si, de hecho, no se reproducen «.

Muchas otras personas se han unido a la conversación, incluido Mark Fahey del Instituto Nacional de Ciencias Computacionales. Según Fahey, los centros deben intensificar y asumir la responsabilidad de proporcionar documentación sobre cómo los usuarios crean y ejecutan su propio código. Fahey dijo: “Los centros pueden recopilar automáticamente información para cada código creado y para cada código ejecutado, y esta información puede ponerse a disposición del investigador para su publicación si así lo desea. Ya hay dos prototipos (ALTD y Lariat) en una variedad de centros de procesamiento en todo el mundo que recopilan una gran cantidad de esta información, y se está desarrollando una nueva infraestructura mejorada llamada XALT financiada por NSF «.

Recomendaciones

Al comienzo del seminario, el grupo se comprometió con un resultado clave: recomendaciones en forma de prioridades e iniciativas para organizaciones y comunidades.

“Se ha dado a entender que ‘por supuesto, esto es lo que hace la gente, los administradores de sistemas y los investigadores verifican para asegurarse de que los códigos obtengan los mismos resultados después de las actualizaciones del sistema y cuando se transfieren a nuevas plataformas’, pero la reproducibilidad no. nunca fue una empresa formal ”, dijo Nancy Wilkins-Diehr del Centro de Supercomputación de San Diego, quien resumió el taller y ayudó a facilitar sugerencias para seguir adelante.

“Este es un buen momento para hacerlo. La ciencia computacional es un contribuyente respetado a la base del conocimiento científico. Las decisiones importantes ahora se basan en la simulación. Si bien esto es gratificante, también tiene implicaciones muy reales para nuestras responsabilidades «, dijo.

Sin embargo, los participantes pretenden seguir adelante con humildad. «La visión de las recomendaciones es honrar la realidad de un conjunto diverso de puntos de vista e incluir ideas que pueden estar fuera de la caja», concluyó James. Todos están de acuerdo en la necesidad de promover herramientas y metodologías de generación de confianza que no afecten negativamente al desempeño.

Las recomendaciones estarán listas en septiembre de 2014; consulte xsede.org/reproducibility para leerlas. Además, puede enviar comentarios y sugerencias a [email protected]. El Help Desk enviará todas las consultas al equipo de XSEDE que trabaja en esta iniciativa.

Puedes compartir en una historia de tu Instagram para que tus colegas lo consulten

??? ? ? ???

Comparte