EUDAT: una nueva infraestructura de datos colaborativos para la ciencia

Hola y mil gracias por leerme. Te habla Simón Sánchez y esta vez te voy a hablar sobre EUDAT: una nueva infraestructura de datos colaborativos para la ciencia

EUDAT es un proyecto de datos paneuropeo, que reúne a un consorcio único de comunidades nacionales de investigación y datos y centros informáticos de alto rendimiento, con el objetivo de contribuir a la producción de una infraestructura de datos colaborativa (CDI) para respaldar los requisitos de datos Ciencia e investigación europeas.

En Barcelona, ​​del 7 al 8 de marzo, EUDAT celebró su primer foro de usuarios, brindando una oportunidad a 18 comunidades de investigación de toda Europa para discutir sus requisitos y expectativas de datos específicos. En este foro, EUDAT presentó una gama de servicios de datos interdisciplinarios, diseñados para servir a todas las comunidades de investigación europeas. La implementación de cada servicio es coordinada por grupos de trabajo multidisciplinarios que incluyen representantes de comunidades de usuarios y centros de datos. EUDAT tiene como objetivo ofrecer servicios piloto en 2012, con servicios completos disponibles para todas las comunidades de investigación para finales de 2014.

Pero, ¿qué son exactamente estos servicios y qué beneficios pueden esperar las comunidades de usuarios de ellos?

Si bien las comunidades de investigación de diferentes disciplinas tienen diferentes ambiciones y enfoques, particularmente en lo que respecta a la organización y el contenido de los datos, también comparten requisitos básicos de servicios. Esta característica común permite a EUDAT establecer servicios de datos paneuropeos compartidos, diseñados para apoyar a múltiples comunidades de investigación.

«La forma en que se organizan los datos difiere de una comunidad a otra», dice Peter Wittenburg, coordinador científico de EUDAT, del Instituto Max Planck de Psicolingüística en Nijmegen, Países Bajos. “EUDAT debe reconocer esta heterogeneidad como punto de partida, buscando al mismo tiempo un cierto grado de integración a través de soluciones y servicios comunes. Para que CDI tenga éxito, se requiere una arquitectura abstracta, que permita la integración de las soluciones de datos heredadas de los usuarios con los centros de datos que admiten servicios de datos comunes «.

Existe una fuerte demanda entre las comunidades de investigación de servicios de replicación de datos asociados con un mejor acceso a la potencia informática. Esta demanda sustenta dos de los servicios de datos comunes de EUDAT: la replicación segura de datos y la capacidad de mover datos desde y hacia las instalaciones de HPC. Cuando se combinan, estos servicios formarán un componente clave del CDI:
El servicio de «replicación segura» permitirá la replicación de datos de un sitio a otro, por ejemplo, de un centro comunitario con orientación científica a un centro de datos.

El servicio será flexible y seguro ”, explica Mark van de Sanden, que supervisa este trabajo para EUDAT desde el centro informático SARA en los Países Bajos. “Por ejemplo, permitirá a los usuarios solicitar la creación de M réplicas de un conjunto de datos, para ser archivados en diferentes centros de datos por N años, con la posibilidad de excluir centros de X a Z del esquema de replicación. EUDAT tiene acceso a enormes instalaciones de almacenamiento de datos, proporcionadas por centros de datos nacionales, y puede utilizarlas para apoyar a las comunidades de investigación que no tienen una infraestructura de datos sólida o que desean múltiples copias de conjuntos de datos en ubicaciones geográficamente dispersas «.

Otro punto fuerte del consorcio EUDAT es la enorme cantidad de potencia informática disponible en los centros europeos de HPC, la mayoría de los cuales son miembros de PRACE y se encuentran entre los centros de supercomputación más avanzados del mundo. EUDAT aprovechará la experiencia adquirida en DEISA y PRACE para construir una infraestructura capaz de proporcionar acceso a esta potencia informática.

«Una vez que los usuarios hayan replicado sus datos en la infraestructura de EUDAT, esperamos que también deseen utilizar las capacidades de procesamiento vecinas para analizar esos datos», dice van de Sanden. «Estamos trabajando en cómo mover datos entre la infraestructura de EUDAT y el espacio de trabajo de HPC».

Estos servicios serán enormemente beneficiosos para las comunidades de investigación al proporcionar una solución de almacenamiento junto con el acceso a las máquinas informáticas más potentes de Europa. Infraestructuras de investigación a gran escala (por ejemplo, las resultantes de la ESFRI roadmap) podrán utilizar la infraestructura EUDAT para integrar sus soluciones, y las comunidades de investigación más pequeñas podrán confiar en la infraestructura EUDAT para sus servicios de datos, eliminando la necesidad de inversiones de capital a gran escala en el desarrollo de infraestructura.

Los problemas complejos o «grandes desafíos» requieren cada vez más un enfoque transdisciplinario y se basan en datos de múltiples campos de investigación. En este contexto, hacer que los datos de varias disciplinas estén disponibles en una única infraestructura colaborativa es extremadamente beneficioso. Por lo tanto, existe un reconocimiento generalizado entre las comunidades que utilizan datos y las que financian infraestructuras electrónicas de que la federación de datos debe mejorarse. Una mejor federación de datos conduce a una mejor retención de datos, acceso optimizado a los datos y una mayor usabilidad, y estas mejoras facilitan la reutilización de datos en nuevos contextos, en todas las comunidades y en todas las disciplinas.

Para lograr estos objetivos, los datos almacenados en la infraestructura de EUDAT deben ser visibles, legibles, comprensibles y de fácil acceso para todos, especialmente aquellos de una disciplina distinta a la que creó los datos originales.

Parte del desafío es comprender los conjuntos de datos y encontrar buenas soluciones de metadatos que le permitan integrar datos de diferentes comunidades en colecciones fácilmente buscables. Para ello, una de las tareas de EUDAT es la creación de un catálogo que permita a los usuarios buscar datos almacenados. Las comunidades de usuarios deben estar muy involucradas en esta tarea, ya que son los principales proveedores de metadatos.

En colaboración con EPIC, EUDAT también implementará servicios de identificación persistente, proporcionando sistemas robustos, altamente disponibles y de alto rendimiento que emiten identificadores persistentes (PID) que a su vez pueden usarse dentro de las comunidades de investigación, y EUDAT CDI, regular el movimiento de datos y la búsqueda y consulta.

Los principales objetivos de EUDAT son la creación de servicios compartidos entre disciplinas y el apoyo de la ciencia interdisciplinaria intensiva en datos. A pesar de este énfasis en los elementos comunes, algunos servicios se pueden adaptar a un subconjunto más pequeño de comunidades o incluso a investigadores individuales. EUDAT albergará «servicios comunitarios», lo que permitirá a las comunidades de usuarios utilizar los recursos de EUDAT para implementar y ejecutar servicios específicos en la infraestructura de EUDAT. También se atenderá a investigadores individuales, con un servicio de «archivo simple» que permite el almacenamiento y el intercambio de datos «pequeños» que no forman parte de conjuntos de datos o colecciones oficiales, pero que son igualmente importantes para el progreso de la investigación.

“Para que EUDAT estimule la investigación interdisciplinaria, debe convertirse en un importante portal de datos científicos. Debe ofrecer servicios de vanguardia, no solo a los institutos de investigación, sino también a los investigadores individuales, ya que son los usuarios finales de la infraestructura ”, dice el Dr. Kimmo Koski, CEO de CSC y coordinador del proyecto EUDAT. desarrollado como parte del CDI debe ser guiado por el usuario, lo que significa que la colaboración intensa con los usuarios es absolutamente crucial. Sabemos que los usuarios tienen grandes expectativas de EUDAT y esperamos cumplir esas expectativas. Habrá desafíos en el camino, pero el camino se vuelve mucho más claro gracias a estos fuertes vínculos con las comunidades de usuarios «.

No te olvides compartir en tus redes sociales para que tus colegas lo sepan

??? ? ? ???

Comparte