Resumen de la investigación: aplicaciones con uso intensivo de datos - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Resumen de la investigación: aplicaciones con uso intensivo de datos

Hola, un placer verte por aquí. En el teclado Simón Sánchez y esta vez te voy a hablar sobre Resumen de la investigación: aplicaciones con uso intensivo de datos

El surtido seleccionado de esta semana de iniciativas de investigación en la nube de HPC incluye un enfoque especial en MapReduce, donde aparentemente cada semana se publica más investigación de HPC sobre aplicaciones intensivas en datos. Además, analizamos el rendimiento de los sistemas EC2 en comparación con los puntos de referencia, el tema siempre importante de la seguridad y la implementación de GPU en la nube.

Análisis empírico de los puntos de referencia de HPC en la nube

Las aplicaciones informáticas de alto rendimiento son aplicaciones científicas que requieren importantes capacidades de CPU. Yo también soy segundo investigadores de la Universidad del Norte de Florida, aplicaciones con uso intensivo de datos que requieren una gran capacidad de almacenamiento de datos.

Si bien muchos investigadores han analizado el rendimiento de la plataforma EC2 de Amazon en algunos puntos de referencia de HPC, un estudio en profundidad y su comparación entre EC2 de Amazon y Windows Azure de Microsoft falta en gran medida con métricas como el ancho de banda de la memoria, yo / O y comunicación y rendimiento informático.

El propósito de su artículo era llenar ese vacío e implementar los puntos de referencia existentes para evaluar y analizar estas métricas para EC2 y Windows Azure que abarcan los tipos de infraestructura como servicio y plataforma como servicio.

Lo lograron ejecutando las versiones MPI de los puntos de referencia STREAM, Interleaved o Random (IOR) y NAS Parallel (NPB) en tipos de instancias pequeñas y medianas. Además, también incluyeron un nuevo tipo de instancia de medio EC2 (m1.medium) en el análisis. Estos puntos de referencia midieron el ancho de banda de la memoria, el rendimiento de E / S, la comunicación y el rendimiento informático.

Siguiente – MapReduce y aplicaciones intensivas en datos->

MapReduce y aplicaciones intensivas en datos

La computación distribuida y paralela ha surgido como un campo bien desarrollado en ciencias de la computación, según una investigación de la Universidad de Indiana.

Tak-Lon Wu, de la Escuela de Informática y Computación, escribió a papel sobre cómo la computación en la nube ofrece nuevos enfoques a las aplicaciones comerciales y científicas porque incorpora diferentes perspectivas para el uso de hardware y software.

Según Wu, MapReduce implementó la arquitectura de procesamiento de datos, instanciando el nuevo paradigma de «llevar la computación a los datos» se ha convertido en una solución popular para aplicaciones científicas a gran escala, como minería de datos / texto, alineación de secuencias bioinformáticas, Multiplicación de matrices, etc.

Para comprender si el modelo de cálculo de MapReduce se aplica a estos problemas analíticos de datos intensivos, exploró varios problemas analizando su uso para diferentes plataformas MapReduce en entornos HPC Cloud. Principalmente, analizó los sistemas MapReduce de última generación para aplicaciones científicas, así como también resumió los problemas de investigación encontrados en estudios anteriores.

Siguiente – Aplicar control de acceso obligatorio en el entorno HPC->

Hacer cumplir el control de acceso obligatorio en el entorno de HPC

Los sistemas operativos modernos continúan siendo víctimas de ataques y filtraciones de información. Las arquitecturas emergentes como la computación en la nube o HPC son complejas de configurar y enfrentan muchos tipos de amenazas de seguridad.

Sin embargo, segundo para investigar el DAM Île-de-France y el Laboratoire d’Informatique Fondamentale d’Orléans en Francia, todavía se basan en los mecanismos tradicionales de control de acceso para proteger el sistema y los datos del usuario, mientras que estos mecanismos se pueden configurar en un mal y fácilmente derrotado.

Presentaron una arquitectura integral para mejorar la seguridad de los clústeres de HPC. Según su investigación, proporciona tres niveles de control de acceso para permitir a los usuarios controlar sus archivos aplicando propiedades de seguridad avanzadas.

En particular, la integración del control de acceso obligatorio permite controlar los flujos de información directa, mientras que un monitor de referencia nuevo y específico se ocupa de los flujos de información indirecta. Para mantener un bajo impacto en el rendimiento del sistema operativo, propusieron centralizar este segundo monitor de referencia en un nodo dedicado, controlando los flujos en todos los demás nodos de la red de baja latencia.

Presentaron la arquitectura completa y los resultados de varios puntos de referencia que indican un bajo impacto en el rendimiento. Luego expusieron cómo hicieron esta arquitectura tolerante a las fallas. Este estudio aprovechó el trabajo previo relacionado con el control de acceso en estaciones de trabajo o tecnologías de virtualización y extendió los conceptos al entorno HPC.

Siguiente: un enfoque para el traspaso gráfico en la nube-> máquinas virtuales

Un enfoque para el traspaso gráfico en máquinas virtuales en la nube

Según un estudio elaborado por un equipo de la Universidad Tecnológica de Gujarat en India, la creciente necesidad de servicios de computación en la nube lo convierte en un campo más desafiante para los proveedores e investigadores de la nube.

Después de una breve introducción al hipervisor Xen, su papel discutió el problema del acceso ineficiente a los aceleradores de gráficos en la nube. Algunas de las razones detrás de este problema incluyen patrones propietarios y heterogeneidad en la arquitectura del procesador de gráficos. Su artículo se centró en estos problemas de aceleración de la Unidad de procesamiento gráfico (GPU) al proporcionar un modelo de paso a través de GPU de muestra.

El paso de gráficos es una tarea delicada debido a la arquitectura secreta de los adaptadores de gráficos, especialmente los de NVDIA. Realización de la virtualización de gráficos a través de la nube habilitada para el paso a través de GPU para brindar servicios gráficos de calidad a muy bajo costo.

Los proveedores de tarjetas gráficas se reservan a la hora de divulgar la arquitectura del dispositivo gráfico, lo que hace que la aceleración de gráficos sea específica del proveedor de gráficos.

Siguiente – Un marco MapReduce y MPI para aplicaciones de dinámica molecular->

Un marco MapReduce y MPI para aplicaciones de dinámica molecular

El desarrollo de plataformas de procesamiento de datos a gran escala ha sido de gran interés para los científicos, notado Dr. Shuju Bai en una disertación reciente. Hadoop es una plataforma informática ampliamente utilizada que es un sistema distribuido tolerante a fallas para el almacenamiento de datos gracias a HDFS (Hadoop Distributed File System) y realiza un procesamiento de datos distribuido tolerante a fallas en paralelo gracias al marco MapReduce .

A menudo es suficiente que los cálculos reales requieran múltiples ciclos de MapReduce, dijo Bai, que necesita trabajos encadenados de MapReduce. Sin embargo, Design by Hadoop es deficiente para abordar problemas con estructuras iterativas.

En muchos problemas iterativos, dijo Bai, cada ciclo de MapReduce requiere algunos datos invariantes. Los mismos datos se cargan en el sistema de archivos de Hadoop en cada ciclo de MapReduce, lo que provoca la entrega repetida de datos y un tiempo innecesario para transferir estos datos.

Además, aunque Hadoop puede procesar datos en paralelo, no admite MPI en el procesamiento. En cualquier actividad Mapa / Reducir, el cálculo debe ser serial, según Bai. Esto da como resultado cálculos científicos ineficientes envueltos en tareas Map / Reduce porque el cálculo no se puede implementar en un clúster de Hadoop, especialmente un clúster de Hadoop en un clúster de cálculo tradicional de alto rendimiento.

Las tecnologías computacionales se han estudiado ampliamente para aplicarlas a muchos dominios de aplicación. Desde la presencia de Hadoop, los científicos han aplicado el marco MapReduce a las ciencias de la vida, la química, las ciencias médicas y otras áreas para procesar de manera eficiente grandes conjuntos de datos.

En su investigación, propusieron un marco híbrido de MapReduce iterativo y MPI para aplicaciones de dinámica molecular. Realizaron simulaciones de dinámica molecular con el marco híbrido implementado.

Además, mejoraron las capacidades y el rendimiento de Hadoop al agregar un módulo MPI a Hadoop. El módulo MPI permitió a Hadoop monitorear y administrar los recursos del clúster de Hadoop para que los cálculos incurridos en las actividades de Map / Reduce pudieran realizarse en paralelo. También aplicaron el mecanismo de almacenamiento en caché local para evitar la redundancia en la entrega de datos y hacer que la computación sea más eficiente.

Su marco híbrido hereda las características de Hadoop y la eficiencia de procesamiento mejorada de Hadoop. El dominio de aplicación objetivo de su investigación es la simulación de dinámica molecular. Sin embargo, el uso potencial de su marco iterativo MapReduce con MPI es extenso. Puede ser utilizado por cualquier aplicación que contenga una o varias iteraciones de MapReduce, invoque cálculos en serie o en paralelo (MPI) en la fase de mapa o la fase de reducción de Hadoop.

Recuerda compartir en en tu Twitter y Facebook para que tus colegas lo lean

??? ? ? ???

Comparte