El imperativo de baja latencia y el nuevo CCI de Amazon para HPC - Calendae | Informática, Electrónica, CMS, Ciberseguridad

El imperativo de baja latencia y el nuevo CCI de Amazon para HPC

Hola, ¿qué tal colega?. Soy Simón Sánchez y en el día de hoy te voy a contar sobre El imperativo de baja latencia y el nuevo CCI de Amazon para HPC

Hoy, el Coates Cluster de la Universidad de Purdue, que ocupa el puesto 103 en el ranking de supercomputadoras TOP500, fue declarado el primer sistema de clúster Ethernet nativo de 10 Gb en ser clasificado en la lista de honor, lo que significa, por supuesto, que el clúster antes de esto, todos usaron la poderosa InfiniBand para cumplir con sus imperativos de baja latencia.

Hay poco espacio para cuestionar que el lado purista de la comunidad informática de alto rendimiento ve a InfiniBand como el estándar de oro. Poco después de mi sorpresa tras el anuncio sobre la novedad de Amazon Instancias de clúster de cómputo inspiradas en HPC, que tienen el poder de colocarlos en el equivalente a la posición # 145 en la lista TOP500, pensé que la palabra «InfiniBand» seguiría, pero no fue así. Amazon, en cambio, optó por 10GbE, una decisión que molestó a algunos porque algunos la consideran incluso inferior en el frente de baja latencia.

En una entrevista con Michael Feldman de Calendae, Deepak Singh, gerente de desarrollo comercial de Amazon Web Services, respondió una pregunta que muchos se hacían después de pasar un día en las noticias de Amazon: ¿Por qué optaron por una red de 10 GbE en lugar de InfiniBand, por ¿ejemplo?

Singh respondió que Amazon miró a la base de clientes para averiguar qué opciones de tecnología se adaptaban mejor a sus necesidades, diciendo: «Sabemos que los microsegundos son importantes para HPC. Diseñamos específicamente instancias de computadoras en clúster con un ancho de banda Ethernet de 10 Gbps. para proporcionar a los clientes el rendimiento de red de baja latencia necesario para una comunicación de nodo a nodo estrechamente acoplada. Las instancias informáticas de clúster proporcionarán más CPU que cualquier otro tipo de instancia, y los clientes pueden esperar encontrar el mismo rendimiento proporcionado por un ‘Infraestructura personalizada, pero con las ventajas adicionales de elasticidad, flexibilidad y bajos precios horarios ”.

Cuando se les preguntó si planeaban agregar clústeres de red InfiniBand, Singh dijo que Amazon «continuará evaluando todas las tecnologías a medida que recibamos comentarios de los clientes sobre el nuevo tipo de instancia», lo que se traduce aproximadamente en no, no en lo que sea. momento pronto, pero le agradecemos que lo haya preguntado.

Amazon reveló una cantidad sorprendente de información para este nuevo tipo de instancia, al menos en comparación con las otras versiones que ofrecían suficiente información para que los usuarios se hicieran una idea aproximada, otra debilidad importante de la opción EC2 para ejecutar aplicaciones. Tipo HPC. Si bien esta vez compartieron las especificaciones de hardware, las especificaciones aún son turbias. Por ejemplo, cuando Calendae preguntó acerca de los detalles de configuración (es decir, adaptadores, conmutadores, etc.) y los parámetros de latencia de nodo a nodo o cualquier información de latencia, la respuesta de Singh volvió a la información general de EC2. Afirmó que Amazon “no comparte detalles sobre los detalles de la implementación de la red. Lo que puedo decirles es que las nuevas instancias de Cluster Compute operan en una red de 10 GbE que proporciona un ancho de banda cruzado completo a los miembros del clúster y una latencia muy baja «.

Gilad Shainer, director sénior de HPC e informática técnica de Mellanox Technologies, una empresa que defiende firmemente InfiniBand (aunque sigue apuntando al mercado de 10 GbE), «Muchos de los sistemas HPC de todo el mundo se han construido para ofrecer el máximo rendimiento y eficiencia, por lo tanto, InfiniBand, GPU, etc. Las personas que usan HPC quieren poder ejecutar sus simulaciones lo más rápido posible y tanto como sea posible por día. La nueva voz de Amazon incluye 10GigE para E / S e incorpora el CPU más nuevas, pero actualmente la cantidad de CPU que pueden usar los usuarios está limitada. Creo que Amazon tendrá que seguir mejorando su oferta de HPC en la nube para incluir la tecnología que se usa en la mayoría de los sistemas HPC en la actualidad para proporcionar más recursos informáticos por usuario. «.

Después de que la emoción de la noticia desaparece, la gente está mirando mucho más de cerca no solo los resultados de Linpack que proporcionaron el ranking virtual de Amazon (se necesita más de una prueba para llegar al Top500; esto ha sido más de un ejercicio para demostrar las capacidades de CCI) y la naturaleza de esto como una alternativa viable a los clústeres internos de HPC. Esto ofrece mucho más que el estándar EC2 y aborda las preocupaciones de muchos en la comunidad de que simplemente no estaban obteniendo suficiente de lo que se ofrecía.

No puedo esperar a ver cómo otros aceptan el desafío, ya que ahora está claro que el mercado de HPC debe ser lo suficientemente importante como para satisfacerlo. Si alguien más sube la apuesta con InfiniBand y más potencia de CPU (a través de la magia, por supuesto), ¿qué significará eso?

Me gustaría escuchar algunas reflexiones sobre este tema. ¿Qué importancia tiene la red o los demás inconvenientes, incluso las capacidades proporcionadas por CCI, siguen siendo un obstáculo? En resumen, ¿no es solo el imperativo de latencia?

No te olvides compartir en tu Facebook para que tus colegas lo flipen

??? ? ? ???

Comparte