Oracle Cloud profundiza la adopción de HPC con el lanzamiento de instancias A100, planes de activación y más - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Oracle Cloud profundiza la adopción de HPC con el lanzamiento de instancias A100, planes de activación y más

Hola otra vez. Te escribe Simón Sánchez y en el día de hoy vamos a hablar sobre Oracle Cloud profundiza la adopción de HPC con el lanzamiento de instancias A100, planes de activación y más

Oracle Cloud Infrastructure (OCI) continuó su aumento constante en las capacidades de HPC hoy con una serie de anuncios. Encabezando la lista está la disponibilidad general de instancias con la nueva GPU de Nvidia, la A100. OCI también reveló amplias colaboraciones con Rescale y Altair. Finalmente, Oracle reveló planes para su primera incursión en el mundo de Arm con instancias que utilizan chips Ampere a principios del próximo año. OCI ofrece actualmente procesadores Intel y AMD con la intención de ofrecer CPU de próxima generación (Ice Lake y Milan) de ambos.

Karan Batta, vicepresidente de gestión de productos, OCI, informó a Calendae sobre las noticias y la hoja de ruta de HPC en evolución de OCI. Oracle ha sido durante mucho tiempo una fuerza en la empresa, y su creciente énfasis en HPC sigue al creciente uso comercial de HPC, señaló Batta. En este sentido, Batta argumenta que el enfoque de Oracle -construir sus propios sistemas, desde la placa base al rack- es un diferenciador de los proveedores de nube de la competencia que les permite adaptar ofertas que están más alineadas con las necesidades de la industria.

Las nuevas instancias de Nvidia A100 proporcionan un ejemplo. OCI ha ofrecido durante mucho tiempo GPU Nvidia. La disponibilidad general de nuevas instancias con A100 está programada para el 30 de septiembre en EE. UU., EMEA y JAPAC y tendrá un precio de 3,05 dólares por hora de GPU.

Aquí está la descripción de OCI: “La nueva instancia de bare metal, GPU4.8, cuenta con ocho GPU Nvidia A100 Tensor Core con 40 GB de memoria cada una, todas interconectadas mediante Nvidia NVLink. La CPU integrada tiene 64 núcleos de procesador AMD Rome físicos que se ejecutan a 2,9 GHz con el apoyo de 2048 GB de RAM y 24 TB de almacenamiento NVMe. La nueva instancia de GPU completa de Oracle se une a la arquitectura de red de clúster de latencia y alta velocidad, lo que permite a los clientes escalar hasta más de 500 clústeres de GPU con Nvidia Mellanox RDMA sobre Ethernet convergente (RoCE) para cargas de trabajo distribuidas a gran escala que requieren RDMA y proporcionan hasta 1,6 TB de ancho de banda por nodo bare metal. »

Batta dijo: «Es puro metal, sí, pero lo que ofrecemos es más comparable a algo como un DGX interno. [system]. También permitiremos funciones de vanguardia como GPUDirect a través de RDMA que aún no están disponibles en ningún otro proveedor de la nube. Además, puede utilizar todos los conjuntos de herramientas existentes, las máquinas virtuales de ciencia de datos preconfiguradas y las imágenes del mercado junto con la compatibilidad con NVIDIA GPU Cloud (NGC). «

«Es una de las funciones principales de Nvidia, pero hemos tomado algunas decisiones [for use cases]. Por ejemplo, un DGX-1 tiene un terabyte de memoria, lo duplicamos, no solo porque pudimos, sino porque muchos de nuestros grandes clientes minoristas ejecutan grandes cargas de trabajo de procesamiento de gráficos, cargas de trabajo de bases de datos aceleradas extremadamente grandes , [and] necesitan una gran memoria del sistema para hacer esto. Tenemos 24 terabytes de almacenamiento NVMe local en esa caja, que es incluso más que el DGX local. La razón de esto es que muchos de nuestros clientes de petróleo y gas quieren un punto de control local para MPI «.

Oracle ha anunciado varias imágenes adjuntas y soluciones empaquetadas, que incluyen:

  • Pila de soluciones MLOps diseñadas por IA – Automatice el flujo de trabajo de un extremo a otro con Apache Airflow y cree una instancia de un grupo de formas NVIDIA A100 desnudas para entrenamiento e inferencia distribuidos.
  • Pila de soluciones en el paquete Media Ops – Automatice los flujos de trabajo aprovechando el marco de Apache Airflow para administrar una línea de operaciones multimedia autogestionadas en Oracle Cloud. Esto mejora la capacidad de los clientes para comprimir, empaquetar y distribuir contenido.
  • Paquete de orquestación de MLOps nativo de la nube – Permite a los científicos de datos centrarse en la innovación utilizando Kubeflow de código abierto junto con imágenes diseñadas por la infraestructura de Oracle Cloud y la imagen en la nube NGC para automatizar el movimiento de datos y la creación de instancias de cálculo.
  • Imagen de Julia AI HPC – Pila de automatización para imagen HPC diseñada con Julia instalada con Jupyter Notebook y entorno de desarrollo IJulia que ha sido probado y optimizado para GPU NVIDIA A100. Junto con la tecnología de GPU de múltiples instancias NVIDIA A100 y los formularios Oracle HPC, el entorno está demostrando ser más rápido que los sistemas más antiguos con Python.
  • Ciencia de datos e imagen de inteligencia artificial preconfiguradas – Incluye bibliotecas de redes neuronales profundas de NVIDIA, marcos de aprendizaje profundos / ML comunes, cuadernos de Jupyter y entornos de desarrollo integrados comunes de Python / R. Disponible en Oracle Cloud Marketplace.

Hablando extensamente sobre el compromiso de OCI con HPC, Batta dijo: «Durante los últimos 18 meses, hemos estado desarrollando nuestra pila RDMA, nuestra pila de red central y central de HPC. La llamamos red de clúster. Es básicamente esta red plana centenaria. giga, latencia baja. Es una oferta heterogénea, lo que significa que nada se inicia y solo obtienes un clúster de esa cosa. Puedes arrancar muchas cosas y todas pueden compartir la red RDMA. Por lo tanto, podrías arrancar una GPU y una Edge PC y todos comparten la misma red RDMA, que no es compatible con ninguna nube en la actualidad [other] proveedor. »

Un antiguo usuario de la tecnología Intel, OCI planea tomar su Skylake X7 existente [instance] familia y mudarse a Ice Lake a principios del próximo año. Batta dijo: «Hemos pasado mucho tiempo con Intel afinando las piezas y optimizando la plataforma para las necesidades de nuestros clientes. Esperamos un costo similar para obtener actualizaciones de rendimiento de alrededor del 30%. Estas son específicas de la carga». funcionan como cargas de trabajo HPC CFD y CAE tradicionales. Es compatible con nuestras generaciones anteriores, aún puede migrar datos entre dos generaciones. Esto también será parte de nuestras instancias flexibles, por lo que podrá elegir el núcleo y la memoria, como que prefieras y básicamente crea el tuyo propio «.

En primavera, OCI lanzó su última instancia de AMD (E3) basada en el procesador Rome Epyc. También fue parte de la primera generación de «instancias de cómputo flexible», dijo Batta. “Si quieres un core y seis conciertos, puedes conseguirlo. Si quieres dos núcleos y 10 gigas, puedes tenerlo. [It’s] ha permitido a los clientes poder hacer un carro Ala: elige tu procesador, elige tus núcleos, elige tu memoria y crea la tuya propia ”.

A continuación, una instancia E4 basada en el procesador Milán de AMD. Debería tener lugar a principios del próximo año.

Batta dijo que las demandas de carga de trabajo (y obviamente el precio / rendimiento) tienden a impulsar las elecciones entre los procesadores: “Lo que estamos viendo es informática de propósito general. El bajo costo termina convirtiéndose en nuestro estándar que sería AMD, donde tiene el menor costo por núcleo. Si alguien quiere el mayor rendimiento por núcleo, sin importar el costo, y quiere HPC y quiere AVX 512 y otros conjuntos de instrucciones, van principalmente a Intel «.

Los nuevos usuarios de la nube tienden a ceñirse a lo que están acostumbrados, dijo, y luego experimentan con alternativas a medida que se familiarizan con el entorno de la nube.

Aventúrate en el campamento de Arm con Amperio ya que el proveedor del procesador es nuevo en OCI. «Creo que ahora es el momento adecuado para que demos ese paso hacia Arm, asegurándonos de tener el ecosistema de desarrolladores adecuado, pero también utilizando Arm como parte de nuestra estrategia de plataforma más amplia con todos los beneficios que obtiene de Arm, independientemente de la ventaja de costos o ventaja de seguridad. Arm está llegando al punto en el que hay diferentes casos de uso como transcodificación, ejecución de contenedores y Kubernetes, etc. Esto estará disponible a principios del próximo año, nuevamente, como parte de nuestra instancias flexibles, puede elegir el número de núcleos y memoria, en dos sockets con 160 núcleos, si no conoce Arm. Serán máquinas virtuales y bare metal como todas nuestras plataformas «, dijo Batta.

Como era de esperar, OCI detectó victorias recientes de HPC, incluido el fabricante de automóviles Nissan que anunció un cambio a OCI para su trabajo de diseño CFD / Crash y cargas de trabajo de visualización 3D.

Nunca teme a mezclar jugos competitivos El fundador de Oracle, Larry Ellison, dijo sobre OCI y los fabricantes de automóviles «[Why] ¿Alguien iría a Oracle Cloud para realizar cálculos de alto rendimiento cuando puede ir a Google o puede ir a Microsoft o puede ir a AWS? Bueno, porque somos mucho, mucho más rápidos y, por lo tanto, obtienen las simulaciones más rápido, pero tienen que estar dispuestos a pagar menos. Casi todos los automóviles, bueno, tal vez eso sea demasiado fuerte, la mitad de los fabricantes de automóviles de todo el mundo ahora usan nuestro cálculo de alto rendimiento o califican nuestro cálculo de alto rendimiento porque nos comparamos muy bien con la competencia. Y este es un negocio completamente nuevo, como el negocio de las videoconferencias «.

Lo que Batta dijo de Nissan es: “Puedo decirles que este es uno de los muchos OEM que ejecutan decenas de miles de núcleos en producción 24 × 7, 365 días al año, además de Oracle Cloud para CFD en caso de una falla específica. De hecho, Nissan también está haciendo la visualización en GPU. Actualmente están usando (Nvidia) V100 GPU para visualizar los conjuntos de datos que son producidos por esas simulaciones directamente en la nube «.

También señaló el nuevo bombardeo de ayer IdenTV una empresa emergente que implementa inteligencia artificial para aplicaciones de seguridad, principalmente en torno al procesamiento de video e DeepZen, una empresa que convierte texto en audio utiliza la capacidad HPC de OCI, específicamente sus recursos de GPU. Aquí hay dos citas del anuncio oficial de Oracle:

  • «La reproducción de la voz humana con inteligencia artificial depende en gran medida de la potencia de procesamiento, y Oracle Cloud Infrastructure lo ofrece con la nueva GPU NVIDIA A100 que proporcionó un aumento inmediato del rendimiento del 37%, lo que nos permite escalar nuestro negocio». Kerem Sozugecer, cofundador y CTO, Deep Zen Limited
  • “La cantidad de datos de transmisión de video creados está creciendo exponencialmente. La entrega de análisis e información en tiempo real requiere el más alto nivel de unidad de procesamiento de gráficos. Oracle Cloud Infrastructure ofrece esto con la nueva GPU NVIDIA A100, donde esperamos un aumento inmediato del rendimiento del 35% «. Amro Shihadah, cofundador y director de operaciones de IDenTV

La profundización de las relaciones de OCI con Reescalar es Altair están destinados a ayudar a los usuarios principiantes de la nube y HPC. Tanto Rescale como Altair tienen una sólida experiencia en HPC en servicios de orquestación en la nube.

Batta dijo: «En el pasado, Altair ha construido un SaaS basado en nuestras GPU llamadas ultrafluidX y nanofluidX (soluciones CFD). Formaba parte de su cartera. Ahora están trasladando toda la suite de productos HyperWorks y nos están dando una designación de proveedor. preferidos por sus soluciones «.

La relación OCI-Rescale se remonta a finales de 2019 con una integración más limitada de la oferta actual de Rescale. La plena integración de los productos y servicios de Rescale ahora está completa, dijo Batta, “Estábamos buscando sinergias. Ya sabes, nuestra plataforma es madura, su plataforma es madura y ahora es el momento adecuado para culminar este esfuerzo «.

Con todo, será fascinante observar el esfuerzo de OCI para aumentar la tracción en HPC y especialmente en HPC empresarial.

Deberías compartir en una historia de tu Instagram para que tus colegas lo consulten

??? ? ? ???

Comparte