LLNL, ANL y GSK brindan un primer vistazo al desempeño del sistema Cerebras AI - Calendae | Informática, Electrónica, CMS, Ciberseguridad

LLNL, ANL y GSK brindan un primer vistazo al desempeño del sistema Cerebras AI

Hola de nuevo. Yo soy Simón Sánchez y en esta ocasión hablaremos sobre LLNL, ANL y GSK brindan un primer vistazo al desempeño del sistema Cerebras AI

Cerebras, la startup de sistemas y chips de IA, fue una de las muchas empresas de IA presentadas en la Cumbre de hardware de IA que finalizó la semana pasada. En lugar de detenerse en su tecnología, que es ampliamente conocida, Cerebras invitó a colaboradores del Laboratorio Nacional Lawrence Livermore, el Laboratorio Nacional Argonne y GlaxoSmithKline (GSK) para hablar sobre sus primeros trabajos en las máquinas Cerebras y sus planes futuros.

Fue interesante para un cambio escuchar sobre actividades concretas que involucraban a una de las nuevas clases de máquinas de inteligencia artificial emergentes y, en el caso de Cerebras, las actividades variaron de incipientes a bastante distantes.

Primero, algunos antecedentes. Si eres un observador de IA, sin duda Cerebras es un nombre familiar. Llena de efectivo y clientes tempranos, la empresa con sede en Los Altos fue una de las primeras historias de éxito. Su «chip», el motor de escala de obleas (WSE), es enorme. Consume 46.000 milímetros cuadrados de silicio y tiene 400.000 núcleos de cálculo de álgebra lineal dispersa (SLAC) con aproximadamente 1,2 billones de transistores.

Los núcleos están diseñados para primitivas de álgebra lineal dispersa que sustentan todos los cálculos de redes neuronales, dice la compañía. El WSE también tiene 18 gigabytes de memoria en chip, nueve petabytes de ancho de banda de memoria y 100 petabytes por segundo de ancho de banda de tejido. Su gran revelación ocurrió en Hot Chips en 2019 (consulte la cobertura de Calendae).

La presentación del fundador y CEO de Cerebras, Andrew Feldman, incluyó una diapositiva que mostraba la WSE junto con la GPU Nvidia A100. “Puedes (puedes) ver nuestro motor de escala de obleas. Tiene el tamaño de un plato para servir. «Aquí es donde el tamaño claramente importa y los primeros usuarios parecen estar de acuerdo. El tamaño del WSE le permite traer modelos completos, incluso grandes, al chip, lo que en combinación con el diseño reduce en gran medida la latencia y acelera el rendimiento.

Feldman se apresuró a señalar que Cerebras es una empresa de sistemas, no una empresa de chips, y como dijo, no se construye un motor Ferrari y se lo pone en un Volkswagen. El primer sistema de Cerebras es el CS-1, un sistema de 15 RU (~ 26 pulgadas) de alto, y puede tener tres en un bastidor estándar, dijo Feldman (Especificaciones del Sistema).

El sistema CS-1

El punto del panel fue menos una descripción de la tecnología Cerebras y más un esfuerzo por mostrar el CS-1 en un uso temprano y práctico. ¿Entonces que hay de nuevo?

LLNL aborda la simulación física con CS-1

Comencemos con el Centro de Computación Livermore de LLNL (LCC). LCC ya tiene capacidades de procesamiento significativas, incluida su supercomputadora número dos, Lassen, que es un sistema construido por IBM con CPU Power9, Nvidia V100 e InfiniBand fabric. Es un sistema de 23 petaflops con 44 racks que ocupaba el décimo lugar en el Top500 cuando se incorporó por primera vez y el 14 ° en el Top500 más reciente.

«Entonces, ¿por qué estoy hablando de Cerebras?», Dijo Bronis de Supinski, director de tecnología de LCC. “Tenemos esta visión de ejecutar la simulación cognitiva utilizando lo que llamamos una arquitectura de sistema heterogénea. La mayoría de las supercomputadoras tienen el mismo nodo una y otra vez. Esta es la arquitectura básica de Lassen. Al agregar el CS-1, ahora tenemos un volumen específicamente optimizado y diseñado para ejecutar modelos de aprendizaje automático «.

“Integramos el CS-1 conectándolo directamente a Lassen en el tejido InfiniBand. Me gustaría señalar que nuestro equipo de integración me dijo que la ubicación fue una de las sesiones más fáciles en las que han estado involucrados, particularmente por primera vez que una empresa menciona algo en nuestro piso de maquinaria «, dijo. de Supinski.

El objetivo es integrar el aprendizaje automático en simulaciones físicas. «Hay una variedad de lugares donde podemos hacer esto, desde la coordinación de entrada hasta las simulaciones individuales, pasando por muchos pasos de tiempo, o incluso integrados muy de cerca en los valores de simulación y cálculo usados ​​en cada paso de tiempo o cada pocos pasos de tiempo del simulación. Eso es lo que estamos tratando de hacer «, dijo.

La comunicación rápida entre sistemas es fundamental. “¿Podemos hacer que la interacción entre estos diferentes volúmenes de sistemas ocurra con la suficiente rapidez? Como ya hemos escuchado, hay bastante ancho de banda dentro y fuera de este sistema (CS-1). Hemos comenzado a investigarlo y de hecho estamos construyendo una simulación llamada CRETIN[i] la capacidad de formar parte de la física en cada fase del tiempo. Lo que encontramos es que, aunque tenemos que enviar una cantidad suficientemente grande de valores al CS-1 para informar una buena cantidad de valores, la inferencia ocurre lo suficientemente rápido con el CS-1 como para que podamos hacer este trabajo «, dijo de Supinski.

“También estamos estudiando cosas adicionales como poder actualizar modelos sobre la marcha a medida que generamos más datos de otras partes de la simulación y, potencialmente, incluso ejecutar una simulación física detallada para poder tener un modelo más preciso. Una vez más, la capacidad que nos brinda el CS-1 para poder ejecutar estos modelos a gran escala es tal que creemos que funcionará «, dijo.

GSK: se trata de flujo de datos

A estas alturas, es un mantra que gran parte del descubrimiento de fármacos modernos se trata de examinar el flujo de datos proporcionado por las herramientas experimentales modernas. «Para darte una ilustración del [problem]En el primer trimestre de este año, generamos más datos de los que generó GSK [during its] toda esta historia de hace 300 años. Necesitamos estos métodos de inteligencia artificial para reunir estos datos y procesarlos «, dijo Kim Branson, vicepresidente sénior y director global de IA y ML.» Lo que está sucediendo en el descubrimiento de fármacos es que se pueden utilizar métodos de inteligencia artificial. En todas partes».

Como la mayoría de los biofarmacéuticos, GSK se ha basado durante mucho tiempo en la tecnología de la información moderna, pero solo recientemente se ha sumergido profundamente en la IA.

«Nuestro equipo de inteligencia artificial se estableció en 2019 y actualmente está implementado entre San Francisco y Londres, nuestros dos centros principales, y Boston, Heidelberg, Filadelfia y Tel Aviv. Nosotros [have] alrededor de 100 miembros del equipo, lo que significa que muchas personas quieren muchos ciclos de CPU. La naturaleza única de los problemas que tenemos y las fuentes de datos y el tamaño de las fuentes de datos nos han llevado a explorar el mundo del silicio personalizado para el aprendizaje profundo ”, dijo Branson.

El rápido avance de la genómica funcional y la capacidad de secuenciar células individuales midiendo el contenido de ARN y ADN en esas células está generando datos a gran escala. Además, toda la gama de herramientas informáticas utilizadas, desde el análisis estadístico variado hasta la simulación basada en principios, puede beneficiarse de la inteligencia artificial.

“De hecho, hacemos predicciones, diseñamos experimentos, generamos datos, solo para construir un modelo y reportarlo nuevamente. Este es nuestro principio fundamental. Presentamos regularmente [large and diverse] conjuntos de datos como imágenes médicas o imágenes de enfermedades ”, dijo Branson, y señaló que el movimiento de datos de gran ancho de banda de Cerebras era importante.

La facilidad de uso también fue un problema. «Cuando GSK estaba buscando nuevas plataformas computacionales que realmente nos permitieran aprovechar los datos que estamos recopilando, hicimos un estudio del panorama de las computadoras personalizadas y Cerebras se destacó como una empresa que realmente tenía silicio para usar pero, lo que es más importante, también tenía una pila de tecnología. Eso también era una clave. Saben cómo aceptar las cosas PyTorch es TensorFlow y realmente implementarlos «, dijo Branson.

ANL logra notables aceleraciones con CS-1

Argonne es uno de los colaboradores más antiguos de Cerebras. De manera más general, ANL es muy activo en la investigación de IA para el Departamento de Energía y tiene un banco de pruebas de IA activo en el que ANL espera probar tantos chips de IA como sea posible. Dicho esto, ANL está utilizando activamente CSI-1 en una serie de proyectos en curso, incluida la investigación reciente de COVID-19.

Rick Stevens

«Tenemos más de 100 proyectos de IA en el laboratorio», dijo Rick Stevens, director de laboratorio asociado de ciencias de la vida, medio ambiente y ciencias de la computación. «Hemos elegido un par de ellos como objetivos principales para trabajar en CS-1». Resumió brevemente cuatro de ellos:

  • LIGO. “Este es un proyecto que está trabajando en la detección de ondas gravitacionales [and] está construyendo modelos adecuados para el procesamiento de IA, datos que se derivan de cosas como LIGO para buscar señales sutiles de ondas gravitacionales. El proyecto ha estado funcionando durante aproximadamente un año y está progresando bien y está obteniendo buenos aumentos de velocidad en el CS-1 ”, dijo Stevens.
  • Moonshot of Cancer. “Probablemente nuestro proyecto insignia es la predicción de la respuesta a los medicamentos contra el cáncer. Este es un proyecto conjunto entre Argonne, el Instituto Nacional del Cáncer e instituciones colaboradoras. Hemos estado trabajando en varios modelos que se ejecutan en el CS-1 que predicen la respuesta tumoral a los medicamentos, y estos modelos están alcanzando velocidades de muchos cientos de veces en el CS-1 en relación con las líneas de base de nuestra GPU. Estamos muy contentos con estos. Estos son modelos que se ejecutan en máquinas a gran escala en diferentes arquitecturas ”, dijo Stevens.
  • COVID-19. “También estamos haciendo un diseño molecular generativo. Este programa está realmente destinado a generar nuevas moléculas que puedan utilizarse como fármacos. Lo aplicamos a nuestro trabajo en COVID-19. También está relacionado con nuestro trabajo contra el cáncer en otras áreas donde estamos tratando de buscar rápidamente a través de grandes espacios para encontrar moléculas de medicamentos. [candidate] moléculas que cumplen ciertos criterios. Nuevamente, estamos obteniendo grandes aceleraciones allí. «
  • Materia oscura. “Finalmente, tenemos un programa activo en la búsqueda de materia oscura. Esto es parte de un extenso negocio de software, que se prepara para el Large Synoptic Survey Telescope (LSST). Con esta aplicación estamos tratando de buscar las firmas de los halos alrededor de las galaxias, las distribuciones de masa que son indicativas de los halos de materia oscura. Los eventos de lentes gravitacionales son un ejemplo clásico y lo estamos haciendo tanto con datos simulados como con observaciones «, dijo.

Uno de los esfuerzos más interesantes de ANL es un primer programa para examinar qué tan fácil (o no) es usar CS-1.

«La mayoría de nuestras plantillas están en TensorFlow, pero algunas de ellas llegarán a PyTorch. Estamos bastante seguros de la facilidad de uso. Este otoño, [ANL director of data science and learning division] Ian Foster y yo abriremos nuestro CS-1 a alrededor de 35 estudiantes graduados que vienen con algo de experiencia, pero se convertirán en un nuevo usuario. Lo usaremos [experience] para comprender realmente lo fácil que es para los usuarios subirse a esta máquina, construir nuevos modelos y entrenar.

“Ahora es todavía temprano en términos del estado del software. Todavía hay tipos de capas y funciones que necesitamos y en las que estamos colaborando, pero el CS-1 no es tan difícil de usar. Si sus equipos se sienten cómodos desarrollando en TensorFlow o PyTorch, se sentirán como en casa usando esta máquina «.

ANL tiene varios planes para usar agresivamente su CS-1. En el futuro, tenemos un programa de inteligencia artificial a gran escala para la ciencia de laboratorio y una estrategia bastante nueva que estamos siguiendo que involucrará al CS-1 que integra hardware avanzado de inteligencia artificial con nuestro sistema robótico de laboratorio. [for] descubrimiento casi autónomo en biología, química y ciencia de materiales. Así que esto es lo que esperamos en el futuro. Y simplemente estamos muy contentos con nuestra asociación «, dijo Stevens.

[i] CRETIN es un código de transporte de radiación / cinética atómica no local 1D, 2D y 3D de equilibrio termodinámico (NLTE) que sigue la evolución temporal de las poblaciones atómicas y las distribuciones de fotones a medida que la radiación interactúa con un plasma. Puede proporcionar espectros detallados para compararlos con diagnósticos experimentales. https://wci.llnl.gov/simulation/computer-codes

Recuerda compartir en tu Facebook para que tus amigos lo consulten

??? ? ? ???

Comparte