David Patterson inicia el pináculo del hardware de IA al admitir chips específicos de dominio - Calendae | Informática, Electrónica, CMS, Ciberseguridad

David Patterson inicia el pináculo del hardware de IA al admitir chips específicos de dominio

Hola, un placer verte por aquí. Te habla Simón Sánchez y hoy te voy a contar sobre David Patterson inicia el pináculo del hardware de IA al admitir chips específicos de dominio

La Cumbre de hardware de IA 2020 comenzó ayer con David Patterson, un veterano de las computadoras, profundizando en todo lo relacionado con TPU y exaltando cómo superan a las GPU para las necesidades de IA. Después de presentar los datos donde el TPUv3 venció al V100 de Nvidia, se le preguntó sobre el próximo TPUv4 de Google frente a Nvidia A100. Espere el mismo tipo de beneficio para TPUv4, sugirió.

Dicho esto, la Cumbre de hardware de IA había comenzado.

Esta es una conferencia virtual este año con dos días esta semana y dos más la próxima semana (enlace a conferencia). Otros aspectos destacados del día de la inauguración incluyeron a Karl Freund (analista sénior, Moor Insights and Strategy), observador experto en IA sobre las tendencias de los aceleradores en 2019 y 2020; las startups SambaNova y Groq que brindan vislumbres de sus sistemas; y un par de paneles fascinantes: uno sobre el uso de IA para el diseño de chips y otro sobre el desarrollo del compilador de IA. En realidad aún quedaba mucho por hacer y lo mejor es consultar la agenda.

Patterson, por supuesto, es un nombre familiar en informática. Es profesor de UC Berkeley, distinguido ingeniero de Google y vicepresidente de la Fundación RISC-V. Su trabajo en Google en el desarrollo de TPU es bien conocido.

David Patterson

Como recordó, «Google fue una de las primeras personas que se entusiasmó con las redes neuronales profundas y las arquitecturas específicas de dominio. En 2013, calcularon que si 100 millones de usuarios comenzaban a utilizar redes neuronales profundas, tres minutos al día día en la CPU, tendrían que duplicar el tamaño del centro de datos. No solo sería muy costoso, sino que llevaría una eternidad construir el doble de centros de datos en la nube. Por lo tanto, establecieron un proyecto de emergencia cuyo objetivo era lograr una mejora 10 veces mayor que las CPU y GPU existentes «.

Hasta cierto punto, el resto es historia, ya que Google desarrolló su unidad de procesador de tensor centrándose en las necesidades de inteligencia artificial de la carga de trabajo de Google.

“¿Por qué tuvo éxito? En primer lugar, es una cantidad increíble de unidades aritméticas. Tiene 256 por 256, unidades aritméticas, 64.000 acumuladores múltiples. En segundo lugar, estaban trabajando con datos enteros de ocho bits en lugar de datos flotantes de 32 bits, por lo que pueden ser más eficientes energéticamente y requerir menos capacidad de memoria y ser más rápidos. Y debido a que era específico del dominio, eliminó muchas de las características dominantes de CPU y GPU genéricas, como el almacenamiento en caché y los predictores de rama. Esto ahorra espacio y energía al permitir la reutilización de los transistores. El legado de TPU v1 no es solo su excelencia técnica, sino el impacto que ha tenido ”, dijo Patterson.

Se han tomado muchas decisiones interesantes en el camino, como cuántos núcleos debería tener el nuevo dispositivo. «¿A dónde fuimos? [for] el consejo es Seymour Cray … y cuando le preguntamos, dijo: “Si estás arando un campo, ¿qué preferirías usar para bueyes fuertes o 1024 gallinas? Entonces optamos por dos bueyes fuertes para que el TPUv2 tenga dos núcleos por chip, por lo que no tendría un ciclo de reloj más lento. «

Además de presentar más detalles sobre la arquitectura TPUv1-aunque-TPUv3, el discurso de Patterson reforzó la idea de que el diseño de chips (y herramientas) de dominio específico para IA abarca un enfoque cada vez más formidable, comparando el éxito del TPU a un punto de prueba de galvanización que ahora lanza «1000 papas fritas».

“Permítanme concluir que la desaceleración en la Ley de Moore significa que la IA debe adaptar las máquinas para continuar mejorando el entrenamiento y los esfuerzos. [A]Cualquier decisión que desee tomar es más fácil cuando se trata de un solo dominio en lugar de un propósito general. A pesar de utilizar tecnologías más antiguas y chips más pequeños, TPU v2 y v3 de Google demostraron una mejora del rendimiento de 50 veces por vatio en comparación con las supercomputadoras genéricas. Creo que la década de 1920 es una era cámbrica con todo tipo de innovación y especies exóticas, pero ¿cuáles florecerán? «

Dos de estas empresas que esperan prosperar son SambaNova y Groq.

El cofundador y director de tecnología de SambaNova, Kunle Olukotun, ilustró brevemente su arquitectura de flujo de datos reconfigurable. Aquí hay un breve extracto de las observaciones de Olukotun:

“Definimos una arquitectura de flujo de datos reconfigurable optimizada para problemas de flujo de datos. Luego, toma estos modelos jerárquicos pal (paralelos) y los asigna a una arquitectura para que puedan ejecutarse de manera muy eficiente. Es una arquitectura reconfigurable compuesta por procesamiento reconfigurable, memoria reconfigurable y primitivas de comunicación que hacen que la realización de este tipo de problemas de flujo de datos sea muy eficiente.

“La primera encarnación de esta arquitectura de flujo de datos reconfigurable es la Unidad de flujo de datos reconfigurable (RDU) Cardinal SN10. Esto se implementa en la tecnología TSMC de siete nanómetros y 40 mil millones de transistores. Más de 50 kilómetros de cable proporcionan toda la interconexión entre los diferentes componentes del chip. Proporciona cientos de teraflops de capacidad informática y cientos de megabytes de memoria en chip. Igualmente importante, tiene varias interfaces directas por terabyte de memoria sin chip. Arquitectura Hemos combinado estos chips RDU en sistemas que brindan un rendimiento escalable tanto para entrenamiento como para inferencia. Los llamamos sistemas de escala de datos «, dijo Olukotun.

“Al mapear aplicaciones de flujo de datos al sistema de escala de datos, una cosa clave es equilibrar delicadamente la computación y la comunicación. Si miras las arquitecturas convencionales, te permiten programar el cómputo, pero no te permiten programar la comunicación y esto es fundamental para obtener un flujo de datos eficiente. Sin embargo, con el flujo de datos reconfigurable, podemos programar la comunicación y el flujo de datos para lograr una mejora del rendimiento de 10 veces en algunas aplicaciones. Y podemos habilitar aplicaciones que no son posibles con la tecnología de aceleración actual disponible en forma de GPU «.

“No esperamos que el programador haga esto manualmente, tenemos un conjunto de software llamado SambaFlow, que brinda la capacidad de mapear estos modelos de manera muy eficiente a nuestra arquitectura. La idea es que el programador pueda comenzar en uno de los marcos, PyTorch o TensorFlow, o puede proporcionar su propio gráfico de operaciones personalizado. Si comienza en uno de los marcos, usará un conjunto estándar de operaciones ML y aquí queremos optimizar el gráfico para que podamos aprovechar tanto el paralelismo del modelo como el paralelismo de datos. Entonces, dado un gráfico de operadores, tanto operadores personalizados como operadores ML estándar, queremos optimizar el flujo de datos en el gráfico. Y esto se hace mediante una serie de optimizaciones diferentes, como el mosaico para mejorar el rendimiento de la memoria, aprovechar el paralelismo dentro de los operadores y luego algunas optimizaciones muy específicas que son específicas de nuestra arquitectura, como la transmisión y la canalización anidada. . «

El cofundador y CEO de Groq, Jonathan Ross, hizo una presentación un poco menos técnica, destacando los hitos clave de financiación recientes, la cartera en expansión de la empresa y los casos de uso. Su procesador Tensor Streaming es otro chip de inteligencia artificial que busca reducir algunos de los gastos generales (instrucciones) necesarios para usar microprocesadores de propósito general moviendo físicamente y reorganizando elementos funcionales (por ejemplo, con la memoria y los medios necesarios ubicados cerca).

Groq afirma que su TSP es capaz de admitir 18,900 IPS (inferencias por segundo) en ResNet-50 v2 con tamaño de lote uno y afirma que es el acelerador AI / ML más rápido disponible comercialmente, con una capacidad de respuesta medida en centésimas de milisegundo.

Aquí hay una pequeña parte de la descripción de la arquitectura extraída de un artículo presentado en el Simposio Internacional de Arquitectura de Computadoras IEEE 2020 (enlace a papel):

«Para comprender la novedad de nuestro enfoque, considere la organización de chips que se muestra en la Figura 1 (a). En un chip multiprocesador convencional (CMP), cada» mosaico «es un núcleo independiente que se interconecta mediante la red en chip para el intercambio. de datos entre núcleos. La ejecución de la instrucción se realiza en varias fases: 1) recuperación de instrucción (IF), 2) decodificación de instrucción (ID), 3) ejecución en ALU (EX), 4) acceso a memoria (MEM ) y 5) writeback (WB) en los resultados de actualización en GPR. A diferencia del multinúcleo convencional, donde cada mosaico es una colección heterogénea de unidades funcionales pero globalmente homogénea, el TSP lo invierte y tenemos homogeneidad funcional local pero heterogeneidad (global) a nivel de fichas.

“El TSP reordena la malla bidimensional homogénea de los núcleos de la Figura 1 (a) en la microarquitectura funcionalmente dividida que se muestra en la Figura 1 (b). En este enfoque, cada mosaico implementa una función específica y se apila verticalmente en un «corte» en la dimensión Y de la malla 2D en el chip. Desglosamos los elementos básicos de un núcleo en la Figura 1 (a) para sus respectivas funciones: control y envío de instrucciones (ICU), memoria (MEM), aritmética de enteros (INT), aritmética de punto flotante (FPU) y red ( NET), como se muestra en las etiquetas de sección en la parte superior de la Figura 1 (b).

“En esta organización, cada sección funcional se controla de forma independiente mediante una secuencia de instrucciones específicas para su función en el chip. Por ejemplo, las secciones MEM admiten la lectura, pero no la suma ni la multiplicación, que se encuentran solo en las secciones de aritmética funcional (las secciones VXM y MXM). «

Ross dijo que la compañía ahora está enviando su última tarjeta Groq, el nodo Groq y las soluciones Groq ware SDK a clientes de todo el mundo. «Estamos enviando a nuestros clientes como tarjetas PCIe individuales y como sistemas con ocho tarjetas cada uno, y aún hay más en la hoja de ruta por venir», dijo Ross.

Como se señaló anteriormente, hubo muchas otras actividades el primer día. Aquí hay un enlace cobertura del panel sobre el uso de IA en el diseño de chips que aparece en el pub hermano de Calendae, EnterpriseAI.

Enlace a AI Hardware Summit: https://www.aihardwaresummit.com/events/ai-hardware-summit-2020

No te olvides compartir en tu Facebook para que tus amigos lo sepan

??? ? ? ???

Comparte