Bill Dally ve un papel central para la GPU en la supercomputación - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Bill Dally ve un papel central para la GPU en la supercomputación

Hola otra vez. En el teclado Simón Sánchez y en el día de hoy te voy a hablar sobre Bill Dally ve un papel central para la GPU en la supercomputación

Antes de que Bill Dally se uniera a NVIDIA como científico jefe a principios de este año, ya había disfrutado de una larga y exitosa carrera en el mundo académico, primero en Caltech, luego en el MIT y finalmente en la Universidad de Stanford. A lo largo del camino, también ha publicado más de 200 artículos de investigación.

Pero no se trataba solo de enseñar e investigar. Básicamente, Dally es arquitecto y desarrollador de tecnología de computación paralela y posee más de 50 patentes en el campo. Mientras estaba en Caltech, diseñó el motor de simulación MOSSIM y el chip Torus Routing. Posteriormente en el MIT desarrolló dos sistemas informáticos paralelos experimentales, el J-Machine y el M-Machine. Sus últimos 12 años los pasó en Stanford, donde ayudó a desarrollar la arquitectura del sistema y la tecnología de redes que se encuentran en la mayoría de las computadoras paralelas grandes en la actualidad. También cofundó dos empresas comerciales: Velio Communications Inc., una empresa que fabricaba chips de comunicaciones de alto rendimiento (y que posteriormente fue adquirida por LSI); y Stream Processors Inc., una fabulosa empresa de semiconductores que ofrece procesadores paralelos para los mercados integrados.

Durante los últimos tres años, el paso de NVIDIA al espacio de la computadora GPU ha encontrado resonancia con el interés de Dally en la computación paralela. En enero de este año, el CEO de NVIDIA, Jen-Hsun Huang, lo convenció de trabajar para la compañía como su nuevo científico en jefe. En ese momento, la futura arquitectura de GPU de NVIDIA, Fermi, estaba muy avanzada en su desarrollo, lo que le dio a Dally una clara indicación de dónde estaba invirtiendo la compañía su futuro.

Tuve la oportunidad de hablar con Dally la semana pasada en la Conferencia de Tecnología de GPU en San José, California y le pregunté por qué eligió pasar del mundo académico a NVIDIA, la importancia de la arquitectura Fermi y el futuro de la computación GPU. .

Calendae: Bill, ¿qué te hizo querer trabajar para NVIDIA?

Bill Dally: Esta es una buena pregunta. En muchos sentidos, tenía el trabajo de mis sueños: un profesor en Stanford, con colegas y estudiantes brillantes y problemas interesantes en los que trabajar. Pero en una serie de conversaciones con Jen-Hsun, me convenció de que era una oportunidad convincente venir aquí y definir, no solo el futuro de las GPU, sino el futuro de la informática en su conjunto. Parecía demasiado emocionante para dejarlo pasar.

Calendae: Pasemos a algunas de las noticias anunciadas en la conferencia. El gran anuncio, por supuesto, es Fermi, la nueva arquitectura de GPU que NVIDIA presentó aquí. Hablaste bastante de eso esta semana. ¿Qué tan involucrado estuvo en el trabajo de Fermi?

Perder el tiempo: Muy poco. De hecho, estuve involucrado en la arquitectura del G80, como consultor en 2003. Pero cuando me uní a la empresa en enero, la arquitectura estaba en gran parte terminada y en las etapas de implementación. He estado involucrado en algunas implementaciones y problemas de circuitos con Fermi. En particular, hubo sincronizadores en los que ayudé a mejorar aún más el rendimiento, en colaboración con algunos de los diseñadores de circuitos de NVIDIA.

Calendae: Ya se ha dicho mucho sobre el impacto de Fermi en la informática de alto rendimiento. ¿Cuál cree que será el efecto de Fermi en la supercomputación, desde el nivel más bajo hasta el más alto, en los próximos dos años?

Perder el tiempo: Creo que será enorme. Estamos en una situación, hablé ayer en mi sesión, en la que la informática con GPU está en un punto de inflexión. Ya contamos con el trabajo de los pioneros, que ya han realizado grandes esfuerzos para lograr numerosas aplicaciones – aplicaciones de dinámica de fluidos, aplicaciones de mecánica sólida, análisis de secuencias genómicas, análisis de modelos neuronales – que se ejecutan en GPU con enormes aceleraciones. Hemos visto aceleraciones de 40 a 200 veces sobre el rendimiento de la CPU y enormes ahorros de energía. Pero realmente no era la solución principal para la informática de alto rendimiento. Estaba en el nicho.

Creo que hay dos razones principales para esto: rendimiento de doble precisión y ETC. Cuando fuimos a hablar con clientes que querían crear clústeres muy grandes, siempre se planteaba el problema de ECC. Dijeron que si quieres crear aplicaciones de misión crítica, si quieres crear un clúster grande, debe tener ECC o no puedes jugar con los grandes. Por supuesto que lo escuchamos y Fermi tiene ETC.

Si nos fijamos en el área en la que la computación GPU realmente ha despegado hasta ahora, es la exploración de petróleo y gas, tanto para el análisis sísmico como para la simulación de yacimientos. Creo que una de las principales razones por las que esta es una de las primeras áreas en despegar es porque puede hacer un gran uso de la precisión simple.

Escuchamos cómo Bloomberg usó GPU para los precios de los bonos. Si bien esta es una aplicación de doble precisión, pudieron obtener suficientes ganancias del GT200, que solo tiene una octava parte del rendimiento de doble precisión de Fermi. Ahora básicamente nos hemos ocupado de los dos grandes obstáculos para todos.

Cuando empezamos a hablar con personas que quieren construir un gran clúster para los 10 primeros o los 10 primeros en la lista TOP500, y ellos dicen: «Tenemos que encajar en esta envolvente de potencia. No podemos hacer eso con las CPU». Y dicen, «¿Cuáles son las otras alternativas?» Incluso con algo como una celda [processor], no pueden hacerlo. La única forma en que realmente pueden hacer esto es con la computación GPU. Creo que estamos realmente preparados para que GPU Computing se convierta en la forma estándar de hacer informática de alto rendimiento.

El verdadero limitador de velocidad aquí será la portabilidad de los códigos. Estará limitado por cómo las personas pueden tomar códigos importantes y moverlos para que se ejecuten en la GPU.

Calendae: En una de las sesiones aquí en la conferencia, se habló de la computación exaflop, un hito que deberíamos alcanzar en unos nueve años. ¿Crees que la computación GPU será una parte integral de ella?

Perder el tiempo: Creo que la computación GPU será el núcleo de cualquier esfuerzo serio de exaescala. Yo era en realidad un

Por el contrario, las CPU optimizan la latencia. Gastan mucha área de molde y mucho poder para optimizar el rendimiento de un solo hilo y hacer cálculos especulativos: predecir ramas y así sucesivamente. Todo esto cuesta área y energía y ya no le da FLOP.

Para llegar a la exaescala, se trata de FLOP por vatio. Todo depende de la eficiencia con la que pueda realizar los cálculos y las GPU están optimizadas para FLOPS por vatio. Son la computadora de rendimiento ideal. Con el tiempo, evolucionarán desde su posición actual como dispositivos gráficos que la gente usa para computar a dispositivos de computación con rendimientos realmente fantásticos que pueden hacer tanto procesamiento como gráficos muy bien.

Calendae: ¿NVIDIA está comprometida con el modelo de GPU como coprocesador en el futuro previsible, o está empezando a pensar en integrar un procesador secuencial en la GPU en algún momento?

Perder el tiempo: En algún momento podría tener sentido. Sin embargo, si miras hoy, nadie nos está pidiendo que fabriquemos GPU más lentas. La integración es una decisión económica. La pregunta es si es más barato poner dos funciones en un chip o si es más barato y flexible tener dos chips separados. Y la respuesta hoy es que es más flexible tener dos chips separados. Con la capacidad de tener un solo espacio de direcciones que proporcionamos, no importa en qué chip esté la CPU o la GPU. Desea tener la mayor cantidad de memoria en el lado de la GPU, para poder hacer sus cálculos allí. El tiempo para iniciar los subprocesos no está limitado por la conexión PCIe. Puede estar un poco limitado por el software del controlador en la CPU, pero integrarlo a bordo no reduciría sustancialmente esa sobrecarga.

Entonces, el único argumento sería: «¿En qué momento estaría dispuesto a crear un área de troquel, hacer que su GPU sea más lenta y limitar la flexibilidad de qué GPU podría emparejar con CPU para obtener los beneficios económicos de la integración? «No vemos que suceda todavía, al menos en el extremo superior.

En el extremo inferior, en realidad hacemos exactamente eso. Nuestro producto Tegra incorpora una GPU, un conjunto de aceleradores de función fija y dos núcleos ARM para crear un sistema realmente atractivo en un chip de aplicación móvil. En ese extremo inferior del espectro, las personas no necesitan la GPU más rápida posible. Pero necesitan una solución integrada que reduzca el costo, la potencia y el factor de forma. Para las aplicaciones móviles, estas tres características son clave, pero para las partes de gama alta, no está en las cartas en el futuro previsible.

Puedes compartir en una historia de tu Instagram para que tus colegas opinen

??? ? ? ???

Comparte