El diseñador de chips de memoria de microprocesador tiene como objetivo derribar las paredes de la memoria y el poder

Hola de nuevo. Yo soy Simón Sánchez y hoy te voy a contar sobre El diseñador de chips de memoria de microprocesador tiene como objetivo derribar las paredes de la memoria y el poder

Ya sea que se trate de computadoras de alto rendimiento, servidores corporativos o dispositivos móviles, los dos mayores obstáculos para el rendimiento de las aplicaciones en la informática actual son la pared de memoria y la pared de energía. Venray Technology tiene como objetivo derribar esos muros con un enfoque único que coloca los núcleos de la CPU y la DRAM en el mismo dado. La compañía ha estado en modo semi-sigiloso desde sus inicios hace siete años, pero ahora está tratando de correr la voz sobre su tecnología mientras busca un comprador comercial.

Venray, con sede en Dallas, fue una creación de Russell Fish, quien se convirtió en el director de tecnología (no hay ningún CEO en el sitio web) y el arquitecto principal. Fish es co-diseñador de Procesador Sh-Boomy titular de varias patentes de microprocesadores. Estas patentes han demostrado ser fundamentales para el funcionamiento de los microprocesadores modernos y han sido licenciadas por prácticamente todos los fabricantes de computadoras y semiconductores del planeta. Los ingresos de esas patentes se utilizan para financiar a Venray.

Desde 2007, Fish y la compañía han estado involucrados en el diseño y comercialización de una nueva tecnología CPU-DRAM, conocida como TOMI, que significa Thread Optimized Multiprocessor. Con TOMI, la compañía apunta a hacer lo que ningún otro fabricante de chips ha hecho antes, que es incorporar un procesador genérico en la DRAM de vainilla. La idea es utilizar la proximidad física de la CPU y la memoria, así como buses extra anchos (4.096 bits, en el caso de los primeros proyectos TOMI), para aplanar la pared de la memoria.

El muro de memoria es un gran problema en la informática de alto rendimiento y las aplicaciones de big data en la actualidad, y pronto limitará el procesamiento en todos los segmentos. El problema fue llevado a casa por un estudio de rendimiento multinúcleo de 2008 en Sandia National Labs, en el que los investigadores demostraron que para algunas clases de aplicaciones con uso intensivo de datos, el uso de núcleos adicionales para aumentar el rendimiento es contraproducente.

Para estos perfiles de aplicación, el rendimiento básicamente se ha estabilizado entre cuatro y ocho núcleos y en realidad ha caído más allá de eso. El problema era que a medida que se agregaban más núcleos, se les privaba de la cantidad limitada de ancho de banda de memoria disponible y, después de cierto punto, la sobrecarga de la contención de memoria reducía el rendimiento. Las posibles soluciones, como el apilamiento de chips de memoria (por ejemplo, Hybrid Memory Cube de Micron) no han sido probadas y aún no han encontrado su camino en el mercado comercial.

Se ha intentado una integración de microprocesador y memoria con DRAM incorporada (eDRAM), una tecnología que promete mucha más capacidad de la que puede proporcionar la memoria caché en chip. Se ha utilizado como base para algunos dispositivos SoC integrados, incluida la CPU Power7 de IBM y el ASIC Blue Gene, así como para muchos de los procesadores que alimentan los dispositivos de consola de juegos, como la PlayStation de Sony. La DRAM integrada también fue la tecnología de memoria preferida para la era 2000 Esfuerzo de investigación de IRAM, que tenía como objetivo integrar un microprocesador vectorial de 256 bits con 16 MB de memoria.

Pero aunque la eDRAM es mucho más densa que la memoria caché, no puede proporcionar la capacidad de almacenamiento de la DRAM convencional. También es cientos de veces más cara que la memoria normal. «Las personas que han intentado combinar la CPU y la memoria antes por lo general se equivocaron por tener CPU demasiado grandes y memoria demasiado pequeña», dice Fish. «No entendían la diferencia entre incrustar DRAM en CPU y crear CPU en DRAM».

El desafío de fusionar CPU con DRAM es que los microprocesadores son bestias mucho más complejas que las memorias y, como resultado, se fabrican con procesos de semiconductores completamente diferentes. Normalmente, la lógica de semiconductores requiere que se depositen diez o más capas de material en la matriz, en comparación con solo tres para DRAM. Sin embargo, si un microprocesador puede diseñarse de manera mucho más simple, reduciendo el número y la complejidad de las conexiones de los puertos lógicos, es posible aplanar aproximadamente el diseño y usar solo tres capas.

Esta es la magia fundamental utilizada por TOMI. Su diseño de segunda generación, llamado Borealis, consiste en una CPU RISC de 8 núcleos construida usando el proceso DRAM de tres niveles. La CPU en sí está formada por solo 22,000 transistores (excluidos los controladores de memoria y caché), integrados en un chip DRAM de 1 Gbit. En el nodo de proceso de 42 nm, la CPU ocupa solo el 14 por ciento del dado.

Es posible usar la tecnología TOMI para implementar arquitecturas de microprocesador heredadas, pero las CPU grandes, en particular, no podrían exprimir su tecnología de proceso DRAM, al menos no con las geometrías CMOS actuales. En cualquier caso, Fish parece pensar que la combinación óptima de memoria y lógica es de 5 a 1.

Para llegar a ese nivel, Fish y la compañía redujeron la CPU a lo básico: hardware completo de 32 bits y un pequeño conjunto de instrucciones (renunciando a instrucciones menos útiles como índice automático y decremento automático). La falta de hardware de punto flotante, que tiende a consumir mucho espacio de silicio, no descarta el soporte para estas operaciones; solo se emulan a través de bibliotecas de software.

Un efecto secundario muy útil del uso de procesos DRAM más simples es que es mucho más económico producir una CPU de esta manera. El costo de fabricar mil millones de transistores DRAM es menos de un dólar frente a más de $ 300 para un microprocesador. Pero otro gran ahorro es el consumo de energía. La CPU Borealis de 2.1 GHz consume apenas 98 mW. Compare eso con los más de 100 vatios de una CPU x86 con mil millones de transistores.

Por supuesto, el microprocesador Borealis tiene un rendimiento mucho menor que mil millones de CPU de transistores en potencia de procesamiento sin procesar. Está diseñado específicamente para maximizar el rendimiento de las aplicaciones de análisis que mastican grandes conjuntos de datos, también conocidos como big data. «Probablemente hemos construido el procesador de big data más eficiente que existe», dice Fish.

Para probar su punto, Venray comparó su hardware con el software MapReduce-MPI de Sandia Labs y una aplicación de datos no estructurada que se ejecuta en su hardware: una PCB con 16 chips Borealis (128 núcleos, 16 GB de DRACMA). Según la compañía, el sistema TOMI pudo lograr casi 12 veces el rendimiento y usar menos de 1/10 de la energía en comparación con el mismo código que se ejecuta en un clúster basado en Intel Xeon. Venray afirma que el hardware costaría alrededor de $ 35,000 frente a $ 1,65 millones para el sistema x86 equivalente.

Además de los puntos de referencia, TOMI está diseñado para todo tipo de software de minería de datos, análisis de alta gama y reconocimiento de patrones. Para Fish, estas son las aplicaciones asesinas que impulsarán la industria en el futuro. Y debido a que la arquitectura es naturalmente energéticamente eficiente, TOMI estaría igualmente en casa en dispositivos móviles y servidores en la nube.

La desventaja, por supuesto, es que a diferencia de x86 y ARM, la arquitectura no tiene un gran ecosistema detrás. Pero según Fish, al proporcionar un compilador C / C ++ a través de gcc, se puede aprovechar toda la cadena de herramientas de Linux. Para las aplicaciones heredadas, el mayor problema es la recodificación que se debe realizar. La mayoría de las aplicaciones asumen potentes CPU de un solo subproceso y una pequeña huella de memoria, en lugar de al revés. Nada de esto desalienta a Fish, quien ve las arquitecturas de CPU heredadas como un callejón sin salida, especialmente para las aplicaciones de big data que están configuradas para impulsar un crecimiento masivo en la industria de TI.

En este punto, Fish y sus seguidores están buscando activamente un solo comprador para TOMI, probablemente un fabricante de computadoras de algún tipo. Según él, la ventaja de la tecnología radica en su exclusividad, por lo que licenciar la propiedad intelectual diluiría el valor para los clientes potenciales. Hasta la fecha, han recibido la mayor atención de compradores fuera de los Estados Unidos. Un grupo extranjero estaba dispuesto a emitir «un gran cheque», pero Fish se negó, queriendo dar una oportunidad a las empresas con sede en Estados Unidos. Según él, durante los últimos cinco o seis meses, los compradores potenciales en Estados Unidos han mostrado un interés creciente. «Mucha gente quiere ser nuestros amigos en este momento», dice.

Artículos relacionados

IBM participará en el cubo de memoria híbrida 3D de Micron

Contra la pared de la memoria

No te olvides compartir en en tu Twitter y Facebook para que tus colegas lo disfruten

??? ? ? ???

Comparte