Comparación de crédito de punto flotante máximo - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Comparación de crédito de punto flotante máximo

Hola otra vez. En el teclado Simón Sánchez y esta vez te voy a hablar sobre Comparación de crédito de punto flotante máximo

Con la ley de Moore y las «leyes» asociadas de rendimiento del transistor de silicio que se están agotando, existe un interés renovado en los aceleradores, por ejemplo, procesadores de señales digitales (DSP), unidades de procesamiento de gráficos (GPU) y matrices de puertos programables en campo (FPGA). Sin embargo, medir el rendimiento máximo de punto flotante de estas arquitecturas informáticas no tradicionales no está exento de desafíos. Un nuevo documento técnico de Michael Parker de Altera intenta arrojar algo de luz sobre las afirmaciones de rendimiento del punto flotante.

Parker, director principal de planificación de productos DSP en Altera, proporciona un método para calcular y comparar las capacidades máximas de punto flotante de diferentes aceleradores y también cubre una declaración de rendimiento de punto flotante real de Xilinx utilizando un método de evaluación comparativa no estándar.

«Dada la variedad de arquitecturas de procesamiento disponibles, los diseñadores necesitan un método uniforme para comparar el rendimiento y la eficiencia energética». escribe Parker. «El método aceptado es medir operaciones de punto flotante por segundo (FLOP), donde un FLOP se define como una suma o multiplicación de números de precisión simples (32 bits) o dobles (64 bits) de acuerdo con la Estándar IEEE 754. Todas las funciones de orden superior, como la división, la raíz cuadrada y los operadores trigonométricos, pueden construirse utilizando sumadores y multiplicadores. Dado que estos operadores, así como otras funciones comunes como las transformadas rápidas de Fourier (FFT) y los operadores matriciales, requieren tanto sumadores como multiplicadores, normalmente existe una proporción de sumadores y multiplicadores de 1: 1 en todas estas arquitecturas «.

El artículo continúa describiendo cómo llegar a la clasificación máxima de FLOPS para DSP, GPU y FPGA: multiplicando la suma de los sumadores y multiplicadores por la frecuencia operativa máxima. Por supuesto, este es un límite teórico que nunca podrá realizarse en la práctica. Sin embargo, el puntaje más alto todavía sirve como un punto de referencia útil, dice Parker.

Parker señala que el punto flotante siempre ha estado disponible en FPGA usando su lógica programable. Tampoco se limita al rendimiento de precisión simple y doble estándar de la industria. Altera ofrece siete niveles diferentes de precisión de punto flotante, agrega, pero calcular la calificación máxima de un FPGA dado utilizando una implementación lógica programable no es de ninguna manera sencillo.

«Por lo tanto», escribe Parker, «la evaluación de punto flotante máximo de los FPGA de Altera se basa únicamente en las capacidades de los motores de punto flotante mejorados y asume que la lógica programable no se utiliza para el punto flotante, sino para las otras partes del sistema. un proyecto, como circuitos de planificación y control de datos, interfaces de E / S, interfaces de memoria interna y externa y otras funciones necesarias «.

Debido a que es casi imposible determinar la capacidad de punto flotante de un FPGA cuando se implementa en lógica programable, Parker dice que el mejor enfoque es construir diseños de punto flotante de referencia, que incluyen el proceso de cierre de tiempo. El proveedor de FPGA también puede proporcionar estos diseños.

Según los diseños proporcionados por Altera en sus FPGA de 28 nm, «es posible obtener varios cientos de GFLOP para algoritmos más simples como FFT y algo más de 100 GFLOP para algoritmos complejos como QR y descomposición Cholesky».

Parker advierte que no debe basarse únicamente en los GFLOP teóricos proporcionados por el proveedor y ser particularmente escéptico con las afirmaciones basadas en la implementación lógica de más de 500 GFLOP. Para una comparación más precisa, se debe proporcionar un informe que muestre la lógica, la memoria y otros recursos con la frecuencia de reloj alcanzada. Yendo un paso más allá, tener un archivo de diseño compilado le permitiría replicar los resultados.

Recuerda compartir en una historia de tu Instagram para que tus colegas lo flipen

??? ? ? ???

Comparte