Royal Flush, problemas reales: Yahoo trae 3 nuevas universidades a su carpeta - Calendae | Informática, Electrónica, CMS, Ciberseguridad

Royal Flush, problemas reales: Yahoo trae 3 nuevas universidades a su carpeta

Hola de nuevo. Soy Simón Sánchez y hoy te voy a hablar sobre Royal Flush, problemas reales: Yahoo trae 3 nuevas universidades a su carpeta

Al final de la semana pasada Yahoo anunció que se había expandido el círculo de universidades con acceso a M45, el clúster de 4000 núcleos que la compañía puso a disposición para la investigación «a escala de Internet» en noviembre de 2007. Este anuncio agregó la Universidad de California en Berkeley, la Universidad de Cornell y la Universidad de Massachusetts en Amherst en Carnegie Mellon en la lista de universidades que utilizan el grupo para investigar lo que Yahoo llama problemas reales a gran escala.

Yahoo presentó el clúster M45 y su asociación con Carnegie Mellon en colaboración con SC07. El clúster proporciona 4.000 núcleos, 3 TB de RAM y aproximadamente 1,5 petabytes de disco a los investigadores que están «empujando los límites de la investigación de sistemas de software a gran escala». Hablé con Ron Brachman, el jefe de relaciones académicas de Yahoo, quien explicó que la empresa no está interesada en brindar horas a los usuarios que necesitan ejecutar versiones más grandes de trabajos. M45 es algo único entre los recursos informáticos a gran escala en el sentido de que se anima específicamente a los usuarios a considerar el espectro completo de software de aplicaciones y sistemas y cómo se puede mejorar esa pila para una computación más eficaz. Los usuarios de M45 no solo ejecutan grandes aplicaciones, sino que también experimentan con el sistema y el software de soporte para aprender los fundamentos de la gestión eficaz de cálculos a gran escala.

Una característica principal de M45 es la compatibilidad con Hadoop y Pig. Hadoop es un sistema de archivos distribuido de código abierto y un entorno de ejecución en paralelo (basado en el marco MapReduce), destinado a actividades de procesamiento intensivo de datos. Los programadores de Yahoo son los principales contribuyentes al proyecto, que está alojado en la Apache Software Foundation y es gratuito para todos, y la empresa utiliza el software para alimentar gran parte de sus computadoras de producción diaria. Cerdo es un lenguaje de programación de flujo de datos desarrollado por Yahoo y basado en el núcleo de Hadoop. Pig está específicamente dirigido al análisis paralelo de grandes conjuntos de datos.

Brachman se une a Yahoo después de una carrera en los laboratorios de AT&T y una gira como director de la Oficina de Tecnología de Procesamiento de Información en DARPA (la oficina responsable del proyecto HPCS). Él sabe claramente lo que se necesita para construir un entorno de investigación alrededor de computadoras a gran escala, y eso es evidente al escucharlo hablar sobre sus esfuerzos como jefe de relaciones académicas de Yahoo. Una y otra vez, vuelve a la idea inicial mientras describe cómo Yahoo y las universidades trabajan juntos. Uno podría esperar que Yahoo, como una empresa con preocupaciones de ganancias reales, podría simplemente preparar una manera de hacer que las universidades trabajen (casi) libremente en sus problemas. No es así, dice Brachman. Cuando le pregunté sobre colaboraciones específicas entre universidades y Yahoo, dijo que aunque las colaboraciones serían excelentes si crecieran orgánicamente a partir de las universidades de investigación que les interesan, «no consideraríamos el proyecto como un fracaso si las colaboraciones directas no se desarrollaran durante tanto tiempo. y el resto del mundo aprendemos algo nuevo sobre la informática a gran escala «. Buen material. Continúa explicando que las universidades son libres de publicar sus resultados en la literatura abierta y que las universidades conservan la propiedad de la propiedad intelectual que desarrollan durante los esfuerzos de investigación de grupos.

Los participantes del programa de pregrado son seleccionados a través de un proceso competitivo, y Brachman explica que al evaluar las propuestas, Yahoo estaba particularmente interesado en las personas que querían trabajar en problemas del sistema, no solo en nuevas aplicaciones. Yahoo brinda capacitación y soporte técnico a las universidades a las que se les ha asignado tiempo en el sistema y los usuarios afiliados a las universidades son bienvenidos al clúster después de pasar por un proceso de selección diseñado para garantizar que el proyecto cumpla con las pautas de control de exportaciones. establecido por el gobierno de los Estados Unidos. Curiosamente, para aquellos de nosotros acostumbrados a administrar recursos de procesamiento de producción a gran escala, el M45 no proporciona una interfaz por lotes a sus usuarios. Brachman dice que esto fue intencional, ya que la asignación de recursos es una de las preguntas de investigación abordadas, pero está de acuerdo en que con la llegada de las tres nuevas universidades pueden ser necesarias algunas medidas adicionales para fomentar el comportamiento cooperativo entre los participantes.

La búsqueda planificada de M45 incluye un enfoque significativo en aplicaciones con uso intensivo de datos, como probablemente esperaría no solo del enfoque corporativo de Yahoo, sino también del énfasis en Pig y Hadoop. Randal Bryant, decano de la Escuela de Ciencias de la Computación de Carnegie Mellon, describió la investigación realizada durante el año pasado sobre el clúster como algo que antes no era posible:

“Nuestros investigadores han podido extraer y procesar documentos de la web de una manera que antes no era posible, cambiando la forma en que pensamos sobre los problemas de búsqueda. También pudimos buscar en un corpus de 200 millones de páginas web, procesando dos órdenes de magnitud más de datos. Realizamos una investigación sobre el software del sistema, comparando, por ejemplo, el rendimiento del sistema de archivos Hadoop y otros sistemas de archivos paralelos. El acceso simultáneo a las aplicaciones y el software del sistema ha sido un beneficio real y esperamos nuestra asociación continua con Yahoo y nuestra contribución conjunta a la comunidad de computación en la nube «.

Los socios recientemente agregados citan el análisis de «enormes cantidades de información a escala social disponible en la Web, como registros de votaciones, fuentes de noticias Online y datos de encuestas», estudios de biodiversidad a gran escala e investigaciones de 8.5 terabytes. texto del libro digitalizado disponible en Internet Archive como objetivo de actividades en los próximos meses.

Brachman dice que cuando visitan universidades e interactúan con ellas sobre lo que quieren de Yahoo, las respuestas siempre se enfocan en desarrollar una comprensión de los problemas reales que Yahoo enfrenta todos los días. «A menudo, la academia trabaja en pequeñas aproximaciones de problemas del mundo real», explica, «o incluso más típicamente en pequeños conjuntos de datos artificiales que son solo representativos de un problema dado. El acceso al clúster M45 lleva el mundo real al mundo real». instalaciones. «

S. Shankar Sastry, decano de ingeniería de la Universidad de California en Berkeley, se hace eco de esta perspectiva. “Existe la sensación en el mundo académico de que la calidad del trabajo que puede producir depende del equipo y las herramientas que tiene guardado. El clúster de Yahoo es simplemente una herramienta maravillosa que puede transformar la capacidad de trabajar en varios temas, porque es mucho más grande que el tipo de clúster al que tiene acceso en las universidades. No es posible para nosotros construir, mantener, usar y operar un sistema como el clúster de Yahoo «.

El programa M45 es solo un aspecto de la reciente cartera de inversiones de Yahoo en informática de alto rendimiento. Yahoo también se ha asociado con HP e Intel en el proyecto Open Cirrus y también está apoyando otros esfuerzos. Open Cirrus reúne recursos informáticos escalables (recursos de «computación en la nube», de ahí la referencia cirrus … ¿entiendes?) Alojado en tres continentes en seis centros de datos propiedad de IDA, UIUC, el Instituto de Tecnología de Karlsruhe, HP Labs, Intel Research y Yahoo.

Este nivel de compromiso destaca la dependencia de Yahoo de la supercomputación para sus operaciones comerciales centrales. Pero desde el punto de vista de Brachman, también revela el compromiso de Yahoo de promover el estado de la práctica en el campo para que todos puedan beneficiarse de lo que él y sus socios aprenden. «Hay muchas fuentes de financiación», explica. «El entusiasmo está proporcionando recursos de investigación que solo un puñado de organizaciones en el mundo pueden proporcionar».

Deberías compartir en tu Facebook para que tus amigos lo sepan

??? ? ? ???

Comparte