UCSF Institute for Human Genetics analiza 7 petabytes de datos con la ayuda de Dell - Calendae | Informática, Electrónica, CMS, Ciberseguridad

UCSF Institute for Human Genetics analiza 7 petabytes de datos con la ayuda de Dell

Hola y mil gracias por leerme. Yo soy Simón Sánchez y esta vez te voy a contar sobre UCSF Institute for Human Genetics analiza 7 petabytes de datos con la ayuda de Dell

Imagine un mundo en el que las pruebas genéticas puedan identificar qué personas tienen más probabilidades de contraer enfermedades graves. Podría asustarle saber que era particularmente susceptible, por ejemplo, a la enfermedad de Alzheimer. Pero, ¿qué pasaría si los médicos pudieran prevenir la aparición de la enfermedad tratando a los pacientes antes de que presenten síntomas? Las personas cuyos genes indican que tienen un alto riesgo pueden comenzar los tratamientos lo suficientemente temprano para salvarse a sí mismos y a sus familiares de un gran sufrimiento. La genotipificación puede ayudarnos a avanzar hacia este mejor futuro médico.

La genotipificación es un proceso que mide la variación genética entre los miembros de una especie. El tipo más común de variación entre dos individuos es el polimorfismo de un solo nucleótido (SNP), y los SNP pueden estar relacionados con muchas enfermedades humanas. Por lo tanto, al identificar las diferencias genéticas en una gran población y luego correlacionar la composición genética de los individuos con su historial médico, el genotipado de SNP puede identificar los marcadores genéticos que indican la probabilidad de que una persona contraiga una enfermedad en particular.

Colabora por el futuro de la medicina

Actualmente, el Instituto de Genética Humana (IHG) de la Universidad de California en San Francisco (UCSF) está llevando a cabo un proyecto de genotipado destinado a permitir este tipo de avance. El proyecto es una colaboración entre IHG y Kaiser Permanente. «Kaiser reclutó de su población de pacientes y obtuvo el consentimiento voluntario de las personas que deseaban participar en el estudio», dice Brad Dispensa, director de TI y seguridad de la información en el IHG y UCSFCenter for Cerebrovascular Research. . “Los pacientes que dan su consentimiento para la genotipificación proporcionan una muestra de saliva. Kaiser ya ha reclutado a 100.000 pacientes, lo que es una hazaña bastante astronómica para este tipo de estudio. Finalmente, planeamos incluir a 700.000 personas en la investigación y estamos analizando variaciones en 700.000 SNP diferentes «.

Fieles a la misión de la universidad de «promover la atención médica en todo el mundo ™», la investigación beneficiará a los investigadores médicos más allá de sus muros. «No solo generaremos este conjunto de datos para nuestro análisis, sino que algunos de los datos estarán disponibles para la comunidad científica en general», dice Dispensa. “La gente puede empezar a buscar marcadores genéticos para enfermedades como el Alzheimer o la diabetes. Estamos muy emocionados, porque nadie había hecho algo como esto antes con la cantidad de pacientes y la cantidad de SNP que incluimos «.

Preparación para 7 petabytes de datos

Empujar los límites de la investigación científica generalmente requiere tecnología de punta. En el caso del proyecto Kaiser / UCSF, esa tecnología es Axiom ™ Genotyping Solution de Affymetrix, que viene con placas de matriz que muestran muestras genéticas para su análisis, una base de datos patentada de marcadores genómicos validados, herramientas de procesamiento de matrices y el software Genotyping Console.

«La plataforma Axiom utiliza un nuevo tipo de placa de matriz que aumenta significativamente la productividad», dice Dispensa. «El problema de estar a la vanguardia es que tiene que manejar salidas de datos muy grandes. En nuestro caso, una placa de 96 matrices, que contiene 96 muestras de saliva de pacientes, contiene aproximadamente un terabyte de datos. Necesitaríamos 1.042 placas para administrar solo el tamaño de nuestra prueba inicial de 100.000 pacientes, por lo que el proyecto completo involucrará más de 7 petabytes de datos. Necesitábamos entender cómo podríamos almacenar y procesar toda esta información «.

Dell ofrece una solución de extremo a extremo

Dispensa y sus colegas han emprendido una búsqueda exhaustiva de la solución de hardware adecuada. «Acudimos a todos los principales proveedores», dice, «pero finalmente los finalistas fueron HP y Dell». Después de demostraciones prácticas de los equipos de ambos proveedores, IHG implementó una solución completamente de Dell.

Dieciséis servidores blade Dell PowerEdge M610 con procesadores Intel Xeon serie 5500 ahora residen en un gabinete blade modular Dell PowerEdge M1000e, compatible con las matrices de almacenamiento Dell EqualLogic PS6000XV e iSCSI PS4000. Un conmutador Dell PowerConnect 6248 Layer 3 proporciona conexiones Ethernet de un gigabit al nodo del controlador principal, una estación de trabajo ubicada en la parte superior del bastidor que emite comandos a los nodos esclavos en el chasis, mientras que un conmutador Dell PowerConnect M8024 Layer 3 proporciona 24 10- Puertos Gigabit Ethernet al chasis del blade.

«Elegimos los blades Dell con CentOS Linux en parte porque nos gusta la forma en que funciona la integración de estructuras en el chasis y en parte porque los controladores de acceso remoto integrados (iDRAC) de Dell se incluyen de forma gratuita con el hardware del servidor». , dice Dispensa. «La solución Integrated Lights-Out (iLO) de HP nos obligaría a pagar una tarifa de licencia por cada componente que quisiéramos activar».

Las licencias de HP iLO pueden costar hasta $ 400 cada una y deben renovarse anualmente. «Manejar las luces apagadas es esencial porque nuestro experimento funcionará 24 horas al día, 7 días a la semana durante dos años», dice Dispensa. «Necesitaba una forma de asegurarme de poder interactuar con equipos de nivel de metal desnudo desde cualquier parte del mundo en cualquier momento».

Dispensa se complace en ahorrar tanto los $ 8,000 como la molestia de administrar otro acuerdo de licencia. «No aumentar el número de acuerdos de licencias que tenemos que mantener organizados era muy deseable», dice.

No hay lugar para el tiempo de inactividad

Otro factor clave en la elección de Dell por parte de IHG fue la necesidad de eliminar cualquier posibilidad de tiempo de inactividad. Dispensa explica: “Esta operación se realiza las 24 horas del día, los 7 días de la semana, los 365 días del año y no se detendrá durante unos dos años. Mientras está en funcionamiento, no hay absolutamente ningún espacio para el tiempo de inactividad. La máquina Affymetrix bombeará los datos independientemente de lo que esté sucediendo con la solución de almacenamiento «.

En el caso de una falla de SAN, la máquina de genotipado podría almacenar datos localmente durante aproximadamente una hora, pero una vez que se llenó el caché de almacenamiento temporal, se apagaría, interrumpiendo la búsqueda. «Sería catastrófico», dice Dispensa. “Hay ocho planchas en la máquina a la vez y se arruinarían a un costo total de casi 250.000 dólares. Eso es más del doble de nuestro presupuesto de TI para todo el proyecto «.

Redundancia total en la mitad del espacio, a la mitad del costo

Para minimizar el riesgo de tiempo de inactividad, IHG quería una configuración RAID 50 para lograr la redundancia de la unidad mientras maximizaba el espacio de almacenamiento, y también quería tener controladores de almacenamiento completamente redundantes en las SAN. Los arreglos Dell EqualLogic hicieron posible esta arquitectura.

«La solución de almacenamiento fue otra de las principales razones por las que elegimos Dell», dice Dispensa. “Si hubiéramos elegido el almacenamiento HP LeftHand iSCSI, no habríamos tenido espacio para la configuración RAID 50 y el controlador redundante en la misma caja. Deberíamos haber comprado el doble de unidades. Con Dell EqualLogic, obtuvimos una solución de almacenamiento iSCSI que cuesta la mitad del espacio y ocupa la mitad del espacio, lo cual fue muy interesante «.

La SAN Dell EqualLogic PS6000XV usa un disco SAS para un alto rendimiento, mientras que la matriz de la serie EqualLogic PS4000 usa un disco SATA para una máxima capacidad de almacenamiento de datos archivados. A medida que el proyecto continúa y crece el volumen de datos que procesa, IHG planea agregar más capacidad de almacenamiento a cada uno.

Dispensa está satisfecho con la escalabilidad simplificada del almacenamiento Dell EqualLogic. «Digamos que quiero agregar otra SAN EqualLogic de la serie PS6000», dice. «Básicamente, solo necesitamos atornillarlo en el bastidor, conectarlo a la VLAN adecuada y hacer algunos cambios de configuración, y estamos listos para comenzar en aproximadamente una hora. El grupo de almacenamiento crece dinámicamente. La capacidad de agregar almacenamiento sin tiempo de inactividad. o problemas es una gran ventaja «.

Los blades de Dell se enfrentan a una supercomputadora

Si bien el proyecto de genotipado tiene enormes demandas de procesamiento de datos, la solución de Dell está funcionando bien, gracias en parte a los procesadores Intel Xeon. «La genotipificación implica mirar imágenes gigantescas», dice Dispensa. «Imagine una imagen en una valla publicitaria en la que el tamaño y la intensidad de cada pulgada signifiquen algo. Necesitamos procesadores que puedan analizar estos archivos de imagen enormes y la arquitectura Intel Xeon 5500 es perfecta para eso».

De hecho, entre sus procesadores y su capacidad de RAM, los 16 blades Dell PowerEdge M610 están casi a la par con la supercomputadora UCSF. El IHG no utilizó la supercomputadora para este proyecto porque el volumen de datos que conlleva hacía que fuera poco práctico mover información a través de la infraestructura universitaria. «Pero descubrimos que nuestros 16 blades Dell en un gabinete de un solo blade y dos arreglos de almacenamiento EqualLogic tienen aproximadamente una sexta parte de la potencia de toda la supercomputadora», dice Dispensa. «Esta es una afirmación bastante audaz considerando que la supercomputadora tiene cientos de nodos».

Administración simplificada con las herramientas de administración de Dell

Las herramientas de administración de almacenamiento y servidores de Dell están simplificando la administración de Dispensa y sus colegas. «Dell OpenManage es una solución realmente excelente», dice. “Y la solución iDRAC es excelente porque incluye todo. Me permite controlar todo en el chasis desde un único punto de acceso, luego pasar a todos los componentes individuales, poniendo el hardware Online y fuera de línea según lo desee. «

IHG utiliza el software Dell EqualLogic SAN HeadQuarters (SAN HQ) para la supervisión centralizada del rendimiento de SAN. «Es un paquete realmente fantástico», dice Dispensa. «Proporciona métricas excelentes sobre lo que está haciendo la infraestructura de almacenamiento en un momento dado y es fácil de usar incluso para administradores novatos».

Dell ayudó con la configuración inicial y siguió siendo un activo valioso para Dispensa y su equipo. «Nuestro equipo de cuentas de Dell ha sido de gran ayuda», dice. “Esta fue una empresa enorme y cumplir con el presupuesto y el momento fue un desafío, pero con la ayuda de Dell logramos ambos. Dell nos ayudó a encontrar la forma más eficaz de aprovechar la solución y obtener el rendimiento que necesitamos «.

En última instancia, el rendimiento del hardware de Dell y el apoyo del equipo de cuentas de Dell permitieron a IHG realizar una investigación fundamental que podría cambiar el futuro de la medicina en todo el mundo. «Dell realmente comprendió el impacto que este proyecto podría tener para la comunidad científica», concluye Dispensa. «El hardware confiable de Dell y los buenos consejos nos están ayudando a avanzar en la investigación médica».

Para obtener más información, visite: DellHPCSolutions.com

Deberías compartir en tu Facebook para que tus amigos opinen

??? ? ? ???

Comparte