Laboratorio Europeo de Biología Molecular

abril 6, 2022
09:21

Artículo facilitado por NetApp

NetApp, una empresa de software centrada en los datos y enfocada en la nube, apoya la investigación biológica en el Laboratorio Europeo de Biología Molecular (EMBL) con soluciones de almacenamiento de datos de alto rendimiento y escalado

Estas soluciones desempeñan un papel fundamental en el análisis y almacenamiento de enormes cantidades de datos científicos producidos en el EMBL. El instituto también utiliza los servicios de datos y nube de NetApp en otras muchas áreas: para operar una infraestructura altamente resiliente que ofrece soluciones de IT empresariales a seis sitios del EMBL en cinco países, para respaldar la formación científica del EMBL, para hacer posible un uso extensivo de técnicas basadas en la inteligencia artificial (IA) y para ofrecer un servicio de archivos de alto rendimiento.

Una de las áreas donde se utilizan las soluciones de NetApp es en el tratamiento de imágenes de alta resolución. Mediante el uso de la criomicroscopía electrónica, es posible estudiar la estructura espacial y función de las moléculas con gran precisión. Los datos creados de esta manera ascienden a varios petabytes por año, y el nuevo Centro de imágenes del EMBL y los microscopios adicionales harán crecer, aún más, esta producción de datos considerablemente. Los datos adquiridos se recogen en un data lake, se analizan en clústeres de computación de alto rendimiento en Heidelberg y, finalmente, se ponen a disposición de los científicos de todo el mundo, a través de la infraestructura de datos biomoleculares líder del EMBL, en el centro EMBL-EBI de Hinxton, cerca de Cambridge (Reino Unido).

El data lake del EMBL se compone de varios clústeres de producción distribuidos por las distintas sedes del instituto. Los centros de datos del EMBL en Heidelberg y Cambridge proporcionan una gran parte del total de más de 400 petabytes de almacenamiento en los sistemas NetApp. Gracias a las ventajas de ONTAP, es posible acceder eficientemente a los extensos volúmenes de datos, a través del sistema de archivos de red (NFS) y sistemas de archivos de internet común (CIFS). Incluso los conjuntos de datos más exigentes, como los que se usan para el análisis de datos basado en el aprendizaje automático o el entrenamiento de modelos de IA, pueden copiarse y moverse sin interrupciones. La solución también puede adaptarse a requisitos futuros, como la migración de cargas de trabajo y la incorporación de nuevo hardware, sin tiempos de inactividad.

En la actualidad, los investigadores de ciencias biológicas se enfrentan al desafío de obtener nuevos conocimientos a partir de grandes, casi abrumadoras, cantidades de datos, de la manera más eficiente posible. Entre otros métodos, los científicos, hoy en día, confían a menudo en métodos basados en IA. Los grupos de investigación del EMBL desarrollan sus propios modelos de IA, que se entrenan y operan con Jupyter Notebook en entornos basados en contenedores. El EMBL gestiona los datos subyacentes con NetApp Astra Trident, que aporta almacenamiento de datos persistente para entornos de contenedores.

El análisis de los datos experimentales se realiza a menudo en los clústeres de computación de alto rendimiento y sistemas de nube del EMBL. Un gran número de científicos acceden a ambos simultáneamente, por lo que tiene unos requisitos de rendimiento de datos muy elevados. Los sistemas NetApp en el EMBL dan cabida a estos requisitos de alto rendimiento, tanto para las aplicaciones de los grupos de investigación que se ejecutan en los clústeres de computación, como para la interacción eficiente de los sistemas y servicios involucrados.

NetApp también respalda al EMBL con el aprovisionamiento de las aplicaciones empresariales. Para lograr que sus más de 1.800 empleados trabajen sin problemas, el EMBL ha instalado un metrocluster all-flash de NetApp de alta disponibilidad en su sede central de Heidelberg, que proporciona a los usuarios del instituto en las sedes de Alemania, España, Francia, Italia y Reino Unido, una infraestructura base a prueba de fallos que aporta potencia al correo electrónico, las aplicaciones Office y otros servicios.