El equipo de Workflows and Distributed Computing del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) -uno de los grupos de investigación que forman parte de nuestra red- presenta dislib 1.0.0 (Distributed Computing Library). Esta herramienta proporciona algoritmos distribuidos listos para utilizar, con un fuerte enfoque en machine learning y, más recientemente, en el entrenamiento distribuido de redes neuronales. Su objetivo principal es facilitar la ejecución de flujos de trabajo de analítica de big data en plataformas distribuidas como clústeres, nubes y supercomputadores. dislib está implementada sobre el modelo de programación PyCOMPSs, el binding de Python de COMPSs.

dislib se basa en una estructura de datos distribuida, el ds-array, que permite la ejecución paralela y distribuida de métodos de machine learning. La biblioteca está implementada como una aplicación PyCOMPSs, en la que los métodos se definen como tareas y se ejecutan transparentemente en paralelo. Como resultado, los usuarios pueden escribir scripts sencillos en Python sin tener que gestionar los detalles de la paralelización, mediante una interfaz estrechamente alineada con scikit-learn. dislib proporciona métodos para clustering, clasificación, regresión, descomposición, selección de modelos, entrenamiento de redes neuronales y gestión de datos.

Desde su creación, dislib se ha aplicado en varios casos de uso reales, incluyendo astrofísica (DBSCAN con datos de la misión GAIA), flujos de trabajo de dinámica molecular (Dura y PCA dentro del BioExcel CoE) y múltiples aplicaciones en el proyecto eFlows4HPC, como computación urgente para riesgos naturales, e neuronales. En el proyecto AI-SPRINT también se ha utilizado para atención sanitaria personalizada en la detección de fibrilación auricular mediante modelos Random Forest.

dislib 1.0.0 incluye refinamientos adicionales, ejemplos actualizados y una nueva guía de usuario. El código es open source y está disponible para su descarga.

Ésta es una de las tecnologías que se pueden encontrar en el Portfolio de X4HPC, disponible en la web.

________________________________________

El grupo de Workflows and Distributed Computing del BSC tiene como objetivo ofrecer herramientas y mecanismos que permitan compartir, seleccionar y agregar una amplia variedad de recursos computacionales distribuidos geográficamente de forma transparente. La investigación desarrollada por este equipo se basa en la experiencia previa del grupo y la extiende hacia los aspectos de computación distribuida que pueden beneficiarse de esa experiencia. El equipo del BSC mantiene un fuerte enfoque en modelos de programación y en la gestión y planificación de recursos en entornos de computación distribuida.

Volver Noticias