El consumo de energía de los centros de datos y de supercomputación es un aspecto esencial en el diseño, construcción y funcionamiento de este tipo de centros. Económicamente supone la mayor parte de su presupuesto; medioambientalmente preocupa su gran impacto debido a las emisiones de CO2; y, técnicamente impone restricciones a su rendimiento.
Ya se están tomando medidas para controlar este consumo energético, medidas que tienen que ver con los sistemas de refrigeración, el acceso y uso de los recursos computacionales y de almacenamiento, o el propio diseño de las aplicaciones. Para realizar un ajuste adecuado de estas y otras actuaciones es imprescindible monitorizar y controlar el consumo de energía de los sistemas de estos centros.
Con las herramientas disponibles para realizar esa monitorización, los administradores de centros de datos y de supercomputación pueden disponer de datos muy valiosos para tomar decisiones inteligentes en la gestión de los recursos disponibles. Una de esas herramientas es la denominada PDU (Unidad de Distribución de Potencia), que ofrece funciones para la supervisión, la conmutación y la medición de energía de forma fiable de los componentes instalados en los armarios de instalaciones como las que se pueden encontrar en este tipo de centros.
En un Trabajo Fin de Grado (TFG) realizado en el curso 2022/2023, se usó uno de estos dispositivos para analizar el consumo de un clúster. Sin embargo, la PDU usada tiene importantes limitaciones, en concreto, no puede ofrecer datos de consumo de los elementos conectados a ella de manera individual, sino únicamente de la suma de todos ellos.
Recientemente se ha conseguido otro tipo de PDU que sí lo permite, y por tanto resulta de interés realizar un estudio similar, pero con las nuevas condiciones que lo harán más preciso. Así pues, este TFG es continuación del antes citado, y su objetivo principal es obtener datos de consumo energético de los elementos principales que forman un clúster, esto es, nodos de procesamiento y red de interconexión.
Para lograr ese objetivo principal se deberá obtener un conocimiento básico sobre las características y funcionamiento de los componentes de un clúster;
aprender a usar la nueva PDU y a obtener datos de consumo de cada uno de los elementos conectados a ella; y analizar esos datos adecuadamente.
Las principales novedades con respecto al TFG ya realizado son el uso de una PDU managed, que tiene mayor funcionalidad que la usada en dicho TFG; el uso de nuevas aplicaciones paralelas, en concreto algunas de Deep Learning; y una aproximación a un modelo de consumo basado en los datos obtenidos del clúster utilizado.
Este TFG se desarrollará siguiendo una metodología ágil, iterativa e incremental. En principio, se mantendrán reuniones quincenales con los tutores para hacer un seguimiento que garantice el éxito del trabajo, y que además sirva para obtener una valiosa retro-alimentación del mismo.
Para lograr el objetivo principal señalado anteriormente se han planteado las siguientes tareas:
1. Revisión de las características del clúster Cellia y de la nueva PDU. Para realizar esta tarea se consultará documentación del clúster y sus componentes, y el manual de usuario de la PDU. Esta tarea llevará un mes aproximadamente.
2. Selección de un conjunto de aplicaciones de centros de datos y de supercomputación que serán usadas en el estudio. Los datos de consumo serán recogidos durante la ejecución de dichas aplicaciones, y también cuando el sistema esté ocioso para comprobar los consumos base de los componentes. Se descargarán, instalarán y ejecutarán las aplicaciones para dejarlas preparadas para la siguiente tarea. Esta tarea se puede realizar en un mes, más o menos.
3. Configuración y desarrollo de las pruebas. Para la obtención de los datos de consumo de energía se considerarán varias aplicaciones con diferentes cargas y se harán variaciones sobre algunos parámetros del clúster, como el número de nodos, puertos de los switches, NICs, etc. Se espera obtener un gran volumen de datos, y por tanto será necesario desarrollar código para su manejo, y/o usar paquetes estadísticos para la presentación y análisis de los mismos. Esta tarea puede suponer un tiempo estimado de dos mes.
4. Elaboración de un modelo de consumo. Es habitual manejar simuladores para evaluar propuestas en el diseño de clústeres de computadores sin tener que realizar físicamente. Actualmente es imprescindible que esos simuladores incluyan un modelo de consumo. Con esta tarea se pretende llegar a un modelo lo más aproximado posible, a partir de los datos reales obtenidos en la tarea anterior. Para elaborar ese modelo y comprobar su validez, se estima un tiempo de un mes aproximadamente.
5. Documentación de los resultados. Se elaborará la memoria del TFG, incluyendo toda la información que sea necesaria de acuerdo con la normativa y las características del trabajo. Esta tarea supondrá una dedicación aproximada de un mes.
Las competencias que se pretenden cubrir con este TFG de las intensificaciones Ingeniería de Computadores y Tecnologías de la Información son:
[IC3] Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
[IC7] Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
[TI2] Capacidad para seleccionar, diseñar, desplegar, integrar, evaluar, construir, gestionar, explotar y mantener las tecnologías de hardware, software y redes, dentro de los parámetros de coste y calidad adecuados.
[TI6] Capacidad de concebir sistemas, aplicaciones y servicios basados en tecnologías de red, incluyendo Internet, web, comercio electrónico, multimedia, servicios interactivos y computación móvil.