Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2022-23   2024-25



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2023-24

Estudio de las comunicaciones de aplicaciones HPC y de Centros de Datos: análisis del potencial ahorro de energía


Tecnologías Específicas

Ingeniería de Computadores
 


Descripcion y Objetivos

El número de aplicaciones que requieren computación de alto rendimiento y almacenamiento masivo sigue creciendo a un gran ritmo, y centros de datos y de supercomputación son cada vez más demandados para hacer frente a esas necesidades. Las cargas de trabajo de HPC (del inglés High Performance Computing) junto con las debidas a otras aplicaciones de Inteligencia Artificial (IA) y de análisis de datos suponen una exigencia de recursos que sólo ese tipo de centros pueden satisfacer.

Estos centros disponen de infraestructuras de computación que están compuestas por un elevado número de elementos de proceso y almacenamiento de datos, unidos mediante una o varias redes de interconexión de alto rendimiento. La cantidad de datos que se manejan, así como la comunicación entre los procesos hacen de la red un elemento esencial, suponiendo un verdadero reto obtener un diseño eficiente que no la convierta en un cuello de botella que impida alcanzar el rendimiento global deseado.

Un aspecto de gran relevancia en estos centros, cada vez más según su tamaño y número sigue creciendo, es el consumo energético. A nivel económico porque supone la mayor parte del presupuesto de este tipo de centros; medioambiental por su gran impacto debido a las emisiones de CO2; y técnico pues puede imponer restricciones a su expansión y, como consecuencia, a su máximo rendimiento.

Por tanto, es necesario realizar diseños del sistema global, y de la red de interconexión en particular, que sean energéticamente eficientes, y consigan frenar el crecimiento descontrolado de energía de estos centros. Para llegar a esos diseños resulta de gran interés conocer con detalle el comportamiento de las aplicaciones, máxime cuando en muchos casos los sistemas están creados para un conjunto específico de ellas. Si se tiene información de la comunicación que generan, del tiempo de ésta, de los posibles patrones de ese tráfico en la red, del volumen de información que supone toda esa comunicación, entre otros datos, se podrán tener en cuenta en el diseño de la red.

El objetivo principal de este TFG es realizar un estudio de esas características para un conjunto de aplicaciones representativas de HPC e IA. Ejecutadas dichas aplicaciones en un clúster real, y recogido el tráfico en la red que han generado, se analizará éste y se estudiará el potencial ahorro de energía que se podría obtener considerando la información obtenida de ese estudio.

 


Metodología y Competencias

Este TFG se desarrollará siguiendo una metodología ágil, iterativa e incremental. Se mantendrán reuniones periódicas, en principio quincenales, con los tutores para realizar un adecuado seguimiento que garantice el éxito del trabajo, a la vez que sirva para una provechosa retro-alimentación del mismo.

Para alcanzar el objetivo del TFG se han planteado las siguientes tareas principales:

1) Revisión de conceptos sobre redes de interconexión y aplicaciones paralelas, así como de las librerías TraceLIB y TopGen. Se consultarán documentos proporcionados por los tutores para refrescar y reforzar algunos conocimientos necesarios (0,5 meses).

2) Selección de varias aplicaciones usadas en entornos de centros de datos y supercomputación. Se elegirá un conjunto de aplicaciones, representativo de HPC e IA y de las cuales se disponga de trazas de tráfico. Si fuera necesario, se obtendrían algunas trazas más (0,5 meses).

3) Elaboración de programas o scripts para el análisis de las trazas. Se crearán códigos para procesar el contenido de las trazas de tráfico y obtener así información sobre las características de la comunicación, el tiempo que ésta supone con respecto a la computación, los posibles patrones a los que responde, la cantidad de información que supone toda esa comunicación, etc. (1 mes).

4) Análisis de la información de las trazas de tráfico. Se pretende determinar si la comunicación generada por las aplicaciones permite actuar dinámicamente sobre la red de interconexión para reducir el consumo de los elementos que la forman, como por ejemplo los enlaces entre nodos (1,5 meses).

5) Propuestas para reducir el consumo de la red. Si del resultado de la tarea anterior se comprueba que existe potencial para reducir el consumo de la red, de acuerdo con las características de las comunicaciones que debe soportar la red de interconexión, en esta tarea se esbozarán algunas posibles líneas de actuación sobre la red para aprovechar ese potencial (0,5 meses).

6) Al margen de las anteriores, otra tarea será la elaboración de la memoria del TFG incluyendo todos los aspectos relevantes del trabajo realizado. Se irá elaborando durante el desarrollo del trabajo (1 mes).

 

Las competencias específicas de la Tecnología Ingeniería de Computadores que se trabajarán en este TFG, y que por tanto serán reforzadas son las siguientes:

[IC3] Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.

[IC7] Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.

 


Medios a utilizar

Los medios a utilizar para el desarrollo del TFG son los siguientes:

- Clúster CELLIA del RAAP: este clúster está formado por 50 nodos de cómputo, procesadores Intel Xeon E5, 32 GB de RAM, GPUs y una red de interconexión Ethernet.

- Librería TraceLIB (https://gitraap.i3a.info/fandujar/VEF-TraceLIB).

- Librería LibTopgen (https://gitraap.i3a.info/jesus.escudero/libtopgen)

- Ordenador tipo PC.

 


Bibliografía

La bibliografía básica para el desarrollo del TFG es la siguiente:


- Manuales de las librerías TraceLIB y Topgen.

- Manuales de C/C++

- Diversos libros y artículos sobre redes de interconexión en general.

- Documentación de las aplicaciones a analizar.


Toda la bibliografía está disponible.

 


Tutores


SÁNCHEZ GARCÍA, JOSÉ LUIS
ALFARO CORTES, FRANCISCO JOSÉ
 

Alumno


AVELLANEDA TORRECILLAS, JOSÉ

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2023-24
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete

informatica.ab@uclm.es
aviso legal
generar código QR de la página