Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2020-21   2022-23



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2021-22

Instalación y configuración de nodos cómputo heterogéneos en supercomputadores y centros de proceso de Datos.


Tecnologías Específicas

Ingeniería de Computadores
 


Descripcion y Objetivos

En los últimos años, la computación heterogénea está influyendo de forma considerable la arquitectura de los nodos de procesamiento, ya que las aplicaciones demandan el uso, dentro de un mismo nodo de procesamiento, de un mayor número de unidades de cómputo de propósito específico (GPUs, aceleradores, etc.) y unidades de almacenamiento más rápidas (NVMe). Determinadas aplicaciones demandan que estas unidades funcionales se comuniquen entre sí a velocidades elevadas, para llevar a cabo tareas de cómputo y almacenamiento. También, será necesario que estas unidades funcionales se comuniquen con otras unidades funcionales situadas en otros nodos, por medio de la interfaz de red de cada nodo. Por ello, se hace necesario analizar de una forma precisa la comunicación entre las unidades funcionales dentro de un mismo nodo, y su impacto en la comunicación entre las unidades  funcionales de un nodo y las de otro. De este modo se pueden identificar los cuellos de botella que podrían degradar las prestaciones de la comunicación entre las unidades funcionales y, por tanto, el rendimiento del sistema completo.

El objetivo de este TFG es la instalación y configuración en un clúster de supercomputación real de un conjunto de nodos de cómputo heterogéneo, que contienen diversas unidades de cómputo y almacenamiento. En concreto, se construirá una prueba de concepto en el clúster real, CELLIA, formado por varios nodos de procesamiento y almacenamiento, cada uno de ellos dotado de una GPU, disco duro de almacenamiento de memoria no volátil NVMe y una interfaz de red InfiniBand EDR de 100Gbps. Los nodos se interconectarán entre sí por medio de un switch InfiniBand EDR. Se ejecutarán aplicaciones reales que utilicen estas unidades funcionales, como aplicaciones Deep Learning.

 


Metodología y Competencias

Para alcanzar los objetivos del TFG, las actividades principales a realizar son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 8 meses, 37,5 horas/mes y 300 horas de dedicación total al TFG):

  1. Conocer con un nivel de detalle adecuado a la carga del TFG el estado del arte de las redes de interconexión de altas prestaciones y los sistemas de cómputo heterogéneos, mediante el estudio de la bibliografía y la documentación disponibles en el grupo RAAP (2 meses).
  2. Instalación y configuración de los nodos de procesamiento en el clúster CELLIA, disponible en el grupo RAAP (2 meses).
  3. Selección e instalación de aplicaciones que exploten de forma intensive las unidades de cómputo y almacenamiento de los nodos (2 meses).
  4. Realización de experimentos mediante la ejecución de las aplicaciones seleccionadas en el clúster CELLIA (1 mes).
  5. Documentación de los resultados y redacción de la memoria de TFG (1 mes).

Competencias adquiridas:

[IC3] Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
[IC4] Capacidad de diseñar e implementar software de sistema y de comunicaciones. [IC7] Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
[IC8] Capacidad para diseñar, desplegar, administrar y gestionar redes de computadores.

 


Medios a utilizar

Los medios a utilizar para el desarrollo del TFG son los siguientes:

  • Elementos del cluster CELLIA, disponibles en el grupo RAAP
  • Simulador de red de interconexión disponible en el grupo RAAP.
  • Servidor de GIT y GitLab disponible en el grupo RAAP.
  • Ordenador tipo PC.
 


Bibliografía

La bibliografía básica para el desarrollo del TFG es la siguiente:

  • Diversos libros y artículos sobre redes de interconexión, configuración de clústeres, modelado y simulación.
  • Documentación del simulador y librerías asociadas.
  • HOWTO's para lanzar simulaciones de gran tamaño en los clústeres de cómputo GALGO y CELLIA, disponibles en el I3A.

Toda la bibliografía está disponible.

 


Tutores


ESCUDERO SAHUQUILLO, JESUS
QUILES FLOR, FRANCISCO JOSE
 

Alumno


TÁRRAGA MORENO, ANTONIO JOAQUÍN

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2021-22
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete

informatica.ab@uclm.es
aviso legal
generar código QR de la página