TRABAJOS FIN DE GRADO curso: 2021-22
Optimización de simuladores de redes de interconexión de altas prestaciones |
Tecnologías Específicas
Ingeniería de Computadores
Descripcion y Objetivos
Las redes de interconexión son un elemento fundamental en los supercomputadores y los centros de proceso de datos (CPDs o Data-centers) en la era del Big-Data, donde los datos almacenados en todo el planeta se van a multiplicar por diez en los próximos seis años. Los CPDs actuales, formados por decenas de miles de nodos, se dedican a ofrecer servicios a aplicaciones on-line de uso intensivo de datos (OLDI services), deep learning, almacenamiento masivo y cloud computing. Estas aplicaciones manejan enormes volúmenes de datos y al mismo tiempo requieren unos tiempos de respuesta mínimos. En la arquitectura de los CPDs, la red de interconexión es un elemento fundamental, ya que debe ofrecer unas prestaciones mínimas para dar soporte a las operaciones de comunicación que las aplicaciones requieren que se realicen entre los nodos del sistema.
El uso de herramientas de simulación de redes de interconexión de altas prestaciones está muy extendido en la industria y la academia, ya que permiten el desarrollo y evaluación de nuevos diseños de la arquitectura de red de una forma más rápida. El grupo de investigación RAAP de la UCLM utiliza varios de estos simuladores para el modelado de redes de interconexión de altas prestaciones. Uno de los simuladores que más se está utilizando es INASim, que fue desarrollado desde cero hace más de una década, y se ha ido actualizando y refinando desde entonces. INASim es un simulador dirigido por eventos cuya ejecución es secuencial. Esto es, los eventos de la cola de eventos se extraen de uno en uno. Además de esta limitación, INASim tiene otro problema: el tamaño de las redes que se pueden simular no excede de los 8.000 nodos, y actualmente hay simuladores que modelan redes de interconexión que conectan del orden de 100.000 nodos.
Por tanto, INASim debe ser mejorado para salvar esas limitaciones y así poder usarse para simular redes de interconexión de los sistemas exascale, en los que dicha red debe interconectar varios cientos de miles de nodos. Esto implica realizar cambios significativos en el simulador, que sólo se pueden abordar desde el conocimiento profundo no sólo de dicho simulador sino también de la arquitectura de las redes de interconexión.
Así pues, en este Trabajo Fin de Grado (TFG) se van a explorar diversas vías de optimización del simulador relacionadas con su diseño, nivel de detalle o uso de la memoria, entre otras. Se prestará especial atención a la posibilidad de paralelizar algunas tareas que se realizan durante la simulación, como puede ser la gestión de los eventos.
Existen numerosos frameworks de simulación (ROSS, CODES, OMNeT++, SST, etc.) que permiten paralelizar y optimizar la ejecución de simulaciones. Por ello, antes de abordar esas optimizaciones de INASim sería necesario realizar un estudio previo sobre los framework de simulación existentes.
El objetivo final es que con las optimizaciones que se realice sobre INASim se pueda reducir considerablemente el tiempo de ejecución de las simulaciones y como consecuencia poder aumentar el número de nodos que se pueden modelar, lo cual supondría un salto cualitativo y cuantitativo de enorme transcendencia para el simulador.
Metodología y Competencias
Para alcanzar los objetivos del TFG, las actividades principales a realizar por el alumno son las siguientes (se indica el tiempo estimado de realización en meses, asumiendo una dedicación de 8 meses, 37,5 horas/mes y 300 horas de dedicación total al TFG):
1) Conocer con un nivel de detalle adecuado a la carga del TFG el estado del arte de las redes de interconexión de altas prestaciones y de las herramientas de simulación de redes, mediante el estudio de la bibliografía y los simuladores disponibles en el grupo RAAP (1 mes).
2) Revisar los frameworks de simulación de redes de interconexión actuales (1 mes). Se hará una inmersión por los frameworks de simulación habitualmente utilizados, para analizar la posibilidad de usar sus técnicas en este TFG para realizar las optimizaciones requeridas en INASim.
3) Diseñar optimizaciones del simulador INASim (2 meses). Establecidas las actuaciones que pueden ser aplicables al simulador, se procederá plantear el adecuado diseño de las mismas.
4) Implementar las soluciones diseñadas (2 meses). Se introducirán las modificaciones oportunas en el simulador para reflejar el diseño previamente realizado de las optimizaciones.
5) Realizar experimentos y pruebas (1 mes). Para comprobar el resultado de las mejoras introducidas a INASim, se realizará una batería de test con un doble objetivo: por un lado mostrar la reducción del tiempo de simulación así como el incremento del tamaño de la red de interconexión que puede ser simulada; y por otro comparar la equivalencia de los resultados ofrecidos por el simulador antes y después de las optimizaciones.
6) Documentar los resultados (1 mes). Se redactará la memoria describiendo todo el trabajo realizado.
Competencias adquiridas:
[IC3] Capacidad de analizar y evaluar arquitecturas de computadores, incluyendo plataformas paralelas y distribuidas, así como desarrollar y optimizar software para las mismas.
[IC4] Capacidad de diseñar e implementar software de sistema y de comunicaciones.
[IC7] Capacidad para analizar, evaluar, seleccionar y configurar plataformas hardware para el desarrollo y ejecución de aplicaciones y servicios informáticos.
[IC8] Capacidad para diseñar, desplegar, administrar y gestionar redes de computadores.
Medios a utilizar
Los medios a utilizar para el desarrollo del TFG son los siguientes:
- Clúster CELLIA del RAAP: este clúster está formado por 50 nodos de cómputo, procesadores Intel Xeon E5, 32 GB de RAM, GPUs y una red de interconexión Ethernet. El
clúster está disponible para ser empleado durante la duración del TFG en la ejecución de experimentos y pruebas.
- Librería TraceLIB (http://www.i3a.info/VEFtraces/).
- Simuladores de redes de interconexión, disponibles para el grupo RAAP.
- Ordenador tipo PC.
Bibliografía
La bibliografía básica para el desarrollo del TFG es la siguiente:
- Diversos libros y artículos sobre redes de interconexión, modelado y simulación.
- Documentación de los simuladores y librerías asociadas.
- Manuales de C++.
- HOWTO's para lanzar simulaciones de gran tamaño en los clústeres de cómputo GALGO y CELLIA, disponibles en el I3A.
Toda la bibliografía está disponible.
Tutores ESCUDERO SAHUQUILLO, JESUS SÁNCHEZ GARCÍA, JOSÉ LUIS | Alumno EMILOV DIMITROV, EMIL
|
|