|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2024-25
Modelado y Evaluación de Técnicas de Control de Congestión Basadas en Retroalimentación en Tiempo Real en Redes de Interconexión de Alto Rendimiento para Centros de Datos y Supercomputadores. |
Tecnologías Específicas
Ingeniería de Computadores
Descripcion y Objetivos
Las redes de interconexión desempeñan un papel crucial en el funcionamiento tanto de los centros de datos como de los supercomputadores, que son fundamentales en la era del Big Data y el procesamiento intensivo de información. Se prevé que el volumen de datos globales se multiplique por diez en los próximos seis años, lo que plantea nuevos desafíos para las infraestructuras de red en estos entornos. Los centros de datos, que pueden albergar decenas de miles de nodos, soportan aplicaciones como servicios en línea de alto consumo de datos (OLDI), aprendizaje profundo, almacenamiento masivo y computación en la nube. Por su parte, los supercomputadores están diseñados para ejecutar simulaciones complejas, modelado científico y análisis de grandes volúmenes de datos, lo que también requiere redes de interconexión de alta capacidad para facilitar la comunicación eficiente entre miles de nodos. Tanto en centros de datos como en supercomputadores, el manejo de enormes cantidades de datos debe combinarse con la necesidad de mantener tiempos de respuesta extremadamente bajos.
La convergencia de las tecnologías de red en centros de datos y supercomputadores ha dado lugar a soluciones que responden a las demandas tanto del ámbito comercial como del científico. Estas redes deben ser capaces de soportar casos de uso críticos que requieren una gran velocidad de comunicación entre nodos, así como una latencia mínima. Entre los principales escenarios de aplicación podemos destacar los servicios en línea que gestionan grandes volúmenes de datos (OLDI), como los motores de búsqueda; las aplicaciones de aprendizaje profundo para el procesamiento instantáneo de información; el almacenamiento distribuido; y las soluciones en la nube, junto con las simulaciones y cálculos científicos en los supercomputadores. En todos estos casos, las redes de interconexión están sometidas a un tráfico extremadamente alto, lo que puede derivar en congestión y degradación del rendimiento. La congestión provoca problemas como el Head-of-Line Blocking (HoL Blocking), lo que a su vez incrementa los tiempos de respuesta y disminuye la eficiencia tanto de los centros de datos como de los supercomputadores.
Para mitigar los efectos de la congestión en las redes de interconexión, se han desarrollado diversos enfoques que regulan el flujo de datos entre nodos. Uno de los métodos utilizados es el protocolo TIMELY, un mecanismo de control de congestión que se basa en la retroalimentación en tiempo real, utilizando el tiempo de ida y vuelta (RTT) como indicador del estado de la red. Este protocolo ajusta dinámicamente la tasa de transmisión de datos desde los nodos emisores, de acuerdo con las variaciones del RTT, lo que permite una adaptación más eficiente ante condiciones de congestión en la red. La idea principal detrás de TIMELY es que, al detectar un incremento en el RTT (lo que sugiere la aparición de congestión), se reduce la tasa de envío de datos, mientras que una reducción del RTT indica una menor congestión, permitiendo así aumentar gradualmente la velocidad de transmisión.
TIMELY se diferencia de otros protocolos al utilizar continuamente mediciones del RTT como señal de congestión, lo que permite una respuesta más inmediata a los cambios en las condiciones de la red. Este ajuste dinámico de la tasa de transmisión contribuye a evitar la formación de colas largas en los nodos intermedios, lo que puede aumentar la latencia y reducir el rendimiento global. En situaciones de congestión extrema, el protocolo evita que los buffers se saturen, minimizando así problemas como el HoL Blocking y mejorando el tiempo de respuesta de las aplicaciones que dependen de la red de interconexión.
El propósito de este Trabajo de Fin de Grado (TFG) es modelar el protocolo TIMELY en el entorno de simulación de redes de interconexión INASim, y evaluar su rendimiento en condiciones de congestión, comparándolo con otros mecanismos de control de congestión ya disponibles en el simulador. A partir de los resultados obtenidos, se pretende realizar un análisis para identificar posibles mejoras que puedan optimizar el comportamiento de los protcolos de retroalimentación en tiempo real, con el objetivo de operar de manera más eficiente en los centros de datos y supercomputadores de próxima generación.
Metodología y Competencias
Metodología
Para alcanzar los objetivos establecidos en el TFG, se llevarán a cabo las siguientes actividades principales, con un tiempo estimado para cada una (asumiendo una duración total de 8 meses, 37,5 horas al mes y 300 horas de dedicación al proyecto):
-
Realizar un estudio detallado sobre el estado del arte en redes de interconexión de alto rendimiento, el problema de la congestión y las técnicas de control de congestión basadas en retroalimentación en tiempo real, así como familiarizarse con las herramientas de simulación disponibles en el grupo RAAP. Esto incluirá la comprensión del proceso de desarrollo del simulador INASim (2 meses).
-
Modelar el comportamiento y las características de TIMELY en el simulador, implementando sus modos de operación de manera precisa (3 meses).
-
Realizar un análisis comparativo y evaluar el rendimiento de los modelos desarrollados frente a otras técnicas de control de congestión presentes en el simulador (2 meses).
-
Documentar los resultados obtenidos y redactar el informe final del TFG, integrando las conclusiones y posibles recomendaciones para mejoras futuras (1 mes).
-
[CO19] Ejercicio original a realizar individualmente y presentar y defender ante un tribunal universitario, consistente en un proyecto de naturaleza profesional en el ámbito de la tecnología específica de la Ingeniería en Informática que ha realizado el estudiante. En este ejercicio se deben sintetizar e integrar las competencias adquiridas en las enseñanzas.
-
[TI2] Capacidad para seleccionar, diseñar, desplegar, integrar, evaluar, construir, gestionar, explotar y mantener las tecnologías de hardware, software y redes, dentro de los parámetros de coste y calidad adecuados.
-
[IS4] Capacidad de identificar y analizar problemas y diseñar, desarrollar, implementar, verificar y documentar soluciones software sobre la base de un conocimiento adecuado de las teorías, modelos y técnicas actuales.
Medios a utilizar
Los medios a utilizar para el desarrollo del TFG son los siguientes:
Bibliografía
La bibliografía básica para el desarrollo del TFG es la siguiente:
Tutores GARCÍA GARCÍA, PEDRO JAVIER OLMEDILLA LOPEZ, CRISTINA | Alumno
|
| |