|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2024-25
Aplicación de técnicas de aprendizaje automático y análisis a la predicción de eventos extremos en climatología |
Tecnologías Específicas
Computación
Descripcion y Objetivos
Este Trabajo Fin de Grado tiene como objetivo el empleo de técnicas de aprendizaje automático y análisis de datos para la predicción de eventos climáticos extremos, como olas de calor, tormentas intensas o inundaciones. En el contexto del cambio climático, la creciente frecuencia e intensidad de estos fenómenos subraya la necesidad de herramientas predictivas que permitan anticipar y gestionar estos riesgos de manera más eficaz. A través del uso de algoritmos de machine learning, el proyecto procesará grandes volúmenes de datos climáticos históricos y actuales, con el fin de identificar patrones que permitan predecir eventos extremos de la forma más precisa posible.
Un componente clave de este trabajo es la recolección e integración de datos climáticos provenientes de diversas fuentes disponibles. Esta etapa es fundamental para garantizar la calidad y diversidad de los datos utilizados, que serán limpiados y transformados antes de su análisis. El sistema podrá emplear datos históricos obtenidos a través de APIs y plataformas meteorológicas, como la AEMET y OpenWeatherMap, para crear modelos que estimen la ocurrencia de temperaturas extremas (máximas, si la casuística es en España o mínimas si la ubicación alternativa seleccionada lo justifica) en el futuro.
El objetivo principal del trabajo es hacer un análisis de la aplicabilidad de modelos de machine learning al problema de predicción de eventos extremos, y el desempeño de los diferentes modelos. Como resultado, se podría desarrollar una herramienta para visualizar la predicción de ocurrencia de eventos climáticos extremos.
Los sub-objetivos desglosados serían:
-
Recolectar e integrar datos climáticos de diversas fuentes (APIs disponibles con datos de estaciones meteorológicas, bases de datos globales, registros históricos), asegurando su calidad y coherencia. Esto conlleva también pre- y post-procesamiento de datos.
-
Seleccionar y entrenar modelos de machine learning (supervisados y/o no supervisados) adecuados para la predicción de eventos extremos, optimixando los parámetros seleccionados para mejorar su precisión y capacidad predictiva.
-
Validación, comparativa y análisis de los modelos y técnicas aplicadas
Metodología y Competencias
La metodología a emplear, incluiría estas cuatro fases principales, algunas de las cuales pueden conllevar el revisitar puntos anteriores, siguiendo un proceso iterativo:
-
Recolectar y preprocesar datos meteorológicos históricos: Utilizar APIs y plataformas de datos meteorológicos para recopilar datos sobre temperaturas históricas en distintas regiones de España. Si no se encuentran datos válidos de España, se podría ir a Europa, Asia o América. Como idea, pero con sus problemas asociados existe este reto de kaggle: https://www.kaggle.com/competitions/widsdatathon2023 localizado en EEUU.
-
Desarrollar un modelo predictivo: Implementar modelos de Machine Learning que permitan predecir temperaturas extremas, o bien el hecho de la ocurrencia de un evento extremo (sí/no) a partir de los datos históricos, desde Regresión Lineal, Árboles de Decisión, Random Forest, a Redes Neuronales, GBoost, .... El problema se puede plantear como regresión (numérico) o clasificación binaria (sí/no) o con más de 2 etiquetas/clases.
-
Validación de los modelos: Evaluar el rendimiento del sistema mediante métricas de error para regresión como el MAE (Mean Absolute Error), RMSE (Root Mean Squared Error) y el coeficiente de determinación (R²), utilizando validación cruzada; o bien métricas de clasificación como accuracy o AUC.
-
Análisis comparativo y evaluación: En vista de los resultados obtenidos, determinar los mejores modelos y cuál es el desempeño obtenido para la tarea objetivo.
-
Opcionalmente, y según el tiempo y esfuerzo en los pasos anteriores, se puede crear una aplicación o herramienta web que despliegue alguno(s) de los modelos y con las entradas que indique el usuario nos muestre visualmente las predicciones. En este caso podría ser interesante la visualización de mapas.
Mediante la realización de este TFG se trabajarán, en distinto grado de profundidad, las siguientes competencias específicas de la intensificación de Computación:
- [CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
- [CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
- [CM6] Capacidad para desarrollar y evaluar sistemas interactivos y de presentación de información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.
- [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
Medios a utilizar
Se prevé que gran parte de la implementación se desarrolle en Python, pues es el lenguaje donde se encuentran las APIs y los principales modelos de Machine Learning. Por tanto, se espera que el/la estudiante tenga un dominio de dicho lenguaje de programación, y buenas habilidades como programador/a. Se necesitará un ordenador de rendimiento CPU medio-alto, buena memoria RAM y buena capacidad de almacenamiento en disco, dado que se pueden llegar una cantidad considerable de datos. En caso de explorar modelos computacionales "caros" (deep learning o similar), el/la estudiante deberá proveer los recursos mediante plataformas online o con su propio ordenador, con suficientes recursos de GPU.
Bibliografía
-
AEMET OpenData API Documentation. Documentación oficial de la API de la Agencia Estatal de Meteorología (AEMET), que describe cómo obtener datos meteorológicos históricos y en tiempo real. Disponible en: https://opendata.aemet.es/
-
Manuales de python y de paquetes como pandas, numpy, xarray, geopandas, etc...
-
Fischer, E. M., Seneviratne, S. I., Lüthi, D., & Schär, C. (2007). Contribution of land‐atmosphere coupling to recent European summer heat waves. Geophysical Research Letters, 34(6).
-
Stephenson, D. B., Diaz, H. F., & Murnane, R. J. (2008). Definition, diagnosis, and origin of extreme weather and climate events. Climate extremes and society, 340, 11-23.
-
Salcedo-Sanz, S., Pérez-Aracil, J., Ascenso, G., Del Ser, J., Casillas-Pérez, D., Kadow, C., ... & Castelletti, A. (2022). Analysis, characterization, prediction and attribution of extreme atmospheric events with machine learning: a review. arXiv preprint arXiv:2207.07580.
-
Apuntes de las asignaturas Sistemas Inteligentes, Sistemas Basados en Conocimiento y Minería de Datos
Tutor FLORES GALLEGO, MARIA JULIA | Alumno GONZÁLEZ SÁNCHEZ, ALEJANDRO |
| |