|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2024-25
Aplicación de técnicas de ciencia de datos y aprendizaje a datos sobre rendimiento de jugadores en fútbol profesional |
Tecnologías Específicas
Computación
Descripcion y Objetivos
El análisis del rendimiento de jugadores en el fútbol profesional ha evolucionado significativamente en los últimos años gracias al avance de la ciencia de datos y el aprendizaje automático. La creciente disponibilidad de datos detallados sobre partidos, jugadores y entrenamientos ha abierto nuevas oportunidades para mejorar la toma de decisiones en el ámbito deportivo. Desde la identificación de patrones de juego hasta la predicción del rendimiento futuro de un jugador, el uso de técnicas de análisis avanzado permite optimizar estrategias y maximizar el potencial de los equipos. La temática de este trabajo es relevante no solo para clubes y entrenadores, sino también para analistas y científicos de datos interesados en aplicar sus conocimientos en un contexto deportivo de alto impacto.
El objetivo principal del TFG sería la aplicación de técnicas de ciencia de datos y aprendizaje automático para analizar datos sobre el rendimiento de jugadores en fútbol profesional. Se pretende extraer patrones y conocimientos útiles a partir de datos de rendimiento, con el fin de mejorar la toma de decisiones en ámbitos como la gestión de equipos, la detección de talento y la optimización del entrenamiento.
Los objetivos específicos del trabajo incluyen:
- Recopilar y procesar un conjunto de datos relevante sobre jugadores de fútbol profesional.
- Aplicar técnicas de análisis exploratorio de datos para comprender la información disponible.
- Implementar algoritmos de aprendizaje automático para la predicción o análisis descriptivo del rendimiento de jugadores.
- Evaluar la efectividad de los modelos generados y proponer mejoras.
- Visualizar y comunicar los resultados de manera efectiva para facilitar la interpretación de los resultados.
Metodología y Competencias
Para el desarrollo del trabajo, se seguirá una metodología basada en los siguientes pasos:
-
Documentación: Búsqueda de bibliografía, conjuntos de datos, artículos que hayan abordado temáticas deportivas con un enfoque computacional similar, y más concretamente, en relación al fútbol profesional.
-
Recopilación de datos: Se identificarán fuentes de datos relevantes, como bases de datos de estadísticas deportivas y registros de partidos. Se seleccionarán aquellos cuyas características sean útiles para la tarea que pretendemos desarrollar.
-
Preprocesamiento y limpieza de datos: Se eliminarán valores atípicos, se gestionarán valores faltantes y se normalizarán las variables. Si hay varios datasets, o información accesible para enriquecerlos, se procederá a ello.
-
Análisis exploratorio de datos (EDA): Se aplicarán técnicas de visualización y estadísticas descriptivas para extraer información relevante. Esto podría constituir algún paso atrás (1-3) para rehacer o reparar alguna etapa anterior.
-
Aplicación de modelos de aprendizaje automático: Se evaluarán la utilidad de emplear técnicas supervisadas y no supervisadas, como regresión, árboles de decisión y redes neuronales, para los diferentes objetivos. Actualmente creemos que lo más idóneo es: buscar caracterización de los jugadores en grupos o clusters, y estimación o predicción de las posibles estadísticas (que influyen en su rendimiento como número de goles marcados, minutos jugados, etc...) a partir de las características de los mismos, e integrado con estadísticas anteriores.
-
Evaluación y ajuste de modelos: Se emplearán métricas de evaluación adecuadas para medir el rendimiento de los modelos y realizar ajustes.
-
Interpretación y comunicación de resultados: Se generarán informes y visualizaciones para la presentación de conclusiones.
Mediante la realización de este TFG se trabajarán, en distinto grado de profundidad, las siguientes competencias específicas de la intensificación de Computación:
- [CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
- [CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
- [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
Medios a utilizar
A nivel software, se empleará principalmente el lenguaje de progragamción Python y librerías especializadas, más detalladamente, se preve el uso de Pandas, NumPy, Scikit-learn, Matplotlib, Seaborn, y quizás TensorFlow, Keras. Como entornos de desarrollo proponenos Jupyter Notebook, Google Colab.
A nivel hardware, en principio se usará un portátil o PC de prestaciones normales, si se necesita computación basada en GPU, podría usarse a través de Google Colab o Kaggle, con sus restricciones.
Bibliografía
- Apuntes de la asignatura de Sistemas Inteligentes
- Apuntes de la asignatura Minería de Datos
- Apuntes de la asignatura Sistemas Basados en Conocimiento
- Ünsoy, O. (2022). Developing a Decision-Making Framework for Player Recruitment in European Football Clubs (Doctoral dissertation, The University of Manchester (United Kingdom)).
- Otremba Jr, S. E. (2022). SmartPitch: Applied machine learning for professional baseball pitching strategy (Doctoral dissertation, Massachusetts Institute of Technology).
- https://www.kaggle.com/datasets/joyshil0599/2022-2023-top-5-football-leagues-player-stats
Tutor FLORES GALLEGO, MARIA JULIA | Alumno AGUILAR SÁNCHEZ, AMABLE |
| |