Escuela Superior de Ingeniería Informática

Universidad de Castilla-La Mancha

Futuros Estudiantes Foreign Students Estudiantes Antiguos Estudiantes Empresas	WebMail ESII Net

Escuela Superior de Ingeniería Informática

La Escuela
- Conócenos
- Órganos de Gobierno
- Política de Calidad
- Personal
- Departamentos
- Instalaciones
- ¿Cómo llegar?
Grado
- Datos del Título
- Justificación
- Objetivos y Competencias
- Visión General del Título
- Acceso a los Estudios
- Plan de Estudios
- Opción Bilingüe
- Horarios
- Exámenes
- Normativa
- Reconocimiento de Créditos
- Trabajos Fin de Grado
- Tribunales TFGs
- Coordinación de la carga
- Modo evaluación
Máster: MUII
- Videos de MUii
- Web Oficial
- Perfil ingreso recomendado
- Trabajo Fin de Máster
- Tribunales TFMs
- Empresas involucradas
- Horarios
- Exámenes
- Profesorado
- Coordinación de carga
- Contacto
Doctorado
Títulos a Extinguir
- I.T. Informática Sistemas
- I.T. Informática de Gestión
- I. Informática
- Horarios
- Exámenes
- Normativa
- Calendario de Extinción
- Adaptaciones al Grado
- Proyectos fin de Carrera
Investigación

cambiar a curso: 2018-19 2020-21

Usted está en: Inicio -> Grado en Ingeniería Informática -> 42358

Grado en Ingeniería Informática

TRABAJOS FIN DE GRADO
curso: 2019-20

Aplicación de Deep Reinforcement Learning a un juego real

Tecnologías Específicas

Computación

Descripcion y Objetivos

Este trabajo está fundamentado en aprendizaje automático, y en concreto, mediante el uso de técnicas ‘deep’, que actualmente experimentan un gran auge en el mundo científico y tecnológico. En particular, se abordará un problema novedoso dentro de la IA en juegos y el aprendizaje por refuerzo cuyo objetivo es aplicar la reciente técnica Deep Reinforcement Learning al aprendizaje en juegos. Éstos siempre han servido para optimizar algoritmos novedosos, aprovechando su naturaleza abstracta, acotada y un conjunto de reglas definidas.

El aprendizaje por refuerzo, también conocido como reinforcement learning en inglés, es un área específica del aprendizaje automático (machine learning). Se trabaja con la idea de que un “agente” realiza determinadas acciones dentro de un entorno, el cual le retorna un estado adquirido y una recompensa (que puede ser positiva o negativa). Basándose en su experiencia y las recompensas obtenidas, el agente puede por tanto aprender comportamientos que maximicen la utilidad. Q-Learning se corresponde con el algoritmo clásico, que recientemente ha sido extendido a Deep Q-Learning donde se emplean redes neuronales en lugar de tablas (que serían inviables en algunos casos reales) para trabajar con las entradas y salidas a partir de la realización de acciones desde un estado en particular. Ha demostrado una buena capacidad para juegos como snake. En este proyecto se pretende aplicar este paradigma a otro juego. Planteamos inicialmente el conocido juego Tetris, si bien durante el desarrollo del proyecto, el juego podría diferir a otro que pudiera resultar de mayor interés y ajuste, circunstancia que se sabría tras realizar las fases iniciales de análisis y estudio de adecuación. Cuando finalice el mismo, el código y los resultados se pondrán en un repositorio público para que quede a la disposición de la comunidad investigadora.

Por tanto, los objetivos principales de este trabajo son el conocimento de una técnica de computación avanzada y de vanguardia como es el algoritmo Depp Q-Learning, y ser capaz de aplicarlo a un problema/juego real. Además de la implemebtación, la estudiante tendrá que realizar una experimentación, que conlleve un estudio y comparativa entre diferentes configuraciones. Finalmente, a partir los resultados, se realizará un análisis, del cual esperamos poder extraer conclusiones interesantes.

Metodología y Competencias

El desarrollo de este trabajo conlleva distintas tareas/fases:

1. Estudio de la técnica deep reinforcement learning, y su aplicación al problema de snake, donde ha demostrado buenos resultados.

2. Caracterización del juego escogido (inicialmente Tetris)

3. Adaptación de Deep-RL al juego escogido en el apartado 2. Si esta caracterización vemos que no es compatible con la técnica, eligiríamos otro juego y volveríamos a la fase 2.

4. Aplicar el código/algoritmo al juego, y estudiar su comportamiento mediante diferentes experimentaciones.

5. Análisis de los resultados.

Este TFG permite completar las competencias específicas [CM1], [CM5] y [CM7] de la Intensificación de Computación, es decir, se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

[CM1] Capacidad para tener un conocimiento profundo de los principios fundamentales y modelos de la computación y saberlos aplicar para interpretar, seleccionar, valorar, modelar, y crear nuevos conceptos, teorías, usos y desarrollos tecnológicos relacionados con la informática.

[CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.

[CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.

Medios a utilizar

Recursos online, ya que este proyecto conlleva una primera etapa de documentación, posteriormente una fase de diseño del problema y estudio de adecuación del problema a la técnica.

Se tendrá que escribir el código necesario (posiblemente en Python) para desarrollar el aprendizaje, el cual muy probablemente va a suponer el uso de tecnologías como TensorFlow o Keras.

Se necesitaría el uso de GPUs, que en principio se puede probar con la extensión de Google Colaboratory, pero que en momentos puntuales podría necesitar de la Tesla dedicada a Deep Learning (laboratorio SIMD).

Inicialmente, lo imprescindible sería un PC de características estándar y con conexión a Intenet.

Bibliografía

Arulkumaran, K.; Deisenroth, M. P.; Brundage, M.; Bharath, A. A. (November 2017). "Deep Reinforcement Learning: A Brief Survey". IEEE Signal Processing Magazine. 34 (6): 26–38. arXiv:1708.05866. doi:10.1109/MSP.2017.2743240. ISSN 1053-5888.

Mnih, Volodymyr; et al. (December 2013). Playing Atari with Deep Reinforcement Learning (PDF). NIPS Deep Learning Workshop 2013.

Francois-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning".

Web:

https://towardsdatascience.com/how-to-teach-an-ai-to-play-games-deep-reinforcement-learning-28f9b920440a

https://www.freecodecamp.org/news/an-introduction-to-deep-q-learning-lets-play-doom-54d02d8017d8/

Tutor

FLORES GALLEGO, MARIA JULIA

Alumno

JIMÉNEZ FERNÁNDEZ, LUNA

Curso: 2019-20
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
informatica.ab@uclm.es
aviso legal

generar código QR de la página