|
Grado en Ingeniería Informática |
TRABAJOS FIN DE GRADO curso: 2023-24
Clasificación Automática de Especies de Plantas a partir de Imágenes: Un Herbario Digital |
Tecnologías Específicas
Computación
Descripcion y Objetivos
La biodiversidad de nuestro planeta es vasta, y las plantas son uno de sus pilares fundamentales. Tradicionalmente, los herbarios han sido utilizados para coleccionar, preservar y clasificar especies vegetales. Con la evolución de la tecnología y el auge de la visión artificial y el aprendizaje automático, es posible automatizar este proceso de clasificación, permitiendo una identificación más rápida y accesible de las especies de plantas a partir de imágenes. Este enfoque digital no solo agiliza el estudio de la biodiversidad, sino que también puede servir como herramienta educativa y de conservación.
En este proyecto nos centraremos en los datos disponibles en una competición de Kaggle (previamente en el congreso CVPR) disponible públicamente en:
https://www.kaggle.com/competitions/herbarium-2022-fgvc9/overview.
Los datos de esta competición hacen referencia al “Herbario 2022: Flora de América del Norte” que forma de un proyecto del Jardín Botánico de Nueva York financiado por la Fundación Nacional de Ciencias para construir herramientas para identificar nuevas especies de plantas en todo el mundo. El conjunto de datos se esfuerza por representar todos los taxones de plantas vasculares conocidos en América del Norte, utilizando imágenes recopiladas de 60 instituciones botánicas diferentes de todo el mundo. Esto se traduce en 1.05 millones de imágenes de 15,501 plantas vasculares, que constituyen más del 90% de los taxones documentados en América del Norte.
Un aspecto clave en este conjunto de datos es que la variable a predecir tiene una estructura jerárquica: familia - género – especie, la cual debemos explotar, sobre todo porque la cardinalidad de dichas variables “clase” es enorme: 272 familias, +2500 géneros y +6500 especies. Se trata por tanto de un problema muy complejo (no en vano fue una competición en uno de los congresos top10 de visión artificial).
La aplicación resultado del proyecto podría ser de utilidad para botánicos, estudiantes y entusiastas de la naturaleza.
Objetivos:
- Realizar un análisis de datos exploratorio para adquirir conocimiento útil de la misma de cara al proceso de aprendizaje automático.
- Aprender modelos basados en aprendizaje automático para realizar la clasificación de plantas a distintos niveles de la jerarquía.
- Plantear distintas opciones de “ataque” para el proceso de clasificación jerárquica, incluyendo la creación de un nivel superior a familia obtenido automáticamente y que permita simplificar el proceso inicial.
- Desarrollar una pequeña aplicación de escritorio que permita desplegar el modelo o mejores modelos aprendidos para poder ser usado en la clasificación de planta a partir de imágenes.
Metodología y Competencias
Metodología:
- Recolección de Datos: Preprocesar la base de datos disponible para obtener un conjunto de datos manejable desde el punto de vista académico: tiempo y recursos disponibles en un TFG.
- Preprocesamiento: Las imágenes serán procesadas para normalizar su tamaño, ajustar su iluminación y eliminar posibles ruidos. A través de técnicas de aumento de datos, se pueden generar variantes de las imágenes originales para enriquecer el conjunto de entrenamiento. Esto será de especial utilidad para las clases menos representadas.
- Selección de Modelos: Experimentar con diferentes modelos de aprendizaje automático y de visión por computadora, con un enfoque particular en redes neuronales convolucionales (CNNs), dada su eficacia probada en tareas de clasificación de imágenes.
- Establecer problemas de distinta complejidad: Plantear distintas opciones de “ataque” para el proceso de clasificación jerárquica, incluyendo la creación de un nivel superior a familia obtenido automáticamente y que permita simplificar el proceso inicial.
- Evaluación: Realizar una evaluación experimental exhaustiva de los distintos algoritmos considerados, utilizando las métricas apropiadas.
- Desarrollar una pequeña aplicación de escritorio que permita desplegar el modelo o mejores modelos aprendidos para poder ser usado en la clasificación de planta a partir de imágenes.
- Escritura de la memoria del TFG.
Competencias:
Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:
- Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
- Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
- Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
- Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
Medios a utilizar
Ordenadores personales, compiladores y entornos de programación. Servicios de tarjetas gráficas para el entrenamiento e inferencia de redes neuronales profundas. Todo disponible en la ESIIAB, I3A o mediante servicios en la nube.
Bibliografía
Libros y manuales de inteligencia artificial y aprendizaje automático. Libros y manuales de lenguajes de programación y librerías específicas de aprendizaje automático. Todo disponible en la ESIIAB o internet.
Tutores GAMEZ MARTIN, JOSE ANTONIO ALFARO JIMENEZ, JUAN CARLOS | Alumno SÁNCHEZ CALERO, PABLO
|
| |