El clasificador Naive Bayes es el más sencillo de los clasificadore bayesianos. En la factorización de la probabilidad conjunta asume las variables de entrada son condicionalmente independientes dada la clase. Esto permite reducir sustancialmente tanto el número de parámetros, como la complejidad del aprendizaje, que básicamente se reduce a la estimación de probabilidades bivariadas.
Pese a que la asunción de independencia condicional entre variables raramente se presenta en los datos reales, este clasificador obtiene resultados competitivos en muchos dominios, incluyendo aquellos en el que el número de variables de entrada es alto. Una de las causas de este rendimiento es que las variables irrelevantes, las que son independientes de la clase, no afectan el resultado del clasificador.
En este proyecto estudiaremos la eliminación de estas variables del modelo, y como afecta al rendimiento del mismo. Además, implementaremos una segunda etapa en el aprendizaje en la que de eliminar aquellas variables cuya ausencia no induzca una degradación en la tasa de acierto en el modelo original. Con estos procesos, se pretende minimizar en la medida de lo posible el número de parámetros en el clasificador Naive Bayes.
Aunque la complejidad espacial del modelo no es un problema con Naive Bayes, las técnicas desarrolladas se adaptarán al clasificador AODE, en el que el número de parámetros sí que constituye un problema crítico, que limita la escalabilidad.
[1] Apuntes de Minería de Datos.
[2] Tutorial de Numpy de la asignatura Desarrollo de Sistemas Inteligentes.
[3] Not So Naive Bayes: Aggregating One-Dependence Estimators G. Webb, J. Boughton, and Z. Wang. Machine Learning 58 (1): 5-24 (2005)