MUAVDM TIA PER9191 Tema03

Técnicas de Inteligencia Artificial
Óscar García
Tema 3. Árboles de Decisión

¿Cómo estudiar este tema?
Técnicas de Inteligencia Artificial – Óscar García 2

Introducción
ÁRBOLES DE
DECISIÓN

Introducción. Representación del conocimiento
mediante árboles de decisión
► Ejemplo: Problema "Jugar al aire libre", J.R. Quinlan (1986)
ÁRBOL DE DECISIÓN
Aprender la función objetivo

Entradas: atributos de las instancias
Salidas: clases o concepto a aprender
Función objetivo – Mapeo a reglas
SI ambiente es soleado
AND humedad es normal
OR ambiente es nublado
OR ambiente es lluvioso
AND viento es falso
ENTONCES jugar = Sí
SI ambiente es soleado
AND humedad es alta
OR ambiente es lluvioso
AND viento es verdadero
ENTONCES jugar = No
► Árbol de decisión: representación de la función objetivo como

una serie de condiciones consecutivas.
– Nodos: atributos (ej. Ambiente, Humedad, Viento).
– Arcos: valores de los atributos (ej. soleado, nublado o lluvioso para el
atributo Ambiente).
– Hojas: clases (ej. Sí o No).
– Rama: condiciones desde la raíz a la hoja unidas a través de
conjunciones (AND) y entre ramas a través de disyunciones (OR).

► Clasificación con el árbol de decisión:

– Comparar los valores de los atributos de una instancia cuya
clase es desconocida con las ramas del árbol de decisión.
Ambiente = soleado Ambiente = lluvioso
Temperatura = alta Temperatura = baja
Humedad = alta Humedad = alta
Viento = falso Viento = verdadero
¿Jugar al aire libre? No ¿Jugar al aire libre? No

► Divide el espacio de variables independientes en regiones
distintas y no superpuestas
Fuente: https://bookdown.org/content/2031/arboles-de-decision-parte-i.html

► ¿Cuándo son adecuados?

– Instancias representadas por pares atributos-valores.
– Atributos de entrada con valores nominales o numéricos.
– Valores de salida de la función objetivo discretos (nominales).
– Existen errores o valores de atributos desconocidos en datos de
entrenamiento.
► Árboles de Clasificación
– Variable dependiente categórica.
– Valores de nodos se reducen a la moda de las observaciones en
esa región.
► Árboles de Regresión
– Variable dependiente continua.
– Valores de nodos se reducen a la media de las observaciones en
esa región.

► Ventajas
– Fáciles de comprender y mapear a reglas.
– Trabajan con conjuntos de datos tanto numéricos como nominales.
– Trabajan con datos multidimensionales.
– No requieren conocimiento en un dominio dado ni establecer parámetros.
– Útiles para exploración de datos: identifica variables importantes.
– Método no paramétrico: sin suposiciones.
► Desventajas
– Los atributos de salida deben ser categorías: pérdida de información al
categorizar variables continuas.
– Sobreajuste.
– No se permiten múltiples atributos de salida.
– Si los datos son numéricos, los árboles pueden resultar muy complejos.
– Inestables: pequeños cambios en los datos pueden cambiar el árbol
notablemente.

Descripción de la tarea de inducción
Hipótesis del aprendizaje inductivo de conceptos:

Cualquier hipótesis que encaje «suficientemente» bien con un
conjunto «suficientemente» grande de ejemplos de entrenamiento
también encajará bien con instancias nuevas.
► Tarea de inducción del árbol de decisión: encontrar el árbol que
mejor encaje con los datos de ejemplo disponibles y ya clasificados.
► Espacio de hipótesis: conjunto de todos los árboles de decisión
posibles.
► Método de selección de atributos: criterio utilizado para generar las
diferentes ramas del árbol.
?

¿Cómo decide un árbol dónde ramificar?
► Decisión importante pues afecta altamente la precisión
del árbol.
► Los criterios de decisión son diferentes para árboles de
clasificación y regresión.
► La creación de subnodos incrementa la homogeneidad
de los subnodos resultantes.

► Se prueba la división con todas las variables y se
escoge la que produce subnodos más homogéneos.

► Varios algoritmos para decidir la ramificación: ID3,
CART, C4.5

Índice de Gini
Si seleccionamos aleatoriamente dos instancias de una

población, entonces estos deben ser de la misma clase y la
probabilidad de esto es 1 si la población es pura.
► Variable objetivo categórica.

► Divisiones binarias.
► Mayor índice Gini, mayor homogeneidad.
► CART (Classification and Regression Tree) usa el
método de Gini para la división binaria.

Chi Cuadrado
Significancia estadística de las diferencias entre subnodos

y un nodo padre.
► Variable objetivo categórica.

► Dos o más divisiones.
► A más alto valor de Chi-Cuadrado, más alta la
significancia estadística de las diferencias entre cada
nodo y el nodo padre.

Entropía
Un nodo menos impuro requiere menos información para

ser descrito mientras un nodo más impuro necesita más
información.
► Mide el grado de desinformación de un sistema.
► Muestra completamente homogénea = entropía 0.
► Muestra igualmente dividida (50% – 50%) = entropía 1.

Reducción de la varianza
Se utiliza para variables continuas.
► Problemas de regresión.
► Utiliza la varianza para escoger el criterio de división.
► La población se divide en función de la varianza más
baja.

► Algoritmo para construir el árbol de decisión si los ejemplos tienen

atributos de entrada nominales
PROCEDIMIENTO Inducir_Arbol (Ejemplos E, Lista_Atributos, Método_Selección_Atributos)
COMIENZO
P1 Crear un nodo N;
P2 SI todos los elementos de E pertenecen a la misma clase, C
ENTONCES Retornar N como nodo hoja etiquetado con la clase C
P3 SI_NO SI la lista de atributos (Lista_Atributos) está vacía
ENTONCES Retornar N como nodo hoja etiquetado con la clase más numerosa en los ejemplos
P4 SI_NO Aplicar Método_Selección_Atributos(E, Lista_Atributos) para seleccionar el
atributo A que mejor particiona E
P5 Borrar Atributo A de la lista de Atributos Lista_Atributos
P6 Etiquetar N con el atributo seleccionado
P7 PARA CADA valor V de A
Siendo Ev el subconjunto de elementos en E con valor V en el atributo A.
P8 SI Ev está vacío
ENTONCES unir al nodo N una hoja etiquetada con la clase mayoritaria en E.
P9 SINO unir al nodo N el nodo retornado de Inducir_Arbol (Ev, Lista_Atributos,
Método_Selección_Atributos)
FIN PARA CADA
FIN SI-SI_NO
FIN

► Ejemplo: Problema "Jugar al aire libre", J.R. Quinlan (1986)

Conjunto de
datos de
entrenamiento
14 instancias 4 Atributos de entrada: Clase (o atributo de salida):

E = {E1, E2, … E14} Ambiente {soleado, nublado, lluvioso} {Sí, No}
Temperatura {alta, media, baja}
Humedad {alta, normal}
Viento {verdadero, falso}
Lista_Atributos = {Ambiente, Temperatura, Humedad, Viento}
► Aplicación del algoritmo para construir el árbol de decisión

Lista_Atributos = {Ambiente,
E = {E1, E2, … E14} Temperatura, Humedad, Viento}

COMIENZO
P1 Crear un nodo N;
N
FALSO {Sí, No}
P2 SI todos los elementos de E pertenecen a la misma clase, C
ENTONCES Retornar N como nodo hoja etiquetado con la clase C,
FALSO Lista_Atributos = {Ambiente,

Temperatura, Humedad, Viento}
P3 SI_NO SI la lista de atributos (Lista_Atributos) está vacía

A = Ambiente


A = Ambiente
P5 Borrar Atributo A de la lista de Atributos Lista_Atributos
Lista_Atributos = {Temperatura, Humedad, Viento}
Ambiente
V(A) = {soleado,
PARA CADA valor V de A nublado, lluvioso}
Ambiente
soleado nublado lluvioso


PARA CADA valor V de A V = soleado
P7 Siendo Ev el subconjunto de elementos en E con valor V en el atributo A.
Ev = {E1, E2, E8, E9, E11}
P8 SI Ev está vacío FALSO

P9 SI_NO unir al nodo N el nodo retornado de Inducir_Arbol (Ev, Lista_Atributos,

Método_Selección_Atributos) Volver al P1 con E = Ev =
{E1, E2, E8, E9, E11} Ambiente
y Lista_Atributos =
{Temperatura, Humedad, soleado nublado lluvioso
Viento}
y continuar… …


Lista_Atributos = {Temperatura,
E = Ev = {E1, E2, E8, E9, E11} Humedad, Viento}

COMIENZO
P1 Crear un nodo N;
N
P2 SI todos los elementos de E pertenecen a la misma clase, C FALSO

ENTONCES Retornar N como nodo hoja etiquetado con la clase C
P3 SI_NO SI la lista de atributos (Lista_Atributos) está vacía FALSO
Humedad
P5 Borrar Atributo A de la lista de Atributos Lista_Atributos Lista_Atributos =

{Temperatura, Viento}
Humedad


PARA CADA valor V de A Humedad
alta normal
PARA V = alta
Ev = {E1, E2, E8}

Método_Selección_Atributos) Volver al P1 con E = Ev = Humedad
{E1, E2, E8} y
Lista_Atributos = alta normal
{Temperatura, Viento}
y continuar… …


E = Ev = {E1, E2, E8} Lista_Atributos = {Temperatura, Viento}

COMIENZO
P1 Crear un nodo N;
N
VERDADERO
P2 SI todos los elementos de E pertenecen a la misma clase, C C = No
Retornar
No


Nodo retornado
No

Humedad
alta normal
No
Continuamos en PARA CADA con V= normal …
Retornar
Humedad
alta normal
No Sí


Humedad
alta normal
Nodo retornado
No Sí

Ambiente
Soleado nublado lluvioso
Humedad
alta normal
No Sí
Continuamos en PARA CADA con V= nublado …


PARA CADA valor V de A V = nublado
Ev = {E3, E7, E12, E13}



Método_Selección_Atributos) Volver al P1 con E =
Ev = {E3, E7, E12,
E13} y Lista_Atributos
= {Temperatura,
Humedad, Viento}
y continuar…
Ambiente
Humedad …
alta normal
No Sí


Lista_Atributos = {Temperatura,
E = Ev = {E3, E7, E12, E13} Humedad, Viento}

COMIENZO
P1 Crear un nodo N;
N
VERDADERO
P2 SI todos los elementos de E pertenecen a la misma clase, C C = Sí
Retornar
Sí


Nodo retornado
Sí

Ambiente
Soleado nublado lluvioso
Humedad
Sí
alta normal
No Sí
Continuamos en PARA CADA con V= lluvioso …

Algoritmo básico de aprendizaje de árboles de
decisión: ID3
► Algoritmo del tipo «divide-y-vencerás»
► Método codicioso (greedy): sin retroceso

► Construcción del árbol de arriba abajo
► Método de selección de atributos basado en la teoría de la

información
– El atributo cuyo conocimiento aporta mayor información en la
clasificación es el más útil.
– Método de selección de atributos: Ganancia de Información
(métrica basada en la entropía).

decisión: ID3
► Entropía: caracteriza la heterogeneidad de un conjunto de ejemplos.
– Entropía del conjunto de ejemplos E respecto a la clase C
n número de valores que puede tomar la clase C

pi la proporción de ejemplos de E que pertenecen a la clase i
– 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝐸) = 0 si todos los miembros del conjunto E

pertenecen a la misma clase.
– 𝐸𝑛𝑡𝑟𝑜𝑝í𝑎(𝐸) = 1 si se tiene un mismo número de ejemplos

positivos y negativos (clasificación binaria)

decisión: ID3
► Ganancia de información: mide la efectividad de un atributo para
clasificar ejemplos.
– Específicamente mide la reducción de entropía al distribuir los
ejemplos de acuerdo a los valores de un atributo
– Siendo un atributo A con Va posibles valores y un conjunto de

ejemplos E

decisión: ID3
► Ejemplo: Método de selección de atributos
Lista_Atributos = {Ambiente,
E = {E1, E2, … E14} Temperatura, Humedad, Viento}

A = Ambiente
Ambiente
Ganancia (E, Ambiente) = max [

Ganancia (E, Ambiente),
Ganancia (E, Temperatura),
Ganancia (E, Humedad),
Ganancia (E, Viento) ]

decisión: ID3
9 veces la clase Sí en 5 veces la clase No en

E = {E1, E2, … E13} E = {E1, E2, … E13}

decisión: ID3
A = ambiente Va = {soleado, nublado, lluvioso}
v = soleado
Ev = Esoleado= 2 Sí en Ev 3 No en Ev
{E1, E2, E8,
E9, E11}
Entropia(Esoleado) = - 2/5 log 2/5 - 3/5 log 3/5
= 0,9709

decisión: ID3
v = nublado
Ev = Enublado= 4 Sí en Ev 0 No en Ev
{E3, E7, E12,
E13} Entropia(Enublado) = - 4/4 log 4/4 - 0 log 0
=0

decisión: ID3
v = lluvioso
Ev = Elluvioso= 3 Sí en Ev 2 No en Ev
{E4, E5, E6,
E10, E14} Entropia(Elluvioso) = - 3/5 log 3/5 - 2/5 log 2/5
= 0,9709

decisión: ID3
Entropia(E) = 0,9402 Entropia(Esoleado) Entropia(Enublado) Entropia(Elluvioso)

= 0,9709 =0 = 0,9709
Ganancia (E, Ambiente) = max [

A = temperatura Va = {alta, media, baja} Ganancia (E, Ambiente),
à Ganancia (E, Temperatura) = 0,029 Ganancia (E, Temperatura),
A = humedad Va = {alta, normal} Ganancia (E, Humedad),
à Ganancia (E, Humedad) = 0,151 Ganancia (E, Viento) ]
A = viento Va = {verdadero, falso}
à Ganancia (E, Viento) = 0,048 Ambiente

decisión: ID3
max [ Ganancia (Esoleado, Temperatura),

Ganancia (Esoleado, Humedad),
Ganancia (Esoleado, Viento) ]
Esoleado=
{E1, E2, E8, E9, E11}

Espacio de búsqueda y bias inductivo
► Problema de construcción de árboles de decisión: búsqueda por el

espacio de hipótesis hasta encontrar el árbol que encaja con los
ejemplos de entrenamiento.
► Ventajas de ID3:
– Trabaja en un espacio de hipótesis completo.
– Robusto frente a errores.
► Inconvenientes de ID3:
– No trabaja con varias soluciones simultáneamente → riesgo de
construir el árbol que no es la mejor solución.
– No da marcha atrás → riesgo de converger hacia una solución
óptima local.
– Más carga computacional que una solución incremental.

Espacio de búsqueda y bias inductivo
► Bías Inductivo
– ¿En qué se basan los algoritmos para generalizar el árbol de
decisión? Es decir, para considerar que el árbol clasificará
correctamente instancias no utilizadas en la etapa de
aprendizaje.
– Conjunto de todos los Factores que permiten Realizar y
Seleccionar las Hipótesis más adecuadas.
► Bías Inductivo en ID3
– Preferencia por árboles cortos frente a largos.
– Preferencia por árboles que sitúan los atributos de mayor.
ganancia de información cerca de la raíz.
– El preferir árboles cortos puede mejorar la generalización, puesto
que hay hipótesis complejas que encajan muy bien con los datos
de entrenamiento pero que no generalizan correctamente datos
futuros.
Entrenamiento y validación
► Validación cruzada (cross-validation)

– Estimar el ajuste del modelo a un hipotético conjunto de datos de
prueba cuando no se dispone de este conjunto de datos de prueba de
manera explícita.
– Dividir el conjunto de ejemplos disponibles en un conjunto de datos de
entrenamiento y un conjunto de datos de validación:
• Datos de entrenamiento: se utilizan para generar el árbol.
• Datos de validación: se utilizan para validar la precisión del árbol
generado sobre datos futuros.
► Validación cruzada de k iteraciones (k-fold cross-validation)
– Dividir los datos en k subconjuntos de igual tamaño
– Utilizar un subconjunto como datos de prueba (o validación)
– Utilizar k-1 subconjuntos como datos de entrenamiento
– Repetir la validación cruzada k veces
– Realizar la media de los resultados

Fuente: https://bookdown.org/content/2031/arboles-de-decision-parte-i.html#conceptos-introductorios


Sobreajuste y poda de árboles
► ¿Cómo se puede saber cuál es el tamaño de árbol

adecuado?
– La etapa de validación permite evaluar la efectividad de la
poda para clasificar instancias futuras.
Fuente: Elena Verdú, UNIR

► Sobreajuste - Overfitting

► Estrategias para evitar sobreajuste
► Pospoda de reglas
– Generación del árbol de decisión a partir de los datos de
entrenamiento.
– Conversión del árbol en un conjunto de reglas.
– Poda cada regla eliminando las condiciones en el antecedente que
suponen mejorar la precisión en la clasificación.
– Ordenar las reglas en función de la precisión estimada
• Las futuras instancias se clasifican en función de la primera regla
que satisfacen, ordenadas en ese orden.

Simplificación de árboles de decisión mediante
poda: algoritmo C4.5
► Características:
– Método de aprendizaje de árboles de decisión basado en ID3
– Se puede aplicar a datos con atributos de valores tanto
discretos como continuos
– Puede trabajar con datos ausentes
– Método de selección de atributos: medida de proporción de
ganancia (basada en la ganancia de información y
proporciona mejores resultados si los atributos tienen muchos
posibles valores)
► Realiza una poda tras la generación del árbol (pospoda) con el fin
de mejorar la generalización del modelo: elimina nodos que al
podar mejoran la precisión en la clasificación.

Ensemble learning o aprendizaje integrado
► Actualmente, los métodos más modernos y maduros utilizados

para obtener los resultados más precisos en entornos de
producción, además de las redes neuronales, son los métodos
ensemble learning.
► En los métodos de aprendizaje integrado, la idea es unir un
conjunto de algoritmos ineficientes en los que cada uno
colabora corrigiendo los errores del resto del conjunto.
► De esta manera, se consigue una calidad general más alta que
la de los mejores algoritmos individuales que trabajan de
forma aislada.

Ensemble learning: stacking

Ensemble learning: bagging (ej: random forest)

Ensemble learning: boosting

Sesgo (bias) y varianza
Sesgo
Diferencia entre valor medio predicho y valor medio real.
Varianza
Diferencia entre los modelos resultantes al entrenar el sistema.

Sesgo
Diferencia entre valor medio predicho y valor medio real.
Varianza
Diferencia entre los modelos resultantes al entrenar el sistema.
Fuente: https://keepler.io/es/2021/03/la-dicotomia-sesgo-varianza-en-modelos-de-machine-learning/

Fuente: https://keepler.io/es/2021/03/la-dicotomia-sesgo-varianza-en-modelos-de-machine-learning/

Medidas de la precisión de la clasificación
► Se utiliza un conjunto de ejemplos de los disponibles (datos de

prueba) para evaluar la hipotética efectividad de la clasificación de
instancias futuras por un árbol de decisión inducido.
► ¿Cómo podemos estimar la precisión real en la clasificación

de futuras instancias?
– Se confía más en una clasificación inducida a partir de un
conjunto más numeroso de datos de entrenamiento.
– Se confía más en una validación que utiliza un numeroso
conjunto de datos de prueba.

► Matriz de confusión:
► En inglés: TP, FN, FP, TN

► Exactitud (accuracy) (ACC): proximidad del resultado de una medición del valor verdadero.
𝑇𝑃 + 𝑇𝑁
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑃+𝑁
► Precisión (precisión): dispersión. Menor dispersión, mayor precisión.
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 =
𝑇𝑃 + 𝐹𝑃
► Sensibilidad (recall) o Razón de Verdaderos Positivos (TPR): proporción de casos positivos
que fueron correctamente identificados.
𝑇𝑃
𝑇𝑃𝑅 =
𝑇𝑃 + 𝐹𝑁
► Especificidad (SPC) o Razón de Verdaderos Negativos (TNR): casos negativos que fueron
clasificados correctamente (cuan bien puede el modelo detectar esa clase).
𝑇𝑁
𝑆𝑃𝐶 =
𝐹𝑃 + 𝑇𝑁
► Razón de falsos positivos (FPR) = 1 – SPC: probabilidad de que la prueba pase por alto un
verdadero positivo.
!"
𝐹𝑃𝑅 = !"#$%
= 1 − 𝑆𝑃𝐶

Para cada clase:

► Alta precisión y alto recall: el modelo maneja perfectamente esa
clase.
► Alta precisión y bajo recall: el modelo no detecta la clase muy
bien, pero cuando lo hace es altamente confiable.
► Baja precisión y alto recall: El modelo detecta bien la clase,
pero también incluye muestras de la otra clase.
► Baja precisión y bajo recall: El modelo no logra clasificar la
clase correctamente.

► La precisión es un gran estadístico, pero es útil únicamente
cuando se tienen datasets simétricos (la cantidad de casos de la
clase 1 y de las clase 2 tienen magnitudes similares)
► Mayor precisión para conocer qué tan seguro se está de los
verdaderos positivos, La sensibilidad sirve para saber si no se
están perdiendo positivos.
► Falsas Alarmas: sensibilidad alta si es mejor tener falsos
positivos que falsos negativos. Si los falsos negativos sonc
inaceptable pero no importa tener falsos positivos (falsas
alarmas).

► Se utiliza la precisión si se quiere estar más seguro de los
verdaderos positivos (p.e., correos electrónicos no deseados).
► Alta Especificidad si se desea identificar los verdaderos
negativos, no se desean falsos positivos (p.e. conductores y las
pruebas de alcoholemia).
► Con clases desiguales se suele emplear la métrica F1. Esta
métrica resume la precisión y sensibilidad en una sola métrica:
2 𝑥 𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑥 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑
𝐹1 𝑆𝑐𝑜𝑟𝑒 =
𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 + 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑

Referencias rápidas…
► https://www.kaggle.com/code/prashant111/decision-tree-classifier-
tutorial
► https://www.kaggle.com/code/faressayah/decision-trees-random-
forest-for-beginners
► https://www.datacamp.com/tutorial/random-forests-classifier-
python
► https://towardsdatascience.com/decision-trees-for-classification-
complete-example-d0bc17fcf1c2

Ejemplos con Python
► Tomaremos el dataset iris de Fisher

– https://www.openml.org/d/61
– https://www.openml.org/data/get_csv/61/dataset_61_iris.arff
– Cuatro características
• Longitud y anchura de pétalo
• Longitud y anchura de sépalo
– Tres tipos de flores (clases)
• Iris setosa (50)
• Iris virginica (50)
• Iris versicolor (50)
Largo de sépalo Ancho de sépalo Largo de pétalo Ancho de pétalo Especies

5.1 3.5 1.4 0.2 I. setosa
4.9 3.0 1.4 0.2 I. setosa
4.7 3.2 1.3 0.2 I. setosa

Ejemplos con Python
► pip install pandas
► pip install scikit-learn
– CART optimizado
– Aunque sólo para variables numéricas
► pip install matplotlib
► pip install graphviz
– https://www.graphviz.org/download/
– También será necesario incluir la ruta al ejecutable en nuestro PATH, por ejemplo, en Windows 10 esto
se realizaría en Panel de Control → Sistema → Configuración avanzada del sistema → Variables de
entorno, y ahí editar la variable PATH añadiendo, por ejemplo:
– C:\Program Files (x86)\Graphviz2.38\bin
► pip install pydotplus

Ejemplos con Python

Ejemplos con Python: explorando los datos
# Load libraries
from pandas import read_csv
url = "https://www.openml.org/data/get_csv/61/dataset_61_iris.arff"
# La siguiente línea no es necesaria usando esta fuente, pues ya incluye la
# cabecera
#names = ['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class']
#dataset = read_csv(url, names=names)
dataset = read_csv(url)
# mostramos la "forma", debería haber 150 entradas con 5 atributos cada una
print(dataset.shape)
#> (150 , 5)
# mostramos las 3 primeras entradas para echar un vistazo

print(dataset.head(3))
#> sepallength sepalwidth petallength petalwidth class
#>0 5.1 3.5 1.4 0.2 Iris-setosa
#>1 4.9 3.0 1.4 0.2 Iris-setosa
#>2 4.7 3.2 1.3 0.2 Iris-setosa

# mostramos un resumen estadístico de los datos
print(dataset.describe())
#> sepallength sepalwidth petallength petalwidth
#>count 150.000000 150.000000 150.000000 150.000000
#>mean 5.843333 3.054000 3.758667 1.198667
#>std 0.828066 0.433594 1.764420 0.763161
#>min 4.300000 2.000000 1.000000 0.100000
#>25% 5.100000 2.800000 1.600000 0.300000
#>50% 5.800000 3.000000 4.350000 1.300000
#>75% 6.400000 3.300000 5.100000 1.800000
#>max 7.900000 4.400000 6.900000 2.500000
# distribución por clases

print(dataset.groupby('class').size())
#>Iris-setosa 50
#>Iris-versicolor 50
#>Iris-virginica 50
#>dtype: int64

# Load libraries
from pandas.plotting import scatter_matrix
from matplotlib import pyplot
# La siguiente línea no es necesaria usando esta fuente, pues ya incluye la
# cabecera
#names = ['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class']
#dataset = read_csv(url, names=names)
# gráficos univariable:
# diagramas de caja (box and whisker)
dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=Fal
se)
pyplot.show()
# histogramas
dataset.hist()
pyplot.show() # gráficos multivariable
# matriz de dispersión
scatter_matrix(dataset)
pyplot.show()




Ejemplos con Python: comparativa de algoritmos
► Para ello, separaremos nuestro dataset: usaremos un 80% de

los datos para entrenar los algoritmos y un 20% de los datos
para hacer los tests de predicción.
– Ésta suele ser una proporción habitual.
► Además, utilizaremos una validación cruzada estratificada de

10 veces (k-fold) para estimar la precisión del modelo.

# Load libraries
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
# Cargamos el dataset
# Dividimos el dataset en 80% de datos para entrenar y 20% para test

array = dataset.values
X = array[:,0:4]
y = array[:,4]
X_train, X_validation, Y_train, Y_validation = train_test_split(X, y
, test_size=0.20, random_state=1, shuffle=True)

# Cargamos los algoritmos
models = []
models.append(('LR', LogisticRegression(solver='liblinear', multi_cl
ass='ovr')))
models.append(('CART', DecisionTreeClassifier()))
# evaluamos cada modelo por turnos

results = []
names = []
for name, model in models:
kfold = StratifiedKFold(n_splits=10, random_state=1)
cv_results = cross_val_score(model, X_train, Y_train, cv=kfold,
scoring='accuracy')
results.append(cv_results)
names.append(name)
print('%s: %f (%f)' % (name, cv_results.mean(), cv_results.std()
))

# Comparación de algoritmos
pyplot.boxplot(results, labels=names)
pyplot.title('Comparación de algoritmos')
pyplot.show()
#>LR: 0.941667 (0.065085)

#>CART: 0.950000 (0.040825)

Ejemplos con Python: test de árboles de decisión
# Load libraries
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
X = array[:,0:4]
y = array[:,4]

X = array[:,0:4]
y = array[:,4]
# Realizamos predicciones con el dataset de validación

model = DecisionTreeClassifier()
model.fit(X_train, Y_train)
predictions = model.predict(X_validation)
# Evaluamos las predicciones, en primer lugar la precisión obtenida

print(accuracy_score(Y_validation, predictions))
#> 0.9666666666666667

# ahora la matriz de confusión (vemos en este ejemplo que sólo hemos
cometido un fallo)
print(confusion_matrix(Y_validation, predictions))
#>[[11 0 0]
#> [ 0 12 1]
#> [ 0 0 6]]
# y finalmente un informe de clasificación

print(classification_report(Y_validation, predictions))
#> precision recall f1-score support
#>
#> Iris-setosa 1.00 1.00 1.00 11
#>Iris-versicolor 1.00 0.92 0.96 13
#> Iris-virginica 0.86 1.00 0.92 6
#>
#> accuracy 0.97 30
#> macro avg 0.95 0.97 0.96 30
#> weighted avg 0.97 0.97 0.97 30

# realizamos una predicción de ejemplo:
print(model.predict([[6.0, 3.0, 5.0, 2.0]]))
#>['Iris-virginica']

Ejemplos con Python: visualizando el árbol
# Load libraries
import matplotlib.pyplot as plt
import matplotlib.image as pltimg
import pydotplus
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn import tree

X = array[:,0:4]
y = array[:,4]
# Realizamos predicciones con el dataset de validación

model = DecisionTreeClassifier()
model.fit(X_train, Y_train)
predictions = model.predict(X_validation)
# damos detalles sobre el modelo

print(model)

# mostramos el árbol gráifcamente
data = tree.export_graphviz(model, out_file=None, feature_names=data
set.columns.values[0:4], class_names=["setosa", "versicolor", "virgi
nica"], filled=True, rounded=True, special_characters=True)
graph = pydotplus.graph_from_dot_data(data)
graph.write_png('mydecisiontree.png')
img = pltimg.imread('mydecisiontree.png')
imgplot = plt.imshow(img)
plt.show()


DecisionTreeClassifier(ccp_alpha=0.0,
class_weight=None,
criterion='gini',
max_depth=None,
max_features=None,
max_leaf_nodes=None,
min_impurity_decrease=0.0,
min_impurity_split=None,
min_samples_leaf=1,
min_samples_split=2,
min_weight_fraction_leaf=0.0,
presort='deprecated',
random_state=None,
splitter='best')

Resumen

Gracias por vuestra atención
¿Dudas?
Imagen por Peggy und Marco Lachmann-Anke

Licencia: Creative Commons Zero

www.unir.net
Técnicas de Inteligencia Artificial
Ricardo S. Alonso Rincón
Anexo. Métricas para medir la precisión de un

modelo clasificador


P (positivos):
instancias
de la clase yes
TP (Verdaderos positivos):
Instancias positivas (de la clase yes) clasificadas
correctamente como positivas (clasificadas como yes) Fuente: Elena Verdú, UNIR

N (negativos):
instancias de la clase no
TN (Verdaderos negativos):
instancias negativas (de la clase no) clasificadas
correctamente como negativas (clasificadas como no) Fuente: Elena Verdú, UNIR

TP + TN
TP FN P = TP + FN
FP TN P+N
N = TN + FP
TP: Verdadero positivo → clasificado de forma verdadera (correcta) como positivo,
FP + FN
por tanto era un positivo y se clasifica como positivo.
FN: Falso negativo → clasificado de forma falsa (incorrecta) como negativo,
por tanto era un positivo y se clasifica como negativo.
TN: Verdadero negativo → clasificado de forma verdadera (correcta) como negativo, P+N
por tanto era un negativo y se clasifica como negativo.
FP: Falso positivo → clasificado de forma falsa (incorrecta) como positivo,
por tanto era un negativo y se clasifica como positivo. Fuente: Elena Verdú, UNIR

TP
TP TP + FP
FP
TP (Verdaderos positivos):
Instancias positivas (de la clase yes) clasificadas correctamente (clasificadas como yes)
FP (Falsos positivos):
Instancias negativas (de la clase no) clasificadas incorrectamente (clasificadas como yes)


Weka: TP Rate (también llamado recall, alcance o sensibilidad)
► TP Rate para la clase yes
TP

► TP Rate para la clase no
TP

► Media ponderada del TP Rate

Weka: TN Rate (también llamado especificidad)
► TN Rate para la clase yes
TN
TN Rate para la clase yes = TP Rate para la clase no

Weka: TN Rate (también llamado especificidad)
► TN Rate para la clase no
TN
TN Rate para la clase no = TP Rate para la clase yes

Weka: FP Rate
► FP Rate para la clase yes
FP

Weka: FP Rate
► FP Rate para la clase no
FP

Weka: Precisión
► Precisión para la clase yes
TP
FP

Weka: Precisión
► Precisión para la clase no
FP
TP

Weka: F-Measure
► F-measure para la clase yes

Weka: F-Measure
► F-measure para la clase no

Weka: Exactitud (accuracy)
► Exactitud
TP FN P = TP + FN
FP TN N = TN + FP

Weka: Tasa de error
► Tasa de error
TP FN P = TP + FN
FP TN N = TN + FP

MUAVDM TIA PER9191 Tema03

Cargado por

Copyright:

Formatos disponibles

MUAVDM TIA PER9191 Tema03

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

MUAVDM TIA PER9191 Tema03

Cargado por

Copyright:

Formatos disponibles

Técnicas de Inteligencia Artificial

Tema 3. Árboles de Decisión

Técnicas de Inteligencia Artificial – Óscar García 2

Técnicas de Inteligencia Artificial – Óscar García 3

► Ejemplo: Problema "Jugar al aire libre", J.R. Quinlan (1986)

Aprender la función objetivo

► Árbol de decisión: representación de la función objetivo como

Técnicas de Inteligencia Artificial – Óscar García 5

► Clasificación con el árbol de decisión:

Técnicas de Inteligencia Artificial – Óscar García 6

Técnicas de Inteligencia Artificial – Óscar García 7

► ¿Cuándo son adecuados?

Técnicas de Inteligencia Artificial – Óscar García 8

Técnicas de Inteligencia Artificial – Óscar García 9

Hipótesis del aprendizaje inductivo de conceptos:

Técnicas de Inteligencia Artificial – Óscar García 10

de los subnodos resultantes.

escoge la que produce subnodos más homogéneos.

Técnicas de Inteligencia Artificial – Óscar García 11

Si seleccionamos aleatoriamente dos instancias de una

► Variable objetivo categórica.

Técnicas de Inteligencia Artificial – Óscar García 12

Significancia estadística de las diferencias entre subnodos

► Variable objetivo categórica.

Técnicas de Inteligencia Artificial – Óscar García 13

Un nodo menos impuro requiere menos información para

► Muestra completamente homogénea = entropía 0.

► Muestra igualmente dividida (50% – 50%) = entropía 1.

Técnicas de Inteligencia Artificial – Óscar García 14

Se utiliza para variables continuas.

Técnicas de Inteligencia Artificial – Óscar García 15

► Algoritmo para construir el árbol de decisión si los ejemplos tienen

Técnicas de Inteligencia Artificial – Óscar García 16

► Ejemplo: Problema "Jugar al aire libre", J.R. Quinlan (1986)

14 instancias 4 Atributos de entrada: Clase (o atributo de salida):

► Aplicación del algoritmo para construir el árbol de decisión

PROCEDIMIENTO Inducir_Arbol (Ejemplos E, Lista_Atributos, Método_Selección_Atributos)

FALSO Lista_Atributos = {Ambiente,

P4 SI_NO Aplicar Método_Selección_Atributos(E, Lista_Atributos) para seleccionar el

Técnicas de Inteligencia Artificial – Óscar García 18

► Aplicación del algoritmo para construir el árbol de decisión

P6 Etiquetar N con el atributo seleccionado

soleado nublado lluvioso

Técnicas de Inteligencia Artificial – Óscar García 19

► Aplicación del algoritmo para construir el árbol de decisión

P7 Siendo Ev el subconjunto de elementos en E con valor V en el atributo A.

Ev = {E1, E2, E8, E9, E11}

P8 SI Ev está vacío FALSO

P9 SI_NO unir al nodo N el nodo retornado de Inducir_Arbol (Ev, Lista_Atributos,

Técnicas de Inteligencia Artificial – Óscar García 20

► Aplicación del algoritmo para construir el árbol de decisión

PROCEDIMIENTO Inducir_Arbol (Ejemplos E, Lista_Atributos, Método_Selección_Atributos)

P2 SI todos los elementos de E pertenecen a la misma clase, C FALSO

P5 Borrar Atributo A de la lista de Atributos Lista_Atributos Lista_Atributos =

P6 Etiquetar N con el atributo seleccionado

Técnicas de Inteligencia Artificial – Óscar García 21

► Aplicación del algoritmo para construir el árbol de decisión

Ev = {E1, E2, E8}

P8 SI Ev está vacío FALSO