Boosting A-Ba2 Extra 21-22

Minería de datos II. Primera parte.
Examen convocatoria extraordinaria (Grupo A y BA2). Universidad Francisco de Vitoria
17 de junio del 2022
¡NO DES LA VUELTA AL EXAMEN HASTA QUE TE LO IN-

DIQUE EL PROFESOR!
• Lee atentamente los enunciados.
• Puedes utilizar todos los apuntes (en papel) que consideres.
• JUSTIFICA todas las respuestas. Aunque la solución sea correcta, si no existe justificación, no se
dará ningún punto.
• Utiliza dos decimales para los cálculos
• Una vez que comience el examen, dispondrás de 1 hora para finalizarlo.
• Se penalizarán hasta en 0.25 puntos las faltas de ortografía (palabras mal escritas, tildes faltantes,
etcétera) y la redacción confusa.
• Escribe todo el examen en las hojas en blanco que te facilitará el profesor. No se corregirá nada que
no aparezca en las hojas en blanco.
• El examen consta de 3 ejercicios que valen un total de 5 puntos. En cada apartado se indica entre
paréntesis la puntuación.
• Puedes responder los ejercicios en el orden que consideres, pero lo más natural es hacerlos en orden.
Siempre indica claramente el ejercicio y el apartado al que estás respondiendo.
• Cuando obtengas los resultados asegúrate de que tengan sentido.
• Y, por si acaso, ¡NO COPIES!
1
Justificación de los datos
En los último años, el área de sports analytics ha tenido un gran auge. En esta disciplina se aplican her-
ramientas del análisis de datos para poder tomar decisiones informadas que permitan mejorar los resultados
de aquellos quienes las utilizan.
Recientemente se ha jugado Roland Garros, uno de los 4 Grand Slam que se disputan en el deporte del tenis,
y, en unos días, se disputará Wimbledon.
Para comprobar la utilidad de sports analytics en el tenis, se ha generado un conjunto de datos con el
histórico de todos los partidos disputados en la ATP (asociación de tenistas profesionales) con métricas que
miden el rendimiento de cada jugador con el objetivo de poder llegar a predecir el ganador de un encuentro.
Ejercicio 1 (1 punto)
Dado que la juventud es un factor determinante en cualquier deporte, vamos a analizar cómo afecta para
alcanzar la mejor posición en el ranking de un jugador.
En el gráfico se muestra la trayectoria que han seguido en el ranking en función de su edad los jugadores que
han conseguido alcanzar el puesto número 1 en el top de la ATP del año 2000 en adelante.
Carlos Alcaraz es una de las revelaciones despuntando como uno de los mejores jugadores jóvenes. En el
gráfico se compara compara la trayectoria de cada jugador con la que está siguiendo Carlos Alcaraz en la
actualidad.
Evolución en el ranking hasta alcanzar

el top 1 por primera vez
Andy Murray Daniil Medvedev Juan Carlos Ferrero
1
5
10
20
30
20 22 24 26 28 30 20 22 24 26 20 22
Marat Safin Novak Djokovic Rafael Nadal

1
5 Carlos Alcaraz
Ranking
10
20
30
20 20 22 24 20 22
Roger Federer
1
5
10
20
30
20 22
Edad
Nota: cada línea termina la primera vez que un jugador alcanza el top 1.
Argumenta razonadamente si las siguientes afirmaciones son correctas:
2
1. Carlos Alcaraz es el jugador más joven en alcanzar un puesto en el top 10. (0.25)
2. Ningún jugador entró en el top 10 antes de la mayoría de edad. (0.25)
3. Ee jugador que más tarde alcanzó el top 10 fue Marat Safin. (0.25)
4. El jugador que más edad tenía cuando alcanzó el top 1 fue Daniil Medvedev. (0.25)
Ejercicio 2 (1 punto)
Se ha construido un conjunto de datos para predecir la edad a la que un jugador alcanza su mejor puesto en
el ranking de la ATP en función de diversas características.
El conjunto de datos original se ha dividido en dos conjuntos de entrenamiento y de test con un 70% y 30%
de los datos, respectivamente. Se han entrenado distintos modelos para los que se han obtenido los siguientes
resultados:
Modelo Hiperparámetro 1 Hiperparámetro 2 RMSE TRAIN RMSE TEST

Bagging 25 0.1 10 9.8
Bagging 25 0.01 7 7.3
Bagging 53 0.1 10.4 10.5
Bagging 53 0.01 6.2 6.4
KNN 1 - 0.2 10.6
KNN 10 - 3.7 4.8
KNN 17 - 5.8 6.1
KNN 21 - 4.8 4.8
Random Forest 25 4 3.3 3.1
Random Forest 53 6 3.5 3
Nota: para el Bagging, los hiperparámetros 1 y 2 son, respectivamente, el número de muestras

bootstrap y el coste de complejidad de los árboles; para el KNN, el hiperparámetro 1 se refiere
al número 𝑘 de vecinos; para el Random Forest los hiperparámetros 1 y 2 son, respectivamente,
el número de muestras bootstrap y el número de variables que se utilizan en cada corte.
Justifica la veracidad o falsedad de las siguientes afirmaciones.
1. Tanto el modelo de Bagging como el Random Forest se han entrenado utilizando un grid search. (0.25)
2. Tanto el modelo de Bagging como el Random Forest se pueden haber entrenado utilizando un random
search. (0.25)
3. Ninguno de los modelos entrenados presenta overfitting. (0.25)
4. Los modelos de Random Forest entrenados son mejores de forma consistente que el resto de modelos.
(0.25)
3
Ejercicio 3 (3 puntos)
Se ha elaborado un modelo de clasificación para predecir si un jugador va a ganar un partido (1) o no (-1)
teniendo en cuenta como variables predictoras las características del propio jugador, las de su rival y otras
(tipo de pista, condiciones meteorológicas, etcétera).
En la siguiente tabla se muestra información parcial sobre la sexta y séptima iteración del algoritmo Ad-
aBoost.
i 1 2 3 4 5
𝐷6 0.15 – 0.15 – 0.33
𝑦𝑖 +1 -1 +1 -1 +1
ℎ6 +1 – -1 -1 –
𝑒𝑥𝑝(−𝛼6 𝑦𝑖 ℎ6 ) 0.734 – – – –
𝐷7 – – – – 0.254
ℎ7 -1 +1 +1 -1 -1
Contesta a las siguientes preguntas:
1. Calcula el valor de 𝛼6 y 𝜖6 . (Aproxima el resultado a tres decimales) (0.5)

2. Rellena todos los huecos de la tabla anterior. (Justifica de dónde salen los valores; aunque los
valores sean correctos, si no hay justificación, no se dará ninguna puntuación.) (1)
3. Se ha entrenado otro AdaBoost de 7 iteraciones. Se quiere predecir el resultado para una nueva
6
observación 𝑥6 para la que se tiene que ∑𝑡=1 𝛼𝑡 ℎ𝑡 (𝑥6 ) = 0.795. Sabiendo que 𝛼7 = 0.256, ¿cuál será
la predicción para esta nueva observación?(0.75)
4. Responde razonadamente: ¿Un modelo AdaBoost será siempre mejor que cualquier otro modelo? (0.75)

Boosting A-Ba2 Extra 21-22

Cargado por

Copyright:

Formatos disponibles

Boosting A-Ba2 Extra 21-22

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Boosting A-Ba2 Extra 21-22

Cargado por

Copyright:

Formatos disponibles

Minería de datos II. Primera parte.

Examen convocatoria extraordinaria (Grupo A y BA2). Universidad Francisco de Vitoria

17 de junio del 2022

¡NO DES LA VUELTA AL EXAMEN HASTA QUE TE LO IN-

Evolución en el ranking hasta alcanzar

Marat Safin Novak Djokovic Rafael Nadal

Argumenta razonadamente si las siguientes afirmaciones son correctas:

Modelo Hiperparámetro 1 Hiperparámetro 2 RMSE TRAIN RMSE TEST

Nota: para el Bagging, los hiperparámetros 1 y 2 son, respectivamente, el número de muestras

Justifica la veracidad o falsedad de las siguientes afirmaciones.

Contesta a las siguientes preguntas:

1. Calcula el valor de 𝛼6 y 𝜖6 . (Aproxima el resultado a tres decimales) (0.5)

También podría gustarte