Sports">
Boosting A-Ba2 Extra 21-22
Boosting A-Ba2 Extra 21-22
Boosting A-Ba2 Extra 21-22
1
Justificación de los datos
En los último años, el área de sports analytics ha tenido un gran auge. En esta disciplina se aplican her-
ramientas del análisis de datos para poder tomar decisiones informadas que permitan mejorar los resultados
de aquellos quienes las utilizan.
Recientemente se ha jugado Roland Garros, uno de los 4 Grand Slam que se disputan en el deporte del tenis,
y, en unos días, se disputará Wimbledon.
Para comprobar la utilidad de sports analytics en el tenis, se ha generado un conjunto de datos con el
histórico de todos los partidos disputados en la ATP (asociación de tenistas profesionales) con métricas que
miden el rendimiento de cada jugador con el objetivo de poder llegar a predecir el ganador de un encuentro.
Ejercicio 1 (1 punto)
Dado que la juventud es un factor determinante en cualquier deporte, vamos a analizar cómo afecta para
alcanzar la mejor posición en el ranking de un jugador.
En el gráfico se muestra la trayectoria que han seguido en el ranking en función de su edad los jugadores que
han conseguido alcanzar el puesto número 1 en el top de la ATP del año 2000 en adelante.
Carlos Alcaraz es una de las revelaciones despuntando como uno de los mejores jugadores jóvenes. En el
gráfico se compara compara la trayectoria de cada jugador con la que está siguiendo Carlos Alcaraz en la
actualidad.
20
30
20 22 24 26 28 30 20 22 24 26 20 22
10
20
30
20 20 22 24 20 22
Roger Federer
1
5
10
20
30
20 22
Edad
Nota: cada línea termina la primera vez que un jugador alcanza el top 1.
2
1. Carlos Alcaraz es el jugador más joven en alcanzar un puesto en el top 10. (0.25)
2. Ningún jugador entró en el top 10 antes de la mayoría de edad. (0.25)
3. Ee jugador que más tarde alcanzó el top 10 fue Marat Safin. (0.25)
4. El jugador que más edad tenía cuando alcanzó el top 1 fue Daniil Medvedev. (0.25)
Ejercicio 2 (1 punto)
Se ha construido un conjunto de datos para predecir la edad a la que un jugador alcanza su mejor puesto en
el ranking de la ATP en función de diversas características.
El conjunto de datos original se ha dividido en dos conjuntos de entrenamiento y de test con un 70% y 30%
de los datos, respectivamente. Se han entrenado distintos modelos para los que se han obtenido los siguientes
resultados:
1. Tanto el modelo de Bagging como el Random Forest se han entrenado utilizando un grid search. (0.25)
2. Tanto el modelo de Bagging como el Random Forest se pueden haber entrenado utilizando un random
search. (0.25)
3. Ninguno de los modelos entrenados presenta overfitting. (0.25)
4. Los modelos de Random Forest entrenados son mejores de forma consistente que el resto de modelos.
(0.25)
3
Ejercicio 3 (3 puntos)
Se ha elaborado un modelo de clasificación para predecir si un jugador va a ganar un partido (1) o no (-1)
teniendo en cuenta como variables predictoras las características del propio jugador, las de su rival y otras
(tipo de pista, condiciones meteorológicas, etcétera).
En la siguiente tabla se muestra información parcial sobre la sexta y séptima iteración del algoritmo Ad-
aBoost.
i 1 2 3 4 5
𝐷6 0.15 – 0.15 – 0.33
𝑦𝑖 +1 -1 +1 -1 +1
ℎ6 +1 – -1 -1 –
𝑒𝑥𝑝(−𝛼6 𝑦𝑖 ℎ6 ) 0.734 – – – –
𝐷7 – – – – 0.254
ℎ7 -1 +1 +1 -1 -1