Science">
Apunte Deteccion y Estimacion
Apunte Deteccion y Estimacion
Apunte Deteccion y Estimacion
Lerko Araya H.
Francisco Casado C.
Constanza Villegas M.
13 de abril de 2020
Introducción VI
1 Fundamentos de Detección 1
1.1. Introducción 1
1.2. Definiciones básicas 2
1.3. Neyman-Pearson 5
1.3.1. Test de Razón de Verosimulitud 6
1.4. Curvas ROC para determinar el mejor test 9
1.4.1. Test compuestos y múltiples hipótesis 11
1.5. Riesgo Bayesiano 12
1.5.1. Clasificación por mı́nimo riesgo 12
Problemas Resueltos 14
III
Bibliografı́a del capı́tulo 17
2.1. Motivación 19
2.2. Análisis PCA 21
2.3. Resultados de PCA 22
2.3.1. Score Plot 22
2.3.2. Aporte de cada Componente Principal a la Variabilidad de los Datos 24
2.3.3. Loading Plot 24
2.4. Elipses de Control y Test de Hotelling 25
2.4.1. Test de Hotelling 27
Ejercicios 29
Problemas Resueltos 29
Bibliografı́a del capı́tulo 31
3 Estimación 33
3.1. Introducción 33
3.2. Estimadores MSE y LS 34
3.2.1. Esperanza Condicional 35
3.2.2. Estimador Lineal de Mı́nimo Error Cuadrático Medio 37
3.2.3. Least Squares (LS) 38
3.2.4. Predictores MSE para Sistemas Lineales 38
3.3. Estimador de Máxima Verosimilitud 39
3.4. Estimador Máximo a Posteriori 41
3.5. Estadı́sticos Suficientes 42
3.6. Eficiencia de un Estimador 44
3.6.1. Score Function 44
3.6.2. Cota de Cramér-Rao 45
IV
V
Problemas Resueltos 47
Bibliografı́a del capı́tulo 53
4 Filtro de Kalman 55
4.1. Introducción 55
4.2. Deducción Analı́tica 57
Problemas Resueltos 59
Bibliografı́a del capı́tulo 70
Agradecimientos 71
INTRODUCCIÓN
En este apunte se enfoca en los contenidos asociados a la segunda y tercera unidades del curso Señales
y Sistemas II, que imparte el Departamento de Ingenierı́a Eléctrica (DIE) de la Universidad de Chile.
Pretende ilustrar conceptos básicos y tópicos relevantes que deben tenerse en cuenta a la hora de
estudiar estos contenidos. Es menester indicar que se asume que la primera parte del curso, relativa a
modelación y análisis de sistemas, ya forma parte de la base teórica del estudiante.
El primer capı́tulo de este apunte se centra en el problema de “Detección”, partiendo del enfoque de
Neymann-Pearson y el test de razón de verosimilitud. Luego se analiza la importancia de las curvas
ROC. El problema se extiende a métodos que incorporan una caracterización explı́cita del riesgo, tales
como el enfoque Bayesiano. Posteriormente, este análisis se extiende al caso multivariable, dónde el
propósito es reducir la dimensionalidad del problema y definir la estructura de un test de hipótesis
compuesto (donde arbitrariamente se establece un caso “normal” y una hipótesis alternativa) para la
detección de anomalı́as. Ası́, se presenta el análisis de componentes principales (PCA), dando cierre
al capı́tulo.
El capı́tulo de “Estimación” trata sobre fundamentos de la minimación del error cuadrático medio,
mı́nimos cuadrados, regresión lineal, máxima verosimilitud y máximo a posteriori. Después, se pre-
senta tópicos de suficiencia y eficiencia, finalizando con la cota de Crámer-Rao.
Finalmente, en el último capı́tulo se trabaja la deducción del Filtro de Kalman, indicando nociones
básicas y su relación con el observador de Luenberger; junto a algunos ejemplos ilustrativos.
VI
¿Cómo usar este apunte?
Este apunte busca ser material de apoyo, pero en ningún caso pretende ser una guı́a completa ni
autocontenida de las materias; sólo se busca ilustrar algunos conceptos fundamentales.
Los autores quieren enfatizar que este escrito no debe considerarse como “La Biblia del curso”,
puesto que corresponde solamente a una visión particular para enseñar estos contenidos, y claramente
existen versiones alternativas de cómo tratar los tópicos.
Dicho esto, se recomienda no dejar de asistir a las cátedras, pues son ellas mismas las que han nutrido
a este apunte.
Por último, los autores invitan a dejar cualquier corrección, sugerencia, reclamo y/o felicitaciones en
el siguiente correo:
apunte-ssii@googlegroups.com.
VII
CAPÍTULO 1
FUNDAMENTOS DE DETECCIÓN
1.1. Introducción
La primera unidad del curso EL4003 apunta a entender las propiedades fundamentales de un sistema
dinámico. Ası́, mucho de la discusión se centró en cómo establecer, por ejemplo, si un sistema era
estable, observable, o controlable.
A partir de estos resultados, surge naturalmente la pregunta de cómo hacer buen uso de esta informa-
ción. Desde el punto de vista del diseño e implementación de sistemas de monitoreo y supervisión de
procesos, la detección de anomalı́as cobra especial relevancia, dado que permite identificar cuándo
el proceso se aleja del punto de operación deseado. Por lo tanto, no es extraño que el problema de
Detección tenga especial relevancia. En este problema, se deben reconocer situaciones especı́ficas,
dentro de un conjunto limitado de opciones. Una extensión natural del problema, en la que se desea
determinar el valor exacto del vector de estados del proceso, o de todos los parámetros del modelo
que inetenta caracterizarlo, corresponde al problema de Estimación.
En este capı́tulo, explicamos el procedimiento necesario para, a partir de un conjunto de observacio-
nes, aceptar o rechazar hipótesis asociadas al posible valor de un parámetro. Estas observaciones, o
mediciones, corresponden a la información adquirida a través de “sensores” (sujeta a diversas fuen-
tes de incertidumbre o ruido). La naturaleza de las mediciones está determinada por algún parámetro
θ ∈ Θ. Nuestra decisión, δ, se toma en base a la información disponible, y, y a una regla o test, φ.
1
2 FUNDAMENTOS DE DETECCIÓN
Acertar o errar en la decisión tomada tiene un costo asociado, por lo que se define una función de
mérito o de costos (L). Estos costos también están relacionados con el tiempo empleado en generar δ.
Gráficamente, el proceso completo sigue la siguiente secuencia:
Otros problemas que se pueden abordar desde el punto de vista de la detección son aquellos en que
se quiere clasificar o categorizar el punto de operación de un sistema. La diferencia fundamental con
los problemas de estimación, es que en estos últimos se busca aproximar el valor especı́fico de una
variable. Este enfoque se abordará en el Capı́tulo 3.
Resumiendo la notación a considerar en problemas de detección, se tiene:
Para entender un poco mejor los conceptos introducidos en la sección anterior, abordaremos el si-
guiente ejemplo:
EJEMPLO 1.1
Se obtienen los siguientes valores al medir sucesivamente la caı́da de voltaje ([V]) en una resis-
tencia: Y = {4,1; 4,3; 4,2; . . .}. Se desea determinar si el voltaje medido en la resistencia tiene
relación con una operación “normal”del circuito.
En este ejemplo, la decisión (δ) se relaciona con “aceptar” o “rechazar” la hipótesis de “normalidad”
asociada a las mediciones (y) que entrega el voltı́metro. Se asume que la condición de normalidad del
circuito se asocia a un valor especı́fico de un parámetro (θ). Consideremos un caso en que queremos
detectar un modo anormal de operación especı́fico del circuito. Esto quiere decir que nuestro espa-
cio ∆ consiste de dos elementos {δ0 , δ1 }. La decisión δ0 asume que el circuito opera normalmente
(hipótesis H0 ), mientras que δ1 considera que hay un problema (hipótesis H1 ).
DEFINICIONES BÁSICAS 3
Definición 1.1. Un test para θ ∈ Θi con i = 0, .., k −1 se dice simple si cada Θi consiste exactamente
en un solo elemento. Si algún Θi tiene más de un elemento, el test se dice compuesto.
Dado que en este caso el espacio de decisión consiste en dos puntos, es decir, ∆ = {δ0 , δ1 } (lo que
implica aceptar H0 o H1 , respectivamente), el ejemplo trata un test simple de decisión binaria.
(
H0 : Voltaje = 4,1 [V]
Test de hipótesis simple:
H1 : Voltaje = 4,5 [V]
(
H0 : Voltaje = 4,1 [V]
Test de hipótesis compuesto:
H1 : Voltaje>4,1 [V]
Considere el caso en que cada muestra y(t), asociada a un instante especı́fico de tiempo t, está con-
taminada por ruido n(t); provocando diferencias entre el valor real del voltaje (constante), θ, y la
medición del instrumento. Matemáticamente, este caso puede caracterizarse de la siguiente forma:
y(t) = θ + n(t),
lo que quiere decir que cada valor de y(t) tiene una distribución de probabilidad que depende directa-
mente de la distribución del ruido de medición.
Si asumimos que n(t) es variable aleatoria independiente, idénticamente distribuida (i.i.d.), tal que
n(t) ; N (0, σ 2 ), entonces, la esperanza y varianza de y(t) están dadas por:
E(y) = θ, V(y) = σ 2 ,
Ahora bien, la distribución de probabilidad de cada medición depende fuertemente de cuál hipóte-
sis es realmente correcta; es decir, depende de la naturaleza. Para entender el análisis posterior es
fundamental recordar que θ es un parámetro fijo, cuyo valor desconocemos.
Gráficamente, el caso del Ejemplo 1.1, las distribuciones asociadas a una muestra y(t), condicionales
al valor real del parámetro, se ven como en la Figura 1.1.
4 FUNDAMENTOS DE DETECCIÓN
fy|θ=4.1 fy|θ=4.5
(H0 ) (H1 )
4.1 4.5
Figura 1.1: Distribuciones de probabilidad asociadas a cada muestra, condicional al valor del paráme-
tro (Ejemplo 1.1.)
Si ahora se escoge un umbral para decidir cuál hipótesis es la correcta, en función de una medición
especı́fica y(t), se genera inmediatamente la probabilidad de incurrir en dos tipos de errores.
umbral
fy|θ=4.1 fy|θ=4.5
(H0 ) (H1 )
1−β α
4.1 4.5
Figura 1.2: Errores de tipo I y II para el test simple del ejemplo 1.1.
En la práctica, el umbral se define en base a un α dado. Generalmente se usan valores del orden del
5 %.
No hay que olvidar que una decisión depende fuertemente de cómo procese los datos que recibo.
Por ejemplo, podrı́a considerarse para el análisis tan sólo el primer valor de las muestras adquiridas.
También podrı́a elegirse tomar una decisión en base a la última muestra. o cualquier otra escogida al
azar. Sin embargo, sabiendo que el ruido distribuye Gaussiano, el promedio de las muestras resulta
NEYMAN-PEARSON 5
σ2
y ; N 0, .
n
Por lo tanto, si quisiera tomar una decisión en base a y, encontrarı́a que las distribuciones de la Figura
1.1 estarı́an más concentradas alrededor de θ para un elevado número de datos, tal como lo muestra
la Figura 1.3.
umbral
fy|θ=4.1 fy|θ=4.5
(H0 ) (H1 )
1−β α
Este fenómeno hace que mi decisión tenga un grado de confianza más elevado. De hecho, α es mucho
más pequeño y β se acerca a 1, lo que es bastante conveniente.
1.3. Neyman-Pearson
El enfoque de Neyman-Pearson busca generar un marco de toma de decisiones donde se logre maxi-
mizar la probabilidad de detección, simultáneamente acotando la probabilidad de falsa alarma.
Definición 1.5. Un test φ se dice ser el mejor, de tamaño α, para H0 vs H1 si:
Eθ0 [φ(y)] = α,
∀φ0 (y) tal que Eθ0 [φ0 (y)] ≤ α se tiene que
fX (x|θ1 )
`(x) :=
fX (x|θ0 )
Es importante observar que esta función se inspira en la propuesta del Teorema de Neyman-Pearson.
Teorema 1.2. Test de Razón de Verosimilitud (Likelihood Ratio)
Se decide la hipótesis H1 por sobre H0 si:
fX (x|θ1 )
`(x) = >ν
fX (x|θ0 )
Dado que la mayorı́a de las distribuciones utilizadas en la práctica pertenecen a la familia de expo-
nenciales, resulta útil tomar el logaritmo de `(x). Notemos que no se afecta la desigualdad, ya que el
logaritmo es una función continua y estrictamente creciente.
Definición 1.7. Función de Log-Verosimilitud
La función de log-verosimilitud se define como el logaritmo de la función de verosimiliud, es decir:
fX (x|θ1 )
Λ(x) := log
fX (x|θ0 )
Para ilustrar la utilidad del test de razón de verosimilitud, revisemos el caso en que se quiere decidir
respecto del valor de un parámetro constante θ en un sistema que mide una señal x(t) = θ + n(t). Si
tratamos de tomar una decisión basados solamente en la primera medición, se tiene como única fuente
de información a x1 = x(1) = θ + n(1). Además, suponiendo que el ruido n(t) is i.i.d. y Gaussiano,
se puede definir nuestro test de hipótesis como sigue:
−(x1 −θ0 )2
H : θ = θ , f (x |θ ) =
0 0 x1 1 0 √1 e 2σ 2
2πσ
−(x1 −θ1 )2
.
H : θ = θ , f (x |θ ) =
1 1 x1 1 1 √1 e 2σ 2
2πσ
Λ(x) > ν ∗
1 1
− 2
(x1 − θ1 )2 + 2 (x1 − θ0 )2 > ν ∗
2σ 2σ
2x1 θ1 − 2x1 θ0 + θ02 − θ12 > ε(ν ∗ )
x1 > δ(ν ∗ ),
En los cálculos anteriores, se omitieron pasos algebraicos para mostrar que la importancia del test se
reduce a comparar el valor de la medición con un cierto umbral δ adecuado.
Lo interesante de este resultado es que si se tiene un conjunto de mediciones, suponiendo que el ruido
n(t) es i.i.d.1 , el resultado converge al promedio de las mediciones. Partiendo por el caso simple en
que se agrega una segunda muestra x2 = x(2) = θ + n(2), las densidades de probabilidad relevantes
pasan a ser las conjuntas dadas por:
1 2 −12 [(x1 −θ1 )2 −(x2 −θ1 )2 ]
fx1 ,x2 (x1 , x2 |θ1 ) = ( √ ) e 2σ ,
2πσ
1 2 −12 [(x1 −θ0 )2 −(x2 −θ0 )2 ]
fx1 ,x2 (x1 , x2 |θ0 ) = ( √ ) e 2σ ,
2πσ
1 Independiente e idénticamente distribuido.
8 FUNDAMENTOS DE DETECCIÓN
n n
1 X 1 X
Λ(x) = − 2 2
(xi − θ1 ) + 2 (xi − θ0 )2 > ν ∗ (1.1)
2σ i=1 2σ i=1
n
1X
xi > δ
n i=1
De la Ecuación 1.1 y la hipótesis i.i.d. para n(t), resulta interesante notar que Λ(x) = γ ni=1 x(i) +
P
ε, lo que hace evidente que Λ(x) es una V.A. con distribución Gaussiana. Su media, sin embargo,
depende de cuál hipotesis es correcta, según lo decida la naturaleza:
(
Si H0 es correcta ⇒ Λ(x) ; N (θ0 γn + ε, γ 2 σ 2 n)
Si H1 es correcta ⇒ Λ(x) ; N (θ1 γn + ε, γ 2 σ 2 n)
Con lo anterior, y denominando E[Λ(x)] = µ, se concluye que nuestra decisión se basa en un umbral
η tal que:
H0 √
Λ(x) ≶ η = µ + γ nσz1−α , (1.2)
H1
donde z1−α representa el valor que acumula una probabilidad de 1 − α en la distribución N (0, 1)
(estos valores se pueden encontrar en tablas). Podemos, entonces, fijar dependencias entre el valor de
η y el error de tipo I:
Z ∞
α= fΛ(x) (Λ(x)|H0 )dΛ(x). (1.3)
η(α)
La Figura 1.4 ilustra esta probabilidad α para una distribución cualquiera (no necesariamente Gaus-
siana):
CURVAS ROC PARA DETERMINAR EL MEJOR TEST 9
El valor de η se puede calcular según la Ecuación (1.2) en el caso Gaussiano. Una vez encontrado η,
se puede calcular la probabilidad de detección:
Z ∞
β= fΛ(x) (Λ(x)|H1 )dΛ(x). (1.4)
η
Ahora la pregunta es cómo decidir cuál test de hipótesis es mejor. Para esto se estudia la relación
entre α y β mediante las denominadas Curvas ROC (Receiver Operating Characteristic). Estas curvas
suelen lucir de la siguiente forma:
curva ideal
1
β
equiprobabilidad
0
0 1
α
Conceptualmente, un test “perfecto”serı́a aquel que, para una tasa de falsas alarmas arbitraria, siempre
logre detectar situaciones en las que la hipótesis nula es incorrecta, es decir, ∀α, β = 1. Este caso
corresponde a la linea horizontal que pasa por β = 1. Por otra parte, la recta que pasa por el origen y
por el punto (1;1) corresponde al peor escenario aceptable ya que muestra que una falsa alarma tiene
la misma probabilidad que una detección, por lo que se puede cambiar este test por uno más sencillo
como tomar la decisión en base al resultado de lanzar una moneda. Luego, cualquier curva que se
sitúe por debajo de esta recta tendrá mayor tasa de menor detección que de falsas alarmas.
10 FUNDAMENTOS DE DETECCIÓN
Tomando en cuenta esto, se puede ver que las curvas ROC siempre estarán contenidas en el triángulo
ubicado por sobre la diagonal mencionada. Es por esto que tı́picamente las curvas ROC se ven como
ilustra la Figura 1.6
La elección del mejor test se realiza considerando que para una tasa de falsas alarmas α dada, es mejor
aquel que entrega una probabilidad de detección β mayor. En el caso de la Figura 1.6 es evidente que
que la Curva 1 siempre es mejor que las otras.
(1)
(3)
(2)
β
0
0 α0 1
α
Sin embargo, es interesante revisar casos como los ilustrados por las Curvas (2) y (3) en las cercanı́as
de α = α0 . En estos casos, resulta provechoso sacrificar un poco la tasa de falsas alarmas, es decir,
aumentar α, para lograr un aumento de la probabilidad de detección. Para la Figura 1.6, esto significa
pasar de la Curva (2) a la Curva (3).
EJEMPLO 1.2
Un ejemplo en que se realiza este trade-off es el caso en que se quiere estimar el estado de salud
(SoH, por sus siglas en inglés) de baterı́as de Ion-Litio. Estas baterı́as suelen experimentar un
fenómeno denominado regeneración de capacidad, en que la baterı́a pareciera recuperar su salud
por algunos ciclos de carga-descarga (ver Fig. 1.7). Este fenómeno hace que muchas veces se
estime una capacidad superior a la real, y por tanto, una vida útil mayor a la efectiva. En casos
como este, las falsas alarmas no son crı́ticas, dado que por lo general se tiene otro algoritmo más
sofisticado que, en una etapa posterior del proceso, permite filtrar los falsos negativos generados.
CURVAS ROC PARA DETERMINAR EL MEJOR TEST 11
Capacidad [A-h]
10
-5
0 1 2 3 4 5
Tiempo [Ciclos]
Generalmente, los test no son en base a hipótesis simples. La complicación en estos casos es que no
se puede determinar la probabilidad de detección, pues no existe una única hipótesis alternativa a la
nula, ¡sino infinitas!
Es por esto que suelen construirse las curvas ROC de manera empı́rica para datos con una distribución
“conocida”. Por ejemplo, para el siguiente test:
(
H0 : θ = θ0
H1 : θ =
6 θ0
H0
H1 H1
α α
2 2
θ0
Figura 1.8: Distribución supuesta para los datos y obtención de la frontera entre las hipótesis.
12 FUNDAMENTOS DE DETECCIÓN
Esto mismo, llevado al caso de múltiples hipótesis puede llevar a situaciones como la ilustrada en
la Fig. 1.9. En este caso, algoritmos tales como “Random Forest” o estructuras tipo caja negra tales
como “Redes Neuronales” pueden ser de utilidad.
H3
H1
H0
H2
H4
En el enfoque de Riesgo Bayesiano, cada decisión está asociada a un costo, y se interesa minimizar
el valor esperado del costo total. Este enfoque se diferencia de los métodos anteriormente estudiados
por cuanto supone la existencia de un conocimiento previo respecto del valor que el parámetro θi ∀i
podrı́a tener. Dicho conocimiento se representa a través de la probabilidad “a priori” del vector de
parámetros; supuesto que implica que θi es ahora una variable aleatoria.
Se define x ∈ Ci , con i = 1, . . . , n las múltiples hipótesis del test y Lij el costo asociado a elegir la
clase j cuando realmente x ∈ ωi . 2
Dicho esto, nos interesa estudiar la probabilidad P(ωi |x), es decir, la probabilidad de estar en la
clase ωi habiendo medido un valor x. Será útil, entonces, el Teorema de Bayes, que se enuncia a
continuación:
P(B|A) · P(A)
P(A|B) = . (1.5)
P(B)
Definición 1.8. Sean Lij los costos ya definidos, el riesgo rj asociado a elegir la clase j está dado por
C
X
rj = Lij P(ωi |x). (1.6)
i=1
2 Notar que Lii muestra el costo de acertar, que no necesariamente es igual a cero.
RIESGO BAYESIANO 13
Generalmente, calcular P(ωi |x) (elegir la clase ωi habiendo medido x) es difı́cil, sin embargo, el
Teorema de Bayes resulta ser útil para salir de este entuerto, por cuanto dicha probabilidad puede
expresarse como:
P(x|ωi ) · P(ωi )
P(ωi |x) = . (1.7)
P(x)
Ası́, el riesgo total asociado a decidir “j”queda expresado de la siguiente forma
C
X P(x|ωi ) · P(ωi )
rj = Lij , (1.8)
i=1
P(x)
donde es notorio que el término P(x) es común a todos los términos de la suma. Por otra parte, las
decisiones son de la forma: si r1 < r2 se elige 1; de lo contrario, se elige 2. Para el caso de de dos
variables esto se denota:
1
r1 ≶ r2 .
2
Luego, como P(x) ≥ 0, el valor de esta probabilidad no afecta la decisión. Esto permite comparar los
riesgos sin necesidad de calcular la probabilidad de recibir la información “X”.
EJEMPLO 1.3
Si se hace un supuesto fuerte en que no equivocarse tiene costo cero (L11 = L22 = 0), se tiene
que el criterio de decisión es
1
L21 P(x|ω2 )P(ω2 ) ≶ L12 P(x|ω1 )P(ω1 )
2
Este resultado es importante, pues exhibe el mismo criterio de decisión de la razón de verosimilitud.
Ası́, el enfoque Bayesiano resulta ser más general y eficiente para tomar decisiones.
14 FUNDAMENTOS DE DETECCIÓN
Problemas Resueltos
EJEMPLO 1.4
Considere un problema de detección donde se quiere establecer cuál es el mejor modelo para
describir una variable aleatoria Z en función de dos variables explicativas X e Y cuya distribución
conjunta es 1/(XY )2 ; X ≥ 1, Y ≥ 1. Para este efecto, se consideran dos posibles hipótesis:
H0 : Z = Y vs. H1 : Z = XY
Implemente el test de razón de verosimilitud que le permitirı́a rechazar Ho, indicando claramente
la definición de la región de aceptación/rechazo del test. Considere el cambio de variables U =
XY y V = X/Y para efectos de simplificar el cálculo de las marginales. Finalmente, encuentre
expresiones para el nivel de significancia deseado, PF A , y la probabilidad de detección PD , en
función del umbral del test, η.
Para obtener el test de verosimilitud se tiene que calcular:
fZ (z|H1 )
`(x) :=
fZ (z|H0 )
Es fácil observar que:
∞
1 1 1
Z
fZ (z|H0 ) = dx = = 2
1 x2 y 2 y 2 z
X
Para calcular la distribución fZ (z|H1 ) se deberá realizar el cambio de variable U = XY ,V = Y
.
De este modo:
1
fU,V u, v = 2 Ju,v
u
Ası́ se puede calcular el jacobiano por definición:
√ √
v u
√
2 u
√
2 √v
1
Ju,v = =
√1
2 uv
− 2√uv3 2v
fZ (z|H1 ) = fu
Z u
1
= dv
1
u
2u2 v
log(u)
=
u2
log(z)
=
z2
De este modo, para calcular el error de tipo I se debe calcular la función de distribución f`(x) (z|H0 ),
para esto considera el siguiente cambio de variables z = log(y), w = log(x).
1
fZ,W (z, w) = Jz,w
e2(z+w)
donde:
1
0 1
Jz,w = 1 ez
= ez+w ⇒ fZ,W (z, w) = z+w
ew 0 e
Finalmente, se puede calcular f`(x) (z|H0 ) integrando en w. Con este resultado se calcula PF A .
Z ∞
PF A = α = e−z dz = e−η
η
16 FUNDAMENTOS DE DETECCIÓN
Del mismo modo, se procede para calcular la probabilidad de detección. Cambio de variable
z = log(xy), w = log(x/y).
1
fZ,W (z, w) = 2z Jz,w
e
z+w z−w
1e 2 1
e 2 1 1
Jz,w = 12 z+w 2 1 z−w = ez ⇒ fZ,W (z, w) = z
2e 2 −2e 2 2 2e
Z ∞
z −2η 1 η
PD = β = dz = e +
η e2z 4 2
EJEMPLO 1.5
Considere un problema de detección donde una señal cambia su valor esperado en algún momento
no (conocido, para simplificar el problema) y se requiere detectar la existencia de dicho cambio.
Para ello, se quiere comparar las siguientes hipótesis:
H0 : Xi ∼ N (m0 , σ 2 ), i = 1, 2, ..., n
Xi ∼ N (m0 , σ 2 ), i = 1, 2, ..., no − 1
H1 :
Xi ∼ N (m1 , σ 2 ), i = no , no + 1, ..., n
Demuestre que el mejor test, para un nivel de significancia dado, puede escribirse:
n
1 X
T (x) = (xi − mo ) > η
n − no + 1 i=n
o
para algún umbral η. Encuentre una expresión que relacione dicho umbral con el nivel de signifi-
cancia deseado, PF A .
Aplicando el test de razón de log-verosimilitud a estas hipótesis, se tiene:
PROBLEMAS RESUELTOS 17
Λ(x) > η ∗
fX (x|θ1 )
log > η∗
fX (x|θ0 )
0 −1
nX N N
(xi − m0 )2 X (xi − m1 )2 X (xi − m0 )2
2
+ 2
− 2
> η∗
i=1
2σ i=n
2σ i=1
2σ
0
N N
X (xi − m1 )2 X (xi − m0 )2
− > η∗
i=n0
2σ 2 i=n
2σ 2
0
N
X N
X
(x2i − 2xi m1 + m21 ) − (x2i − 2xi m0 + m20 ) > η ∗∗
i=n0 i=n0
N
X
2xi (m0 − m1 ) > η ∗∗∗
i=n0
N
X
xi > η ∗∗∗∗
i=n0
N
1 X
(xi − m0 ) > η
N − n0 + 1 i=n
0
Dada la estructura del test, se puede utilizar el lema de Neyman-Pearson (Teorema 1.1 en el
apunte) visto en clases, se puede concluir que este test es el mejor para su nivel de significancia.
De la demostración de existencia, se observa que E[T (x)] = 0 si H0 es cierto. Luego, asumiendo
independencia, el nivel de significancia deseado viene dado por la siguiente expresión:
∞
1
Z
− x
2σ 2
η
α= e T = 1 − erf ( √ )
η 2 2πσT
2
1
Donde σT2 = N −n0 +1
(N + n0 )σ 2 .
Correcciones, sugerencias, reclamos y/o felicitaciones del capı́tulo, por favor enviarlas a: morchard@ing.uchile.cl.
CAPÍTULO 2
2.1. Motivación
Generalmente en la industria se dispone de registros históricos con gran cantidad de datos y una
igualmente extensa lista de variables de proceso. Esta cantidad de datos puede resultar difı́cil de
analizar, especialmente considerando que muchas veces sólo podemos acceder a ellos a través de
Microsoft Excel o software equivalente.
t x1 x2 x3 x4 x5 ...
20
30
2 0.221 1.223 1.693 0.798 2.236 20
En este contexto, el Análisis de Componentes Principales o PCA (por su sigla en inglés Principal
Component Analysis) muchas veces pasa a ser la primera herramienta de análisis que puede utilizarse
para intentar extraer información útil de los datos almacenados. PCA apunta a visualizar rápidamente
19
la estructura de correlación de las variables de proceso y reducir la dimensionalidad del problema de
supervisión asociado.
Para desarrollar la intuición detrás de este análisis, primero consideremos datos de dos variables x1 , x2
en un rango tı́pico de operación, tal como muestra la Figura 2.2
x2
200
150
100
Fuera de los
rango de x 1
50
Fuera de los
rango de x 2
x1
0 50 100 150 200
Cualquier dato que se aleje en deması́a en una dirección distinta a la que define la máxima variabilidad
conjunta entre x1 y x2 es un dato que no respeta la correlación entre las variables. Como puede
apreciarse, no basta con estar dentro de los rangos de operación de cada variable. Si bien siempre es
posible realizar una análisis similar al aquı́ presentado, obviamente la complejidad computacional se
incrementa drásticamente si debemos estudiar lo que ocurre con 120 variables de proceso o más. Es
aquı́ donde nos apoyamos en conceptos de álgebra lineal, encontrando la transformación lineal que
define cada uno de los ejes de máxima variabilidad, proyectando los datos en ellos, de modo de rotar
los ejes de observación hasta hacerlos coincidir con dichas direcciones de máxima variabilidad.
Ahora bien, PCA va un poco más allá, puesto que reduce la cantidad de ejes a sólo aquellos que
presentan variabilidades relevantes en los datos, dejando fuera del análisis a aquellos que no. Por
ejemplo, si los datos están contenidos en una región del espacio de observación similar a una galleta,
como en la Figura 2.3, donde existen dos ejes de alta variabilidad y uno de baja variabilidad, se pueden
reducir la dimensión del problema a una proyección en el plano, despreciando el último eje.
Es decir, x3 puede despreciarse en el análisis por poseer una baja variabilidad relativa a las direcciones
x1 y x2 . Esto es en esencia lo que hace PCA , con la salvedad que las direcciones x1 , x2 y x3 se ordenan
20
ANÁLISIS PCA 21
en función del porcentaje de variabilidad acumulada en cada una de ellas. Esto permite visualizar los
datos de manera más eficiente.
Formalmente, consideremos para efectos de implementar el análisis PCA que los datos de la Tabla 2.1
(normalizados) se agrupan en la matriz X̂ dada por:
x̂11 . . . x̂1m
X̂ = ... . . . .. ,
.
x̂n1 . . . x̂nm
donde cada columna representa una variable de proceso distinta y cada fila un instante de tiempo u
observación. De este modo se tienen m variables, y n datos por variable. Nótese que la normalización
de los datos corresponde a realizar la operación
xij − xj
x̂ij = . (2.1)
σj
Con los datos normalizados, se procede a calcular la matriz de varianza-covarianza empı́rica como
1
S= X̂ T X̂ = V ΛV T . (2.2)
n−1
Cabe notar que la matriz de varianza-covarianza empı́rica tiene dimensión m × m y se aproxima con
un estimador insesgado, lo que explica el denominador n − 1. Por otro lado, el último término en
la igualdad corresponde a su diagonalización, donde V es la matriz de vectores propios ortogonales
ordenados de la siguiente forma:
La matriz de varianza-covarianza tiene vectores propios que son ortogonales entre sı́. Es más, dichos
vectores propios están alineados con las direcciones de máxima variabilidad de los datos. De hecho,
la variabilidad de las proyecciones de los datos en cada vector se relaciona directamente con el valor
del valor propio correspondiente. Al estar ordenados los vectores, en función de valores propios de-
crecientes, se está directamente ordenando la contribución de cada proyección a la variabilidad total
de los datos. Debido a esto, si se quiere reducir la dimensionalidad del problema, siempre se establece
una base ortogonal de proyección con las primeras p columnas de la matriz V .
Las coordenadas de cada vector propio indican la importancia de cada variable de proceso dentro de
la componente principla respectiva, información que será de utilidad al analizar los Loading Maps.
22 ANÁLISIS DE COMPONENTES PRINCIPALES
En esta sección ilustraremos el tipo de resultados que puede obtenerse al implementar PCA , usando
el ejemplo “cities”que está incorporado en el software Matlab1 , donde se estudian los indicadores
socioeconómicos (variables de proceso) de la Figura 2.4.
economics
recreation
arts
education
transportation
crime
health
housing
climate
0 1 2 3 4 5
×10 4
Lo primero que se debe notar es que estos datos no están normalizados, por lo que las varianzas entre
dos o más indicadores no está en los mismos órdenes de magnitud. Por ejemplo, los valores medidos
para climate no se pueden comparar directamente con los de housing. Es por esto que, como se dijo
anteriormente, es necesario normalizar los datos. Una vez normalizados, la desviación estándar de
cada variable será unitaria. Si bien el análisis PCA muestra su mayor valor en el caso de variables que
tienen distribución conjunta Gaussiana, esto no es una restricción para la implementación del análisis
empı́rico. De hecho, los datos en la Figura 2.4 distan mucho de tener dicha distribución.
El primer tipo de resultado que entrega PCA es el denominado Score Plot, un gráfico donde se mues-
tra cada dato proyectado sobre una selección (generalmente pares) de componentes principales. Por
ejemplo, en la Figura 2.5 se muestran los datos proyectados sobre las dos primeras componentes
principales.
Cada punto en el gráfico corresponde a uno de los n datos (filas) de la matriz X̂, proyectado en las
componentes ya mencionadas.
Para calcular los “scores”(proyecciones de cada punto en el score plot), se considera la matriz de
proyección P = [v1 |v2 | . . . |va ], con a < m y la siguiente transformación lineal:
-2 Outliers
Puntos similares
-4
-5 0 5 10 15
1st Principal Component RESULTADOS DE PCA 23
Figura 2.5: Score Plot
Y = X̂P
= [y1 |y2 | . . . |ya ] ∈ Rn×a . (2.3)
Considerando que los datos en la matriz X̂ ya están normalizados, por tanto centrados en el orı́gen, la
operación anterior puede entenderse como una rotación del eje coordenado para visualizar los datos
usando las primeras “a” componentes principales.
Una interesante propiedad de las proyecciones en componentes principales es que las coordenadas
yti del vector ~yt = [yt1 |yt2 | . . . |yta ] no están correlacionadas entre sı́. Visto de otra forma, la ma-
triz de varianza-covarianza de los“scores” es diagonal. Si además ~y distribuye normal, entonces las
componentes principales son independientes.
En el “score plot”de la Figura 2.5 se han destacado algunos grupos de puntos. Hay un conjunto de
puntos que muestran un aglutinamiento importante alrededor del promedio de los datos (son similares
entre sı́), mientras que otros muestran diferencia significativas, considerándose Outliers. Esta sepa-
ración entre puntos normales y outliers se debe al hecho que si los datos tuviesen una distribución
Gaussiana, uno esperarı́a una gran acumulación alrededor de la media, y una menor probabilidad de
encontrar puntos conforme me alejo de dicho estadı́stico. Esta forma de imaginar el problema se tra-
duce generalmente en mapas donde se establecen lı́mites (umbrales) para una condición de operación
normal que tienen forma de elipses (ver Fig. 2.6).
3
2
1
v2
0
-1
3 2 -2
1 0 2 3
-1 -2 -1 0 1 -3
v2 -3 -3 -2 -3 -2 -1 0 1 2 3
v1
v1
El segundo resultado importante proviene de la comparación entre los aportes de cada componente
principal a la variabilidad total de los datos. Esta variabilidad puede medirse en función de la traza de
la matriz de varianza-covarianza empı́rica:
m
X
2
σ = tr(Λ) = λi , (2.4)
i=1
λ
Pm j . (2.5)
i=1 λi
Este concepto puede visualizarse en un gráfico que muestre la acumulación de variabilidad incorpo-
rada secuencialmente al análisis por parte de cada componente principal; ver Figura 2.7:
100 100%
Variance Explained (%)
80 80%
60 60%
40 40%
Últimas componentes
20 suelen 20%
ser ruido
0 0%
1 2 3 4 5 6 7
El gráfico anterior permite rápidamente establecer cuántas componentes principales estarı́a yo dis-
puesto a incorporar en mi análisis, equilibrando apropiadamente le complejidad computacional y la
capacidad de caracterizar la variabilidad de los datos. Aportes más pequeños a la variabilidad pueden
asumirse como parte del ruido de proceso.
0.5 education
Componente de mayor
dependencia
health
arts
transportation
Component 2
0
climate
housing
crime
recreation
Componentes muy
economics
-0.5 correlacionadas
-0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 0.6
Component 1
Ahora bien, también pueden darse casos en que PCA no sea la herramienta más apropiada para efcuar
un análisis preliminar de datos. Considere por ejemplo los casos ilustrados en la Figura 2.92 , en
donde PCA no ayuda a distinguir condición normal versus una anomalı́a, a pesar de que existen datos
que están claramente segregados (puntos de operación dintingubles), pese a tener media nula y tener
direcciones de máxima variabilidad evidentes.
0 0 0
-5
-10 -20
-5
-5 0 5 -10 0 10 -20 0 20
Recordemos que las curvas de nivel de una distribución conjunta Gaussiana serı́an elipsoides centra-
das en la media. Esto motiva la utilización de curvas elı́pticas para establecer lı́mites a una operación
normal de proceso, ver Figura 2.10a y Figura 2.10b (esta última incorporando la rotación asociada a
la matriz de proyección P ). Si además, se utiliza una métrica ponderada para la distancia de un punto
a la media (que incorpore explı́citamente la variabilidad que existe en uno u otro eje), se puede trans-
formar las elipses en circunferencias; ver Figura 2.10c. La distancia de Mahalanobis
√ pondera cada
coordenada de yti por el inverso de la raı́z de su varianza respectiva (σi = λi ) para estos efectos.
v2 v1
~xt
~xt ~xt
v2 /σ2
x̂2
x̂1 v2 v1 v1 /σ1
(a) (b) (c)
Figura 2.10: Agrupación de los datos normalizados (a), scores (b) y scores normalizados (c).
Luego, la distancia del dato xt al origen del score plot normalizado se mide de la siguiente forma:
kxt k2 = xt P Λ−1 T T
a P xt (2.6)
La pregunta que uno debe hacerse es ¿para qué se quiere calcular la distancia de los datos al origen?
Y la respuesta es bastante simple: basta recordar que las distribuciones de los datos se asumen Gaus-
sianas y como se utilizan los datos normalizados, su media es cero, por lo que el origen del score plot
coincide con el promedio de los datos. Luego, saber la distancia de cada dato al origen es equivalente
a saber cuán alejado está dicho dato del promedio.
Ahora bien, ¿cuál es la distancia distancia (ponderada) η 0 de la media que asegura que existe una
probabilidad (1-α) de que encontrar un dato más alejado? Para responder esta consulta, recordemos
que la forma cuadrática en Ecuación (2.6) distribuye χ2 (a) (ver Fig. 2.11). Con lo que la probabilidad
de que un dato esté a menos de un cierta distancia del centro estará determinada por dicha distribución.
χ2
Este resultado, en que se pasa de un problema multivariable a uno escalar, facilita enormemente el
análisis. Sin embargo, no hay que confiarse. Si recordamos que en realidad se tiene un set de datos
con los que se estima la matriz de varianza-covarianza, Ec. (2.2), entonces esta simplificación deja de
ser válida, pues la distribución de Tt2 deja de ser χ2 (a).
¡Pero no hay que entrar en pánico! Pues, si se supone que la distribución conjunta de xt es Gaus-
siana, se puede realizar un test de hipótesis, con su respectivo umbral, basado en el hecho de que
Tt2 ; Fn,n−a , la llamada “distribución de Fisher”. Es ası́ como se da origen al test de Hotelling.
a(n2 − 1)
Fa,n−a;α , si ~xt ∈
/ Training Set;
n(n − a)
η= (2.7)
(n − 1)2 [a/(n − a − 1)]Fa,n−a−1;α
, si ~xt ∈ Training Set.
a
n 1 + n−a−1 Fa,n−a−1;α
Es llamativo que existen dos casos para el cálculo del umbral. El primero representa una situación en
que se quiere comparar un dato con registros históricos y revisar si está dentro de la elipse de control.
El segundo, en cambio, sirve para purgar los datos con los que se realizará el PCA.
Este test suele ser efectivo (y de los más usados) para detectar anomalı́as (NO FALLAS) en la opera-
ción y además es común usar dos umbrales para dos valores de α distintos, definiendo ası́ dos niveles
de alerta en la elipse de control. Por ejemplo, para el ejemplo cities, considerando sólo las prime-
ras dos componentes como principales (a = 2) y haciendo el test de Hotelling para cada ciudad, se
obtienen las elipses siguientes elipses correspondientes al 95 % y roja 99 %.
4
2nd Principal Component
-2
-4
-10 -5 0 5 10 15
1st Principal Component
Figura 2.12: Elipses para alerta amarilla (95 %) y roja (99 %).
28 ANÁLISIS DE COMPONENTES PRINCIPALES
El análisis, sin embargo, no está completo, pues se debe tener en cuenta que la proyección reduce
la dimensión del espacio de variables a sólo las más significativas, por lo que existen pérdidas de
información asociadas a la proyección. Es por esto que se define el siguiente indicador:
E = (I − P P T )~xt , (2.8)
que da cuenta de las discrepancias entre ~xt y ~x. Este indicador es útil para detectar casos como el que
muestra la Figura 2.13, donde hay puntos que se proyectan dentro de la elipse, pero en realidad están
bastante lejos del punto de operación (y que pueden ir alejándose en el tiempo).
~x∗t
v2
v1
Por ejemplo, haciendo el análisis de cities, considerando las tres primeras componentes como prin-
cipales, se obtienen puntos que no pasan el test de Hotelling, sin embargo se proyectan dentro de la
elipse:
EJERCICIOS 29
-2
-4
-10 -5 0 5 10 15
1st Principal Component
Este hecho se explica porque el cálculo de las distancias se hace considerando todas las componentes
principales, pero el gráfico bidimensional sólo entrega información respecto de las dos primeras,
por lo que ocurre que hay datos que tienen sus primeras dos componentes dentro de la elipse, pero la
tercera (saliendo del plano) está suficientemente lejos como para hacer que no pase el test de Hotelling.
Es por esto que para a > 2, las elipses son en realidad elipsoides en a dimensiones. Para el caso de la
Figura 2.14, lo más correcto es examinar un gráfico tridimensional.
EJERCICIOS
2.1 Realice el análisis PCA para cities, considerando las tres primeras componentes como principa-
les y muestre las elipsoides de control de cada alerta. ¿Qué factores tienen en común las ciudades que
están en ambos niveles de alerta?
2.2 Estudie la evolución del indicador E a medida que se aumenta el número de componentes que
se consideran principales para cities, es decir, cómo varı́a E para distintos valores de a. ¿Cómo se
interpreta el resultado cuando a = 9?
Problemas Resueltos
EJEMPLO 2.1
Encuentre los ejes de mayor varianza utilizando Analisis de Componentes Principales. Encuentre
los vectores bases y muestre gráficamente la ubicación de los ejes en el espacio original.
En efecto, para abordar este problema, se normalizarán los datos y luego se calculará la matriz de
covarianzas.
" #
0 2 1 1
S=
0 1 1 2
" #
1
µ=
1
||Cov − λI|| = 0
2−λ 1
=0
1 2−λ
(2 − λ)2 − 1 = 0
(1 − λ)(3 − λ) = 0
Para λ = 1 se tiene:
PROBLEMAS RESUELTOS 31
" #" #
1 1 v1
= 0 ⇒ v1 = −v2
1 1 v2
De este modo el vector √12 (1, −1) es el vector propio para λ = 1 ⇒ √12 (1, 1) es el otro vector
propio asociado a λ = 3, dado que ambos vectores deben generar y ser ortonormales. Luego el
gráfico nos queda:
-1
-2
-3
-3 -2 -1 0 1 2 3
Correcciones, sugerencias, reclamos y/o felicitaciones del capı́tulo, por favor enviarlas a: morchard@ing.uchile.cl.
CAPÍTULO 3
ESTIMACIÓN
3.1. Introducción
Esta discusión, puramente filosófica, está aún abierta. Dependiendo del caso de estudio, uno u otro
enfoque presentará ventajas y desventajas (como todo en la vida).
Una última observación es que existe una gran variedad de criterios para decidir que resultado del
proceso de estimación es “mejor”(mérito). Por ejemplo, la Figura 3.1 ilustra dos criterios de error
33
34 ESTIMACIÓN
Criterio 1 Criterio 2
3 3
2.5 2.5
2 2
v2
v2
1.5 1.5
1 1
0.5 0.5
0 0
0 1 2 3 0 1 2 3
v1 v1
(a) (b)
Figura 3.1: Dos criterios diferentes para estimar el comportamiento de un set de datos.
distintos que pueden usarse para definir la calidad de una aproximación lineal a la relación entre
dos variables de proceso. En un caso, el error se mide en la vertical, mientras que en el segundo se
considera el error de proyección en la recta. Ambos son válidos. ¿Cuál usar entonces? Pues bien,
depende de nosotros.
En este capı́tulo se abordarán cuatro enfoques: error cuadrático medio, mı́nimos cuadrados, máxi-
ma verosmilitud y máximo a posteriori. Una vez expuestos estos enfoques, se entregarán nociones
de suficiencia y eficiencia.
El enfoque MSE busca encontrar la proyección de la variable a estimar (y) sobre el espacio definido
por la información disponible (variables medidas, x); ver Figura 3.2. Dicha proyección, geométrica-
mente, asegura el mı́nimo error cuadrático medio al tratar de aproximar y.
~x2 ~y
~x1
P~x {~y }
Para realizar una proyección es necesario primero definir un producto interno entre vectores. El pro-
blema aquı́ es que tanto x1 como x2 son variables aleatorias, por lo que dejan de ser simples vectores
en Rn para convertirse en funciones con una densidad de probabilidad asociada. La buena noticia es
que el producto interno entre v.a. no es complejo de definir. En efecto, se tiene que si X e Y son v.a.,
entonces una extrapolación del concepto de producto interno entre X e Y puede definirse en base
ESTIMADORES MSE Y LS 35
al caso tı́pico de producto punto en Rn , pero considerando un vector de infinitas componentes. Cada
componente representa una realización de las v.a., por lo que si los eventos son equiprobables se tiene:
Si existe una distribución de probabilidad conjunta para X e Y , entonces cada realización tiene un
ponderador
R asociado: la probabilidad del evento. Ası́, se puede pensar en una matriz de ponderadores
P = fXY , diagonal, con lo que se obtiene:
En el caso de una v.a. X con media nula, entonces se puede definir el “tamaño”de X en función de la
definición de distancia para un Espacio de Hilbert. Ası́, la varianza de la v.a. X resulta ser una métrica
y permite medir el tamaño de dicha función:
El estimador MMSE (Minimum Mean Squared Error) busca minimizar el tamaño de la v.a. error de
estimación usando esta métrica.
Definición 3.1. (Esperanza Condicional) La esperanza condicional, h, de una v.a. y , dado un pro-
ceso estocástico {X(τ ), a ≤ τ ≤ b} es la v.a. que:
Es bueno recalcar que, como lo dicta la definición, la esperanza condicional es una variable aleatoria,
pues es una función determinı́stica de un proceso estocástico.
Gráficamente, la situación del lado izquierdo de la condición de ortogonalidad se ilustra en la Figu-
ra 3.3, donde el vector y − h que cumple la definición es único, y coincide con la proyección de y
sobre el plano definido por la información disponible (x1 ):
~y
~y − ~h
~h
P~x1 {~y}
Por lo anteriormente descrito, la esperanza condicional es el estimador que minimiza el error cuadráti-
co medio, por lo que se le suele llamar MMSEE (por su sigla en inglés Minimum Mean Squared Error
Estimator). Si las distribuciones de probabilidad asociadas están bien definidas, este estimador se
calcula en base a la definición clásica de esperanza:
Z +∞
h({X(τ ), a ≤ τ ≤ b}) = Ey|x = y · fy|x (y|x)dy (3.4)
−∞
Ahora bien, esta expresión no siempre genera una solución analı́tica al problema de estimación. Más
aún, la densidad fy|x no es fácil de obtener en la práctica (con suerte, simplemente tenemos una
planilla de datos). Esos problemas motivan la búsqueda de estimadores sub-óptimos (en el sentido
MSE), pero que sean simples de implementar.
Una observación pertinente tiene relación con el hecho de que la esperanza se denomina condicional
porque depende de la realización meidad para x,. Tal como se observa en la Figura 3.4, y mostrará una
distribución condicional distinta para cada valor de x, incluso en casos donde la distribución conjunta
sea uniforme:
Distribuciones diferentes
y
fxy = cte
x1 x2 x3 x4
x
Figura 3.4: Región con distribución uniforme que muestra la condicionalidad de la esperanza.
Tal como se mencionó anteriormente, si se quiere forzar un estimador lineal, esto es, ŷ = Ax + b, en
vez de la estructura propuesta por el estimador esperanza condicional, entonces se sale del contexto
ESTIMADORES MSE Y LS 37
de minimizar el error cuadrático medio. En este caso se habla del estimador lineal de mı́nimo error
cuadrático medio. Aquı́, el concepto de mejor tiene, nuevamente, que ver con la minimización del
error cuadrático medio.
En este caso se propone encontrar un estimador lineal (estructuras afines pueden incluirse si se asume
una entrada constante) que cumpla con ser insesgado y con el criterio de ortogonalidad. Considerando
una estructura del tipo ŷ = Ax + b, se deben cumplir entonces, las siguientes condiciones:
1. El estimador debe ser insesgado, es decir, E[e] = 0. Esto tiene como consecuencia que, en
promedio, el estimador acierta y entrega el valor correcto del parámetro.
2. El error de estimación debe ser ortogonal al espacio de variables explicativas, es decir,
cov(e, x) = 0. Esto también puede interpretarse de la siguiente forma: no hay información
que no esté contemplada (o descrita) por el vector x que sea útil para la estimación.
cov(e, x) =cov(y − Ax + b, x)
=cov(y, x) − cov(Ax, x) = 0
Con esto, se llega a la conocida fórmula para el estimador LMMSE (Linear Minimum Mean Squared
Error):
y ≈ (α1 + α2 )x1 , lo que tiene como consecuencia que se deben encontrar dos incógnitas (α1 y α2 ),
pero se tiene, prácticamente, una sola ecuación. Este problema suele presentarse cuando las varianzas
de α1 y α2 son demasiado grandes, por lo que no se tiene certeza de los valores que se deben usar para
estimar.
Tanto en el caso MSE como en el LMSE se asume que los momentos de segundo orden asociadas
a las variables aleatorias son conocidas. En la práctica, esto no es el caso y tı́picamente dichos mo-
mentos deben estimarse de los datos (medias y matrices de varianza-covarianza empı́ricas). En esta
situación, no puede asegurarse que los estimadores desarrollados minimicen el error cuadrático me-
dio. Sólo puede asegurarse que se minimice el error cuadrático asociado al ajuste para los datos que
se adquirieron. Es ası́ como aparece el concepto de mı́nimos cuadrados (LS, Least Squares en inglés).
y = α1 x1 + α2 x2 + ... + αn xn + ω (3.8)
2
yx1 = α1 x1 + · · · + αn x1 xn + ωx1
..
.
yxn = α1 x1 xn + · · · + αn x2n + ωxn
2
x1 · · · xi xj
α1
E[xy] = E .. ... .. . ... + E[x]E[ω]
. .
xj xi · · · x2n αn
2
x1 · · · xi xj
α1
E[xy] = E .. .. .. . ...
(3.9)
. . .
xj xi · · · x2n αn
Una observación importante es que se debe calcular la matriz de esperanzas de la Ecuación 3.2.4,
resulta muy común que esta matriz no se puede calcular de forma explı́cita, por que se suele estimar.
En este caso se habla de un estimador LS (Least Squares).
Conceptualmente, este estimador pretende encontrar un θ̂ tal que, realizado el experimento, sea el
más verosı́mil, es decir, que el estimador para el parámetro que convierta al experimento realizado en
el caso que se observarı́a con mayor frecuencia. Este razonamiento lleva al concepto del estimador
MLE (por sus siglas en inglés Maximun Likelihood Estimator).
Definición 3.2. Se define la función de verosimilitud, en el caso discreto, a:
En caso de que las variables x1 , ..., xm sean i.i.d. se tiene que la función de verosimulitud se puede
escribir como:
m
Y
`(θ, x) = fxi |θ (xi |θ) (3.12)
i=1
Es consistente.
Es asintóticamente insesgado.
Distribuye asintóticamente como una Gaussiana y además es asintóticamente eficiente: la
varianza del estimador alcanza la Cota de Cràmer-Rao.
Es invariante frente a funciones no lineales. fˆ(θ)M L = f (θ̂M L )
40 ESTIMACIÓN
EJEMPLO 3.1
Sean
y(t) = θ + n(t)
n
Y 1 −(xi −θ)2
f (y|θ) = √ e 2σ2
i=1
2πσ
Se quiere asignar θ tal que la secuencia medida {y(1), y(2), ..., y(n)} represente el resultado más
frecuente.
EJEMPLO 3.2
Considere un set de m muestras, las cuales pueden ser modeladas como xi = θ + ni , donde el el
ruido distribuye ni ∼ N (0, σ 2 ) y se quiere encontrar una expresión para el estimador de máxima
verosimilitud para el parámetro θ y para la varianza σ 2 .
Respuesta: Dado que las muestras son i.i.d., la distribución conjunta se calcula de la forma
n
Y1 (x(i)−θ)2
`(x(1), x(2), ..., x(m), θ) = e− 2σ2
√
i=1
2πσ
m P
1 m (x(i)−θ)
2
= √ e− 1 2σ2
2πσ
√ m
X (x(i) − θ)2
∆(x, θ) = log(`(x, θ)) = −m · log ( 2πσ −
1
2σ 2
Para obtener el valor del estimador se debe derivar ∆(x, θ) con respecto al (o los) parámetro(s),
ası́ entonces:
m
X 2(x(i) − θ̂M L )
∂∆(x, θ)
= 0 =⇒ − =0
∂θ 1
2σ 2
m
X m
X
⇐⇒ x(i) = θ̂M L
1 1
m
X
⇐⇒ x(i) = (m − 1 + 1)θ̂M L
1
m
X xi
⇐⇒ = θ̂M L
i=1
m
ESTIMADOR MÁXIMO A POSTERIORI 41
Procediendo de forma análoga para la estimar la varianza se maximiza ∆(x, θ) con respecto a
v = σ 2 , de esta manera se tiene:
m
√ X (x(i) − θ)2
∆(x, θ) = −m · log( 2πv) −
1
2v
X (x(i) − θ)2 m
∂∆(x, θ) 1 1 1
= 0 =⇒ −m √ √ 2π − − 2
=0
∂v 2πv 2 2πv 1
2v
m 2
m X (x(i) − θ)
− + =0
2v 1
2v 2
m m
X (x(i) − θ)2 X (x(i) − θ)2
= m =⇒ = v∗
1
v 1
m
Donde v ∗ = σ̂M
2
L
Notemos que log(fθ|x (θ|x)) caracteriza el conocimiento a posteriori y log(fθ (θ)) el conocimiento a
priori.
Al maximizar la distribución a posteriori, log(f (x)) desaparece (al derivar con respecto a θ), por lo
que este término en la práctica no se considera en el análisis.
EJEMPLO 3.3
m
Y 1 (xi − θ)2
Sea la distribución conjunta condicional fx1 ,...,xm |θ = √ e−
i=1
2πσ 2σ 2
42 ESTIMACIÓN
2
− θ2
Si se asume que θ ∼ N (0, σθ2 ), tenemos que fθ (θ) = √ 1 e σθ , con lo que el estimador máximo
2πσθ
a posteriori es:
m
σ2 1 X
θ̂M AP = 2 θ2 xi
σθ + σ /m m i=1
Notemos que σθ es conocimiento a priori. Si hay gran incertidumbre respecto del valor del paráme-
tro, los datos son decidores a la hora de calcular el estimador. Si hay poca incertidumbre, el conoci-
miento a priori decide. Sin embargo, el estimador sólo puede mejorar si se tiene más información.
Un estádistico es una función de v.a.. Los estadı́sticos pretenden resumir la información disponible en
la distribución de probabilidad. El estadı́stico se declara suficiente si permite escribir: fx|T (x|T, θ) =
fx|T (x|T ). De lo anterior se desprende que “no se necesita conocer θ”si conozco el estadı́stico (pues
θ puede calcularse a partir del estadı́stico).
Definición 3.4. Sea t una función de v.a., se dice que t es estadı́stico suficiente si se puede escribir:
.
Resulta interesante notar que la función a(x) puede ser la unidad; es decir, si se puede escribir
fx|θ (x|θ) = b(t(x), θ), entonces t es estadı́stico suficiente.
EJEMPLO 3.4
Pn
i=1 (xi − µ)2
1 −
fx (x|µ, σ) = √ n e 2σ 2
2πσ
n
1X
t (x) = xi
1
n i=1
n
1X
(xi − t1 )2
t2 (x) =
n i=1
ESTADÍSTICOS SUFICIENTES 43
n(t1 − µ)2 )
1 −nt2
fx (x|µ, σ) = √ n exp exp −
2πσ 2σ 2 2σ 2
EJEMPLO 3.5
n
Y
fx|p (x|p) = pxi (1 − p)1−xi , xi = 0, 1
i=1
Pn Pn
fx|p (x|p) = pPi=1 xi (1 − p) i=1 1−xi
n Pn
= p i=1 xi (1 − p)n− i=1 xi
= pt (1 − p)n−t
t
=⇒ p̂M L =
n
Es interesante notar que:
44 ESTIMACIÓN
P
X P (x1 = x1 , .., xn = xn , T = xi = t/p)
f (x1 , x2 , ..., xn | xi , p) = P
P (T = xi = t|p)
pt (1 − p)n−t
= n t
t
p (1 − p)n−t
−1
n
=
t
Finalmente, no depende de p.
Ası́, se puede demostrar de las dos formas que es un estadı́stico suficiente.
∂log(`(x, θ))
s(x, θ) = (3.14)
∂θ
Con la definción anterior, resulta interesante recordar que s(x, θ̂M L ) = 0. Es decir, la función toma
valores cercanos a cero para valores cercanos al MLE.
Una propiedad importante de esta función es la que resulta al multiplicarla con un estadı́stico t.
∂E[tT ] ∂tT
E[s · tT ] = − E[ ] (3.15)
∂θ ∂θ
EFICIENCIA DE UN ESTIMADOR 45
R
∂E[tT ] ∂ `(x, θ) · tT dx
=
∂θ ∂θ
∂tT
Z Z
∂`(x, θ) T
= `(x, θ) · dx + t dx
∂θ ∂θ
∂tT
= E[ ] + E[s · tT ]
∂θ
Nos hacemos la siguiente pregunta: si se quiere encontrar un estimador θ̂ para θ tal que E[θ̂] = θ
(insesgado) ¿Cuál es la mı́nima varianza V[θ̂] ?
Para esto, definimos lo siguiente:
Definición 3.6. La Matriz de Información de Fisher corresponde a la matriz de covarianza de la
función de puntaje, y se denota por J(θ). Dado que la función de puntaje es de media nula, se tiene
que:
" #
∂(log(`(θ, x))) ∂(log(`(θ, x))) T
J(θ) = E[s(θ, X)sT (θ, X)] = E (3.16)
∂θ ∂θ
∂ ∂(log(`(θ, x))) T
J(θ) = −E[ ] (3.17)
∂θ ∂θ
Teorema 3.2. El Teorema de Crámer-Rao indica que, si θ̂ es un estimador insesgado de θ basado
en una función de verosimilitud diferenciable, entonces:
Problemas Resueltos
EJEMPLO 3.6
Sean X e Y v.a. que distribuyen uniformemente sobre la región triangular del plano x-y definida
por los vértices (0,0), (0,0.8), y (1,2). Encuentre el estimador LMMSE de X dado Y, y el estimador
MMSE de X dado Y. Calcule el MSE (mean squared error) para cada estimador. ¿Qué porcentaje
de reducción ofrece el estimador MMSE respecto del LMMSE?
1.8
1.6
1.4
1.2
Y
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
X
La Figura 3.5 muestra la región comprendida entro los puntos (0, 0) (0, 45 ) (1, 2), cuya área es
base · altura 0,8 · 1
= . Dado que X,Y distribuyen uniforme sobre esta región, la probabilidad
2 2
conjunta está dada por:
1
fX,Y (x, y) =
0,4
48 ESTIMACIÓN
MMSE Finalmente:
Z y −1
2 1 5
Con lo anterior, se puede calcular el MM- E[X|Y ] = y− 4 x − (y − 2) dx
SE por definición como E[X|Y ]. Nótese que 6
5 0,4 6
5
este MMSE está definido por partes, cuan- 1
do 0 ≤ Y ≤ 0,8 y 0,8 ≤ Y ≤ 2. Caso = (2y − 1)
0 ≤ Y ≤ 0,8 3
Z y Y su MSE es E[(x − x̂)2 ] = 0,00667.
2
E[X|Y ] = xfX|Y (x|y)dx
0 LMMSE
Luego se debe calcular la distribución condi-
cional, lo cual se puede calcular mediante la Para calcular el LMMSE se utilizará la formu-
siguiente identidad: la directamente:
σXY
fX,Y (x, y) = fX|Y (x|y)fy (y) x̂ = (y − ȳ) + x̄
σY2
El lado derecho de la identidad se conoce, se Para esto se debe calcular las covarianzas y las
debe calcular entonces fy (y) el cual se puede respectivas esperanzas.
calcular por definición:
Z y Cov(X, Y ) = E[XY ] − E[X] ∗ E[Y ]
2
fy (y) = fX,Y (x, y)dx V[Y ] = E[Y 2 ] − E2 [Y ]
0
y
1 5y Se procede a calcular cada termino:
Z
2
= dx =
0 0,4 4 1 6
x+ 45
1 2
Z Z
5
4 38
Donde: Cov(X, Y ) = ; V[Y ] =
45 225
Z y
2
fy (y) = fX,Y (x, y)dx Finalmente el LMMSE está dado por:
0
Z y
1 5 10 14 1
=
2
dx = − (y − 2) x̂ = (y − ) +
y− 4
5 0,4 6 19 15 3
6
5
Y el MSE E[(x − x̂)2 ] = 0,453216
PROBLEMAS RESUELTOS 49
MMSE LMMSE
Dada las condiciones del problema, nuestras Por definición E[Y ] = 0. Ahora calculemos
distribuciones queda como sigue: E[XY ]
y2 |y|2 y2
e− 2 ∞ ∞
e− 2 e− 2
Z Z
fY (y) = √ E[XY ] = √ √ dxdy
2π −∞ 0 2π 2π
|y|2
e − 2 =0
fX|Y (x|y) = √ ⇒Cov(X, Y ) = 0
2π
( q 2
2 − y2 Finalmente el estimador buscado es:
e y>0
⇒ fX (y) = π
0 si no
r
2
x̂ = E[X] =
π
4
De esta manera, MMSE se calcula como si- Donde su MSE es E[(x − x̂)2 ] = +1
π
gue:
|y|2
∞
e−
Z
2
E[X|Y ] = x√ dy = x = |y|
0 2π
Análisis
Resulta interesante notar que para ambos casos, que el MSE del estimador MMSE es menor que
el MSE del estimador LMMSE, esto dado que el LMMSE tiene como hipóstesis algo muy fuerte,
lo cual no minimiza necesariamente el Error Cuadrático Medio.
Solo en a) tiene sentido calcular un porcentaje de reducción, dado que en b) el MSE del MMSE
es 0.
0,453216 − 0,0066666
%= · 100 = 98,52 %
0,453216
50 ESTIMACIÓN
EJEMPLO 3.7
Considere el problema donde se mide x[n] = Arn + w[n] para n = 0, 1, . . . N − 1, donde w[n]
es ruido Gaussiano blanco con varianza σ 2 , r > 0 y A quiere ser estimado. Encuentre la cota
de Cramér-Rao para A. Muestre que un estimador eficiente existe y encuentre su varianza. ¿Qué
sucede si N → ∞, considerando distintos valores de r?
Se tiene que la cota de Crammer-Rao está dada por:
1 1
C −R= = ∂ 2
I(θ) −E[ ∂A2 log(`(x))|θ]
Luego:
N −1
1 1 X ∂
log(`(x)) = (N − 1) log √ − 2 (xi − Ari )2 /
2πσ 2σ i=0 ∂A
N −1
1 X ∂
S(~x|A) = 2 2(xi − Ari ) · ri /
2σ i=0 ∂A
N −1
1 X 2i 1
=− 2 r /−
σ i=0 E[·|A]
1 1 − r2
= σ2
I(A) 1 − r2N
1 − r2 2
V[Â] = σ
1 − r2N
Resulta interesante notar que:
r < 1 ⇒ V[Â] → (1 − r2 )σ 2
σ2
r = 1 Se debe recalcular la fórmula. Luego V[Â] = I(A) = N
.
r > 1 ⇒ V[Â] → 0
52 ESTIMACIÓN
EJEMPLO 3.8
Sea X = [x1, x2, x3]T un vector Gaussiano con esperanza y matriz de covarianza dados por
[0, 0, 0]T y [1 0,7 0,5; 0,7 4 0,2; 0,5 0,2 3], respectivamente. Determine los coeficientes óptimos
para el predictor x̂3 = c1 x1 + c2 x2 y el mı́nimo error medio cuadrático asociado. ¿Cómo mo-
dificarı́a la estructura del predictor y cómo cambiarı́an sus resultados si la esperanza de X fuera
[123]T ?
~ sobre (x1 , x2 ). De este modo, se desea calcular:
Se calculará la proyección K
~ = P~
RK
Donde:
" # " #
E[X1 , X1 ] E[X1 , X2 ] E[X3 , X1 ]
R= P =
E[X2 , X1 ] E[X2 , X2 ] E[X3 , X2 ]
Como E[Xi ] = 0∀i, se desprende que los vectores y matrices anteriores son:
" # " #
1 0,7 0,5
R= P =
0,7 4 0,2
Ası́: " #
62
~ =
K 117
5
− 117
Luego el MSE:
107
E[(x3 − xˆ3 )2 ] = S33 + µ23 − P~ T R−1 P~ =
39
Ahora bien, si las esperanzas cambian y ya no son cero, el predictor debe considerar en su estruc-
tura estas, de esta forma:
EJEMPLO 3.9
N
Y
f~x (X|θ) = θxθ−1
i / log(·)
i=1
N
X d(·)
= N log(θ) + (θ − 1) log(xi ) /
i=1
dθ
N
1 X
0=N + log(xi )
θ̂ i=1
1
θ̂ = − 1
PN
N i=1 log(xi )
Correcciones, sugerencias, reclamos y/o felicitaciones del capı́tulo, por favor enviarlas a: morchard@ing.uchile.cl.
CAPÍTULO 4
FILTRO DE KALMAN
4.1. Introducción
Este capı́tulo presenta una de las posibles formas en las que pueden deducirse las ecuaciones del Filtro
de Kalman. Iniciamos esta exposición recordando algunos conceptos básicos, relativos a sistemas
lineales y el observador de Luenberger.
Durante la primera parte del curso, se estudió que para sistemas dinámicos lineales de tiempo discreto
se puede usar la siguiente representación en variables de estado:
En este contexto, si se conocen completamente las matrices A, B, C y D, las únicas fuentes de error
para el observador se asociaban al desconocimiento de las condiciones iniciales del proceso. Sin
embargo, en la realidad ocurre que las mediciones siempre están contaminadas por ruido. Es más,
55
56 FILTRO DE KALMAN
pocas veces podemos darnos el lujo de enunciar que conocemos completamente la estructura del
modelo del proceso y las matrices ya mencionadas. De este modo, lo primero que se debe considerar
es que la incertidumbre asociada al proceso de estimación del vector de estado (objetivo último del
observador) se puede caracterizar en función de principalmente dos elementos: el ruido de sensor, v,
y la incertidumbre realativa a la transición de estados (ruido de proceso), ω. Por lo tanto, un modelo
dinámico para sistemas lineales con incertidumbre de medición puede representarse:
De lo anterior, es fácil concluir que, bajo estas condiciones, el filtro de Luenberguer no es suficiente
para asegurar convergencia de su salida (estimador del vector de estado).
Es por este motivo que Kalman introdujo el concepto de una ganancia de aprendizaje variante en el
tiempo, es decir F = F (k). Conceptualmente, se desea ir corrigiendo el valor la ganancia F con-
siderando la información ya recopilada a través de mediciones, hasta lograr convergencia. En
particular, se busca que el estimador de estados (denominado Filtro de Kalman) cumpla las siguientes
propiedades:
El caso particular x̂(n|n−1) se denomina predicción a un paso. Con todo lo anteriomente mencionado
se definen entonces:
Definición 4.2. Error de predicción: e(n|i) = x(n) − x̂(n|i)
Definición 4.3. Varianza del error de predicción: P (n|i) = E[e(n|i)eT (n|i)]
Los tres estadios asociados a una iteración del filtro de Kalman, se pueden observar en la Figura 4.1.
1 Con esta propiedad, se suele decir que el filtro de Kalman es óptimo, pero es importante recordar que sólo es óptimo en el sentido MSE.
DEDUCCIÓN ANALÍTICA 57
cción a un paso
Predi
Modelo Corrección
Ası́, a través del modelo del sistema, y el conocimiento acumulado hasta n − 1, se predice el valor
del vector de estado para el instante n,. Luego, habiéndose recibido la medición y(n), se realiza una
corrección a esta predicción a un paso. Ası́ se obtiene la estimación de estados válida para el instante
n.
El filtro de Kalman pretende ser una herramienta de estimación que funcione en condiciones lo más
generales posibles. Este método se puede utilizar cuando el sistema es lineal y está afecto a ruido
aditivo. En esta sección, deduciremos las expresiones que permiten implementar el Filtro de Kalman,
bajo ciertos supuestos que sólo tienen un fin pedagógico. Primero demostraremos que el estimador
buscado tiene una forma similar a la del estimador de Luenberguer. Para esto se debe considerar la
condición de estimador insesgado, es decir:
La expresión anterior se reduce notablemente dado que v(n) es ruido blanco y asumiendo, sin pérdida
de generalidad, que D(n) = 0.
Recordando que:
E[e(n|n − 1)] = 0 ⇒ E[K 0 (n)e(n|n − 1)] = 0 (4.6)
E imponiendo que la condición de insesgo se cumpla para toda muestra x(n), se tiene:
Con este resultado y utilizando la norma de una matriz como la traza de la misma, se quiere:
Problemas Resueltos
EJEMPLO 4.1
Se tiene el siguiente sistema ruido de sensor v(n), que se modela como ruido blanco Gaussiano:
x(n + 1) = x(n)
y(n) = x(n) + v(n)
El objetivo es iterar el algorimo del filtro de kalman, para observar el comportamiento del mismo.
Notemos que A = 1, B = 0, C = 1 y D = 0.
i)
ii)
p(n − 1)
K(n) =
p(n − 1) + σv2
iii)
p(n − 1)
x̂(n) = x̂(n − 1) + [y(n) − x̂(n − 1)]
p(n − 1) + σv2
σv2
p(n) = p(n − 1)
p(n − 1) + σv2
60 FILTRO DE KALMAN
x̂(1|0) = x̂(0)
p̂(1|0) = p(0)
Luego:
p(0)
K(1) =
p(0) + σv2
p(0)
x̂(1) = x̂(0) + [y(1) − x̂(0)]
p(0) + σv2
σv2 p(0)
x̂(1) = 2
x̂(0) + y(1)
p(0) + σv p(0) + σv2
σv2
p(1) = p(0) < p(0)
p(0) + σv2
Notemos que estas ecuaciones son un promedio ponderado, es decir, se puede variar
cuanta importancia se le da a x̂(0) e y(1). Además, la incertidumbre disminuye.
En la siguiente iteración se obtendrá que, n = 2:
σv2
p(2) = p(0)
2p(0) + σv2
σv2
p(n) = p(0)
n · p(0) + σv2
EJEMPLO 4.2
i)
x̂(n|n − 1) = x̂(n − 1)
p(n|n − 1) = p(n − 1) + σω2
p(n − 1) + σω2
K(n) =
p(n − 1) + σω2 + σv2
p(n − 1) + σω2
p(n) = 2 2
σv2
p(n − 1) + σω + σv
Obs: Notemos que en este caso, K(n) es mayor que en el caso sin ruido de proceso, es
decir no se le cree tanto al modelo, por lo que se da más peso al sensor.
PROPUESTO: Encontrar una expresión con n explı́cito para la ganancia de Kalman.
EJEMPLO 4.3
( P3.b) Examen Otoño 2015) Considere un sistema con dos sensores que toman medidas de una
constante desconocida x. Cada observación es ruidosa y puede ser modelada de la forma:
donde v(1) y v(2) son variables aleatorias definidas por ruido no-correlacionado, media cero y
varianzas σ12 y σ22 . , respectivamente. En auscencia de información previa acerca del valor de x, se
busca el mejor estimador lineal de x de la forma:
x̂ = k1 y(1) + k2 y(2)
A partir del marco que proporciona el filtro de Kalman, encuentre los valores para k1 y k2 que
definen un estimador insesgado para x que minimiza el error cuadrático medio, E{(x − x̂)2 },
considere que los sensores toman sus medidas y(1) e y(2) alternada y secuencialmente.
Respuesta: Dadas las caracterı́sticas del problema, es posible trabajar el filtro de kalman con va-
lores escalares sin pérdida de generalidad, esto permite el reemplazo de matrices por coeficientes.
Ahora bien, para ajustar el problema al modelo propuesto en las expresiones 4,2 y 4,3 se debe
recordar que x es una constante y que mantendrá su valor en cada paso del sistema, con esto se
tiene que A = 1, B = 0, ω(n) = 0.
x(n + 1) = x(n)
62 FILTRO DE KALMAN
Por otro lado, se quiere una expresión para y(n) que represente la alternancia de los sensores , una
buena forma de hacerlo es mediante la expresión:
" #
v1
y(n) = x + D Donde D = [1 0] si n = 1, D = [0 1] si n = 2
v2
Para obtener el estimador que minimiza el ECM es necesario utilizar toda información disponible,
es decir, iterar en el filtro de kalman dos veces (Ver definición 4.1). Sean las ecuaciones del filtro:
1. x̂(1|0) = x̂(0)
2. P (1|0) = P (0)
3.
−1
K(1) = P (1|0) P (1|0) + σ12
P (0)
= → 1∗
P (0) + σ12
4.
P (1) = 1 − K(1) P (0)
σ12 P (0)
= → σ12
P (0) + σ12
5.
x̂(1|1) = x̂(1|0) + K(1) y(1) − x̂(1|0)
= y(1)
2. P (2|1) = P (1)
3.
P (2|1)
K(2) =
P (2|1) + σ22
P (1)
=
P (1) + σ22
σ2
= 2 1 2
σ1 + σ2
4. Notar en esta parte que el valor de P (2|2) no se utiliza en esta iteración, y dado que es la
última, se puede prescindir del cálculo.
5.
x̂(2|2) = x̂(2|1) + K(2) y(2) − x̂(2|1)
σ2
= y(1) + 2 1 2 y(2) − y(1)
σ1 + σ2
2
σ σ2
x̂ = 2 2 2 y(1) + 2 1 2 y(2)
σ1 + σ2 σ1 + σ2
EJEMPLO 4.4
En este problema, usaremos el filtro de Kalman para identificación de sistemas. Asuma que te-
nemos un sistema lineal de tiempo discreto que se describe a través de la siguiente ecuación de
diferencias (u(n) es la entrada e y(n) es la salida):
64 FILTRO DE KALMAN
for i=3:n
y(i)=-0.4*y(i-1)+0.5*y(i-2)+u(i)+sqrt(sigma_v);
end
b) Con los datos generados en (a), use el filtro de Kalman para identificar los coeficientes de un
modelo de segundo orden para y(n) de la forma:
b0 + b1 z −1
H(z) =
1 + a1 z −1 + a2 z −2
Al correr el algoritmo un par de veces se nota que los resultados son relativamente similares. De
esta manera se puede observar la efectividad del filtro de kalmal para estimación de parámetros
de la función de transferencia.
ans = ans =
0.8644 0.8644
0.8644 0.8644
-0.4057 -0.4057
0.4942 0.4942
>> p2s2
ans =
0.8644
0.8644
-0.4057
0.4942
c) Grafique la salida del modelo encontrado en la parte (b) y, en el mismo gráfico, muestre la
salida del sistema real. Compare los resultados.
PROBLEMAS RESUELTOS 65
1.5
y(n)
1
Sistema Real
0.5 Sistema Estimado
0
0 20 40 60 80 100 120 140 160 180 200
n
d) Repita las partes (a)-(c) cuando la entrada u(n) es una secuencia de muestras de ruido blanco
Gaussiano i.i.d. de varianza unitaria.
En esta parte se observa que los parámetros son mejor estimados que cuando la entrada es un
escalón. A continuación se muestran ejemplos y evolución del sistema.
ans = ans =
0.9931 1.0046
-0.0021 0.0016
-0.3989 -0.3973
0.4928 0.5039
>> p2s2
ans =
1.0110
0.0051
-0.3984
0.5213
Sistema Real vs Sistema Estimado
400
200
y(n) 0
-200
Sistema Real
-400 Sistema Estimado
-600
0 20 40 60 80 100 120 140 160 180 200
66 FILTRO DE KALMAN n
Figura 4.3: Sistema Real vs Estimado, entrada u(n) ∼ N (0, 100).
e) Grafique p(n) (varianza del error predicha) y s(n) (varianza real del error) versus n para n =
0, 1, ..., 150 y discuta lo que observa.
Caso u(n) constante En este caso, se observa que la varianza predicha aumenta casi de ma-
nera lineal, en cambio la varianza real se va a cero muy rápidamente.
EMS
4 4
2 2
0 0
0 50 100 150 200 0 50 100 150 200
n n
×10 5 EMS de X3 (n) ×10 5 EMS de X4 (n)
6 6
P(n) P(n)
S(n) S(n)
4 4
EMS
EMS
2 2
0 0
0 50 100 150 200 0 50 100 150 200
n n
EMS
EMS
1 1
0 0
0 50 100 150 200 0 50 100 150 200
n n
×10 4 EMS de X3 (n) ×10 4 EMS de X4 (n)
3 2
P(n) P(n)
1.5
2 S(n) S(n)
EMS
EMS
1
1
0.5
0 0
0 50 100 150 200 0 50 100 150 200
n n
EJEMPLO 4.5
Consideremos el circuito RC que muestra la Figura 4.6. Este representa la medición de la tensión
através del condensardor. Notemos que existe una fuente de incerteza asociada al instrumento de
medición.
R +
+
Ein C Eout V
-
e(t) de(t)
Iin (t) − −C =0
R dt
Donde e(t = 0) = e0 la tensión inicial. La medida de la salida está dada por Ke ganancia asociada
al instrumento de medición.
Voltaje [V]
2 Estimación
ex
0
1
0 -0.1
0 5 10 15 20 0 5 10 15 20
Tiempo [s] Tiempo [s]
Estimación de Salida Error de Salida
10 10
Medición
5 Estimación
ey
0
ŷ
-5 -10
0 5 10 15 20 0 5 10 15 20
Tiempo [s] Tiempo [s]
×10 -3 Ganancia ×10 -3 Update
1 2
K
0.5 1
0 0
0 5 10 15 20 0 5 10 15 20
Tiempo [s] Tiempo [s]
1. T. K. Moon, W.C. Stirling, “The Kalman Filter”, in Mathematical Methods and Algorithms
for Signal Processing. Prentice-Hall: New Jersey, 2000.
2. J. V. Candy, “Classical Bayesian State-Space Processors”, in Bayesian Signal Processing
Classical, Modern, and Particle Filtering Methods. John Wiley & Sons, Inc., Hoboken:
New Jersey, 2009.
3. R. F. Stengel “Optimal State Estimation”, in Optimal Control and Estimation. Dover Pu-
blications, Inc.: New York, 1994.
Correcciones, sugerencias, reclamos y/o felicitaciones del capı́tulo, por favor enviarlas a: morchard@ing.uchile.cl.
AGRADECIMIENTOS
Este apunte no habrı́a sido posible sin el apoyo espontáneo del profesor Marcos Orchard, ni tampoco
sin el aporte de los siguientes colaboradores:
Alejandro Veragua
Sebastián Sepúlveda
No está demás recordar que cualquier corrección, sugerencia, reclamo y/o felicitaciones se reciben en
este correo:
apunte-ssii@googlegroups.com.
71