Wykres kwantyl-kwantyl
Wykres kwantyl-kwantyl (wykres Q-Q[1]) – graficzna metoda porównywania dwóch rozkładów prawdopodobieństwa poprzez wykreślenie ich kwantyli względem siebie[2]. Punkt (x, y) na wykresie odpowiada jednemu z kwantyli drugiego rozkładu (współrzędna y) wykreślonego względem tego samego kwantyla pierwszego rozkładu (współrzędna x).
Jeżeli dwa porównywane rozkłady są podobne, punkty na wykresie Q-Q będą w leżeć w pobliżu linii y = x. Jeśli między rozkładami istnieje doskonała lub przybliżona zależność liniowa, punkty na wykresie Q-Q będą w przybliżeniu leżeć na linii prostej, ale niekoniecznie będzie to linia y = x.
Wykres kwantyl-kwantyl służy do porównywania kształtów rozkładów, ilustrując, w jakim stopniu właściwości, takie jak położenie, skala i skośność w porównywanych rozkładach są zgodne. Wykresy Q-Q można wykorzystać do porównania danych empirycznych (próbek) i rozkładów teoretycznych. Użycie wykresów Q-Q do porównania dwóch próbek danych można postrzegać jako nieparametryczne podejście do porównywania ich rozkładów. Wykres Q-Q jest generalnie wygodniejszy pod względem diagnostycznym w porównaniu z histogramami przedstawiającymi próby, nie jest jednak tak powszechnie znany.
Wykresów kwantyl-kwantyl używa się często do porównywania danych empirycznych z modelem teoretycznym[3][4], ale mogą służyć również do porównywania ze sobą dwóch rozkładów teoretycznych[5].
Definicja i konstrukcja
[edytuj | edytuj kod]Głównym krokiem w konstruowaniu wykresu kwantyl-kwantyl jest obliczenie lub oszacowanie kwantyli, które mają zostać wykreślone. Jeśli jedna lub obie osie na wykresie Q-Q opierają się na rozkładzie teoretycznym z ciągłą dystrybuantą, wszystkie kwantyle są jednoznacznie zdefiniowane i można je uzyskać za pomocą odwrócenia dystrybuanty. Jeżeli teoretyczny rozkład prawdopodobieństwa z nieciągłą dystrybuantą jest jednym z dwóch porównywanych rozkładów, niektóre kwantyle mogą nie zostać zdefiniowane, w związku z czym może zaistnieć konieczność interpolacji. Jeśli wykres Q-Q opiera się na danych empirycznych, stosuje się różnorodne estymatory kwantyli.
Prostym przypadkiem jest sytuacja, gdy mamy dwa zestawy danych empirycznych o tym samym rozmiarze. W takim przypadku, aby sporządzić wykres, należy uporządkować każdy zbiór w kolejności rosnącej, następnie połączyć w pary i wykreślić odpowiednie wartości. Bardziej skomplikowana konstrukcja ma miejsce w przypadku porównywania dwóch zbiorów danych o różnych rozmiarach. Aby w tym przypadku skonstruować wykres Q-Q, konieczne jest zastosowanie interpolowanego oszacowania kwantyli, aby można było skonstruować kwantyle odpowiadające temu samemu prawdopodobieństwu bazowemu.
Mówiąc bardziej abstrakcyjnie[5] mając dwie skumulowane funkcje rozkładu prawdopodobieństwa F i G, z funkcjami kwantylowymi F−1 i G−1, na wykresie Q-Q przedstawia się q-ty kwantyl F względem q-tego kwantyla G dla zbioru wartości q. Zatem wykres Q-Q można uznać za krzywą parametryczną indeksowaną względem [0,1] wartościami w płaszczyźnie rzeczywistej R2.
Interpretacja
[edytuj | edytuj kod]Kolejne punkty na wykresie Q-Q od lewej do prawej są zawsze w porządku niemalejącym. Jeżeli dwa porównywane rozkłady są identyczne, wykres Q-Q przebiega wzdłuż linii 45° y=x. Jeśli oba rozkłady są doskonale zgodne po liniowym przekształceniu, wykres Q-Q przebiega według pewnej prostej, ale niekoniecznie linii y = x. Jeśli ogólne nachylenie wykresu Q-Q jest mniejsze niż nachylenie linii y = x, rozkład na osi poziomej jest bardziej rozproszony niż rozkład na osi pionowej. I odwrotnie, jeśli ogólne nachylenie wykresu Q-Q jest bardziej strome niż linii y = x, rozkład na osi pionowej jest bardziej rozproszony niż rozkład na osi poziomej. Wykresy kwantyl-kwantyl mają często kształt łuku lub litery S, co wskazuje, że jeden z rozkładów jest bardziej skośny niż drugi lub że jeden z rozkładów ma cięższe ogony niż drugi.
Chociaż wykres Q-Q opiera się na kwantylach, na standardowym wykresie Q-Q nie jest możliwe określenie, który punkt na wykresie przedstawia dany kwantyl. Na przykład nie jest możliwe określenie mediany żadnego z dwóch porównywanych rozkładów poprzez sprawdzenie wykresu Q-Q. Czasem na wykresach Q-Q wskazuje się decyle, dzięki któremu takie ustalenia są możliwe.
Punkt przecięcia i nachylenie linii regresji między kwantylami umożliwia pomiar względnego położenia i względnej skali próbek. Jeżeli mediana rozkładu na osi poziomej wynosi 0, punkt przecięcia linii regresji jest miarą położenia, a nachylenie jest miarą skali. Odległość między medianami to kolejna miara względnego położenia odzwierciedlona na wykresie Q-Q. Współczynnik korelacji pomiędzy sparowanymi kwantylami próbek może stanowić opisową miarę zgodności rozkładów. Im współczynnik korelacji jest bliższy jedności, tym kształt rozkładów (z pominięciem przesunięcia i skali) jest bliższy.
Innym powszechnym zastosowaniem wykresów Q-Q jest porównywanie rozkładu próbki z rozkładem teoretycznym, takim jak standardowy rozkład normalny N(0,1). Podobnie jak w przypadku porównywania dwóch próbek danych, porządkuje się dane (formalnie oblicza statystyki porządkowe), a następnie zestawia je z określonymi kwantylami rozkładu teoretycznego.
Oprogramowanie
[edytuj | edytuj kod]Język programowania R zawiera funkcje umożliwiające tworzenie wykresów Q-Q: qqnorm i qqplot z pakietu
. Pakiet stats
implementuje szybsze kreślenie dużej liczby punktów danych.
fastqq
Przypisy
[edytuj | edytuj kod]- ↑ SAS Help Center [online], documentation.sas.com [dostęp 2024-07-04] .
- ↑ Wilk, Probability plotting methods for the analysis of data, „Biometrika”, 1, 55, Biometrika Trust, 1968, s. 1–17, DOI: 10.1093/biomet/55.1.1, PMID: 5661047, JSTOR: 2334448 .
- ↑ Ramanathan Gnanadesikan , Methods for statistical data analysis of multivariate observations, Wiley series in probability and mathematical statistics, New York, NY: Wiley, 1977, s. 199, ISBN 978-0-471-30845-4 [dostęp 2024-07-04] (ang.).
- ↑ Henry C. Thode , Testing for normality, Statistics, textbooks and monographs, New York: Marcel Dekker, 2002, s. 21, ISBN 978-0-8247-9613-6 [dostęp 2024-07-04] (ang.).
- ↑ a b Jean Dickinson Gibbons , Subhabrata Chakraborti , Nonparametric statistical inference, wyd. 4th ed., rev. and expanded, Statistics, textbooks and monographs, New York: Marcel Dekker, 2003, s. 144, ISBN 978-0-8247-4052-8 [dostęp 2024-07-04] (ang.).
- ↑ SR 20 – North Cascades Highway – Opening and Closing History. North Cascades Passes, October 2009. [dostęp 2009-02-08].