imported>Bobbolous: /* Ausreißertests */

2025-05-13T07:56:25Z

Ausreißertests

Neue Seite

{{Überarbeiten}}
{{Begriffsklärungshinweis}}

[[Datei:Outlier statistics.svg|mini|Ein Ausreißer-Messwert. Die blaue Gerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit der Einbeziehung.]]
[[Datei:Elements of a boxplot.svg|gerahmt|Der [[Boxplot]] auf einem Zahlenstrahl dargestellt.]]

In der [[Statistik]] nennt man einen Messwert, der stark von der gesamten Messreihe abweicht, '''Ausreißer.''' Dies passiert, wenn ein [[Messwert]] einer [[Messreihe]], die zur Ermittlung der [[Wahrscheinlichkeitsmaß|Verteilung]] einer [[Zufallsvariable|Zufallsgröße]] <math>X</math> dienen soll, nicht aus dieser, sondern aufgrund eines Störeinflusses aus einer anderen Zufallsgröße <math>X'</math> stammt. Hierdurch würde die Berücksichtigung dieses Messwertes zu einer Verfälschung führen, da so Stichproben zweier verschieden verteilter Zufallsgrößen gemischt würden. Die [[robuste Statistik]] beschäftigt sich mit der Ausreißerproblematik. Auch im [[Data-Mining]] beschäftigt man sich mit der Erkennung von Ausreißern. Von Ausreißern zu unterscheiden sind einflussreiche Beobachtungen.

== Überprüfung auf Messfehler ==
Liegt ein Ausreißer vor, muss überprüft werden ob es sich bei dem Ausreißer tatsächlich um ein verlässliches und echtes Ergebnis handelt oder ob ein [[Messfehler]] vorliegt.
: '''Beispiel: ''' So wurde das [[Ozonloch]] über der [[Antarktis]] einige Jahre zwar bereits gemessen, die [[Messwert]]e aber als offensichtlich falsch gemessen bewertet (d. h. als „Ausreißer“ interpretiert und ignoriert) und dadurch nicht in ihrer Tragweite erkannt.<ref>Karl-Heinz Ludwig: ''Eine kurze Geschichte des Klimas: Von der Entstehung der Erde bis heute.'' 2. Auflage. Beck Verlag 2007, ISBN 978-3-406-56557-1, S. 149.</ref>

=== Ausreißertests ===
Ein anderer Ansatz wurde u. a. von Ferguson im Jahr 1961 vorgeschlagen.<ref>{{Literatur |Autor=T. S. Ferguson |Titel=On the Rejection of outliers |Sammelwerk=Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability |Band=1 |Datum=1961 |Seiten=253-287 |Online=http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?handle=euclid.bsmsp/1200512169&view=body&content-type=pdf_1}}</ref> Hier wird davon ausgegangen, dass die Beobachtungen aus einer hypothetischen [[Wahrscheinlichkeitsverteilung|Verteilung]] stammen. Ausreißer sind dann Beobachtungen, die nicht aus der hypothetischen Verteilung stammen. Die folgenden Ausreißertests gehen alle davon aus, dass die hypothetische Verteilung eine [[Normalverteilung]] ist und prüfen, ob ein oder mehrere Extremwerte nicht aus der Normalverteilung stammen:
* [[Ausreißertest nach Grubbs]]
* [[Ausreißertest nach Nalimov]]
* [[David-Hartley-Pearson-Test|Ausreißertest nach David, Hartley und Pearson]]
* [[Ausreißertest nach Dixon]]
* [[Ausreißertest nach Hampel]]
* [[Ausreißertest nach Baarda]]
* [[Ausreißertest nach Pope]]
* [[Ausreißertest nach Tukey]]

Der [[Ausreißertest nach Walsh]] basiert hingegen nicht auf der Annahme einer bestimmten Verteilung der Daten. Im Rahmen der [[Zeitreihenanalyse]] können [[Zeitreihen]], bei denen ein Ausreißer vermutet wird, darauf getestet werden und dann mit einem [[Ausreißermodell]] modelliert werden.

=== Unterschiede zu Extremwerten ===
Ein beliebter Ansatz ist es, den [[Boxplot]] zu nutzen, um Ausreißer zu identifizieren. Die Beobachtungen außerhalb der [[Boxplot#Antenne (Whisker)|Whisker]] werden dabei willkürlich als Ausreißer bezeichnet. Für die Normalverteilung kann man ausrechnen, dass knapp 0,7 % der Masse der Verteilung außerhalb der [[Boxplot#Antenne (Whisker)|Whiskers]] liegen. Bereits ab einem Stichprobenumfang von <math>n>143</math> würde man daher mindestens eine Beobachtung außerhalb der Whiskers erwarten (oder auch <math>k</math> Beobachtungen außerhalb der Whiskers bei <math>n>143{,}3362 \cdot k</math>). Sinnvoller ist es daher, statt von Ausreißern von ''Extremwerten'' zu sprechen.

== Multivariate Ausreißer ==
[[Datei:BivariateOutlier.svg|mini|200px|Ausreißer rechts unten im [[Streudiagramm]] und [[Boxplot]]s für jede einzelne [[Variable (Mathematik)|Variable]].]]

In mehreren Dimensionen wird die Situation noch komplizierter. In der Grafik rechts kann der Ausreißer rechts unten in der Ecke nicht durch Inspektion jeder einzelnen [[Variable (Mathematik)|Variable]] erkannt werden; er ist in den [[Boxplot]]s nicht sichtbar. Trotzdem wird er eine [[lineare Regression]] deutlich beeinflussen.

=== Andrews’ Kurven ===
[[Datei:Yale andrews curves.png|mini|200px|Andrews’ Kurven mit unterschiedlich eingefärbten Daten]]

Andrews (1972) schlug vor, jede multivariate Beobachtung <math>(x_{i1}, x_{i2}, \dotsc, x_{ip})</math> durch eine Kurve zu repräsentieren:<ref>D. Andrews: ''Plots of high-dimensional data.'' In: ''Biometrics.'' 28, 1972, S. 125–136, {{JSTOR|2528964}}.</ref>

:<math>f_i(t) = \frac{x_{i1}}{\sqrt{2}}+x_{i2}\sin(t)+x_{i3}\cos(t)+x_{i4}\sin(2t)+x_{i5}\cos(2t)+\dotsb</math>

Damit wird jede multivariate Beobachtung auf eine zweidimensionale Kurve im [[Intervall (Mathematik)|Intervalls]] <math>[-\pi;\pi]</math> abgebildet. Aufgrund der Sinus- und Kosinusterme wiederholt sich die [[Funktion (Mathematik)|Funktion]] <math>f_i(t)</math> außerhalb des [[Intervall (Mathematik)|Intervalls]] <math>[-\pi;\pi]</math>.

Für jeweils zwei Beobachtungen <math>i</math> und <math>j</math> gilt:

:<math>\underbrace{\int_{-\pi}^{\pi} \left(f_i(t)-f_j(t)\right)^2 dt}_{(1)} = \underbrace{\pi \sum_{k=1}^p (x_{ik}-x_{jk})^2}_{(2)}</math>

Der Ausdruck (1) links neben dem [[Gleichheitszeichen]] entspricht (zumindest approximativ) der Fläche zwischen den beiden Kurven, und der Ausdruck (2) rechts ist (zumindest approximativ) der multivariate euklidische Abstand zwischen den beiden Datenpunkten.

Ist also der Abstand zwischen zwei Datenpunkten klein, dann muss auch die Fläche zwischen den Kurven klein sein, d. h. die Kurven der [[Funktion (Mathematik)|Funktionen]] <math>f_i(t)</math> und <math>f_j(t)</math> müssen nahe beieinander verlaufen. Ist jedoch der Abstand zwischen zwei Datenpunkten groß, muss auch die Fläche zwischen den Kurven groß sein, d. h. die Kurven der [[Funktion (Mathematik)|Funktionen]]<math>f_i(t)</math> und <math>f_j(t)</math> müssen sehr unterschiedlich verlaufen. Ein multivariater Ausreißer würde als Kurve sichtbar sein, die sich von allen anderen Kurven in ihrem Verlauf deutlich unterscheidet.

Andrews’ Kurven haben zwei Nachteile:

* Wenn der Ausreißer in genau einer [[Variable (Mathematik)|Variable]] sichtbar ist, nimmt der Mensch die unterschiedlichen Kurven umso besser wahr, je weiter vorne diese [[Variable (Mathematik)|Variable]] auftaucht. Am besten sollte sie die [[Variable (Mathematik)|Variable]] <math>x_{\bullet1}</math> sein. D.h., es bietet sich an, die [[Variable (Mathematik)|Variablen]] zu sortieren, z. B. <math>x_{\bullet1}</math> wird die [[Variable (Mathematik)|Variable]] mit der größten Varianz, oder man nimmt die erste [[Hauptkomponentenanalyse|Hauptkomponente]].
* Wenn man viele Beobachtungen hat, müssen viele Kurven gezeichnet werden, sodass der Verlauf einer einzelnen Kurve nicht mehr sichtbar wird.

=== Stahel-Donoho Outlyingness ===
Stahel (1981) und [[David Leigh Donoho]] (1982) definierten die sog. Outlyingness. "Um die Maßzahl zu erhalten, die aussagt, wie weit ein Beobachtungswert von der Masse der Daten entfernt liegt,<ref>W. A. Stahel: ''Robuste Schätzungen: infinitesimale Optimalität und Schätzungen von Kovarianzmatrizen.'' PhD thesis, ETH Zürich, 1981.</ref><ref>D. L. Donoho: ''Breakdown properties of multivariate location estimators.'' Qualifying paper, Harvard University, Boston 1982.</ref> müssen alle möglichen Linearkombinationen <math>\alpha_1 x_{i1}+\alpha_2 x_{i2}+ \dotsb + \alpha_p x_{ip} = \alpha^Tx_i</math> berechnet werden. Das heißt die Projektion des Datenpunktes auf den Vektor <math>\alpha</math>, mit <math>\sum_{k=1}^p \alpha_i^2=1</math> ergibt die Outlyingness:

:<math>\operatorname{out}(x_i) = \sup_{\alpha} \left(\operatorname{out}(x_i, \alpha)\right) = \sup_{\alpha} \left(\frac{\alpha^Tx_i-\operatorname{median}(\alpha^Tx)}{\operatorname{mad}(\alpha^Tx)}\right)</math>,

Wobei der [[Median]] der projizierten Punkte (<math>\operatorname{median}(\alpha^Tx)</math>) und die [[mittlere absolute Abweichung]] der projizierten Punkte (<math>\operatorname{mad}(\alpha^Tx)</math>), als robustes Streuungsmaß angegeben wird. Der Median dient dabei als robustes Lage-, die mittlere absolute Abweichung als robustes Streuungsmaß. <math>\operatorname{out}(x_i, \alpha)</math> ist eine Normalisierung.

In der Praxis wird die Outlyingness berechnet, indem für mehrere hundert oder tausend zufällig ausgewählte Projektionsrichtungen <math>\alpha</math> das Maximum <math>\operatorname{out}(x_i, \alpha)</math> bestimmt wird.

== Ausreißererkennung im Data-Mining ==
Unter dem englischen Begriff ''Outlier Detection'' (deutsch: Ausreißererkennung) versteht man den Teilbereich des [[Data-Mining]], bei dem untypische und auffällige Datensätze identifiziert werden. Anwendung hierfür ist beispielsweise die Erkennung von (potentiell) betrügerischen Kreditkartentransaktionen in der großen Menge der validen Transaktionen. Die ersten [[Algorithmus|Algorithmen]] zur Ausreißererkennung waren eng an den hier erwähnten statistischen Modellen orientiert, jedoch haben sich aufgrund von Berechnungs- und vor allem Laufzeitüberlegungen die Algorithmen davon entfernt.<ref>{{Literatur |Autor=H.-P. Kriegel, P. Kröger, A. Zimek |Titel=Outlier Detection Techniques |TitelErg=Tutorial |Sammelwerk=13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2009) |Ort=Bangkok, Thailand |Datum=2009 |Online=http://www.dbs.ifi.lmu.de/Publikationen/Papers/tutorial_slides.pdf |Abruf=2010-03-26}}</ref> Ein wichtiges Verfahren hierzu ist der dichtebasierte [[Local Outlier Factor]].

Ausreißer lassen sich auch durch den Vergleich mit [[Prognoseintervall]]en entdecken.<ref name="DOI10.1111/rssb.12443">Leying Guan, Rob Tibshirani: ''Prediction and Outlier Detection in Classification Problems.'' In: ''Journal of the Royal Statistical Society Series B: Statistical Methodology.'' 2022, Band 84, Nummer 2, S. 524–546 {{DOI|10.1111/rssb.12443}}.</ref>

== Siehe auch ==
* [[M-Schätzer]]

== Literatur ==
* {{Literatur |Titel=Ausreißerproblem (outlier problem)|Herausgeber=[[P. Heinz Müller|P. H. Müller]] |Sammelwerk=Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik |Seiten=16–18 |Verlag=Akademie-Verlag |Ort=Berlin |Datum=1991 |Auflage=5 |ISBN=978-3-05-500608-1}}
* {{Literatur |Autor=Vic Barnett, Toby Williams |Titel=Outliers in Statistical Data |Auflage=3 |Reihe=Wiley Series in Probability and Mathematical Statistics |Verlag=Wiley |Ort=Chichester |Datum=1994 |ISBN=0-471-93094-6}}
* {{Literatur |Autor=R. Khattree, D. N. Naik |Titel=Andrews Plots for Multivariate Data: Some New Suggestions and Applications |Sammelwerk=Journal of Statistical Planning and Inference |Band=100 |Nummer=2 |Datum=2002 |Seiten=411–425 |DOI=10.1016/S0378-3758(01)00150-1}}

== Weblinks ==
{{Wiktionary}}
* [http://www.statistics4u.info/fundstat_germ/cc_outlier_tests.html Grundlagen der Statistik] Ausreißertests
* [http://www.vias.org/simulations/simusoft_leverage.html Learning by Simulations] Simulation der Auswirkung eines Ausreißers auf die lineare Regression

== Einzelnachweise ==
<references />

{{Normdaten|TYP=s|GND=4510494-3|LCCN=sh/85/96171}}

{{SORTIERUNG:Ausreisser}}
[[Kategorie:Deskriptive Statistik]]
[[Kategorie:Regressionsanalyse]]

Ausreißer - Versionsgeschichte

imported>Bobbolous: /* Ausreißertests */