<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://demowiki.knowlus.com/index.php?action=history&amp;feed=atom&amp;title=Ausrei%C3%9Fer</id>
	<title>Ausreißer - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://demowiki.knowlus.com/index.php?action=history&amp;feed=atom&amp;title=Ausrei%C3%9Fer"/>
	<link rel="alternate" type="text/html" href="https://demowiki.knowlus.com/index.php?title=Ausrei%C3%9Fer&amp;action=history"/>
	<updated>2026-04-09T02:24:57Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Demo Wiki</subtitle>
	<generator>MediaWiki 1.44.2</generator>
	<entry>
		<id>https://demowiki.knowlus.com/index.php?title=Ausrei%C3%9Fer&amp;diff=10947&amp;oldid=prev</id>
		<title>imported&gt;Bobbolous: /* Ausreißertests */</title>
		<link rel="alternate" type="text/html" href="https://demowiki.knowlus.com/index.php?title=Ausrei%C3%9Fer&amp;diff=10947&amp;oldid=prev"/>
		<updated>2025-05-13T07:56:25Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Ausreißertests&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Überarbeiten}}&lt;br /&gt;
{{Begriffsklärungshinweis}}&lt;br /&gt;
&lt;br /&gt;
[[Datei:Outlier statistics.svg|mini|Ein Ausreißer-Messwert. Die blaue Gerade wurde ohne Einbeziehung des Ausreißers erstellt, die violette mit der Einbeziehung.]]&lt;br /&gt;
[[Datei:Elements of a boxplot.svg|gerahmt|Der [[Boxplot]] auf einem Zahlenstrahl dargestellt.]]&lt;br /&gt;
&lt;br /&gt;
In der [[Statistik]] nennt man einen Messwert, der stark von der gesamten Messreihe abweicht, &amp;#039;&amp;#039;&amp;#039;Ausreißer.&amp;#039;&amp;#039;&amp;#039; Dies passiert, wenn ein [[Messwert]] einer [[Messreihe]], die zur Ermittlung der [[Wahrscheinlichkeitsmaß|Verteilung]] einer [[Zufallsvariable|Zufallsgröße]] &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; dienen soll, nicht aus dieser, sondern aufgrund eines Störeinflusses aus einer anderen Zufallsgröße &amp;lt;math&amp;gt;X&amp;#039;&amp;lt;/math&amp;gt; stammt. Hierdurch würde die Berücksichtigung dieses Messwertes zu einer Verfälschung führen, da so Stichproben zweier verschieden verteilter Zufallsgrößen gemischt würden. Die [[robuste Statistik]] beschäftigt sich mit der Ausreißerproblematik. Auch im [[Data-Mining]] beschäftigt man sich mit der Erkennung von Ausreißern. Von Ausreißern zu unterscheiden sind einflussreiche Beobachtungen.&lt;br /&gt;
&lt;br /&gt;
== Überprüfung auf Messfehler ==&lt;br /&gt;
Liegt ein Ausreißer vor, muss überprüft werden ob es sich bei dem Ausreißer tatsächlich um ein verlässliches und echtes Ergebnis handelt oder ob ein [[Messfehler]] vorliegt.&lt;br /&gt;
: &amp;#039;&amp;#039;&amp;#039;Beispiel: &amp;#039;&amp;#039;&amp;#039; So wurde das [[Ozonloch]] über der [[Antarktis]] einige Jahre zwar bereits gemessen, die [[Messwert]]e aber als offensichtlich falsch gemessen bewertet (d. h. als „Ausreißer“ interpretiert und ignoriert) und dadurch nicht in ihrer Tragweite erkannt.&amp;lt;ref&amp;gt;Karl-Heinz Ludwig: &amp;#039;&amp;#039;Eine kurze Geschichte des Klimas: Von der Entstehung der Erde bis heute.&amp;#039;&amp;#039; 2. Auflage. Beck Verlag 2007, ISBN 978-3-406-56557-1, S. 149.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Ausreißertests ===&lt;br /&gt;
Ein anderer Ansatz wurde u.&amp;amp;nbsp;a. von Ferguson im Jahr 1961 vorgeschlagen.&amp;lt;ref&amp;gt;{{Literatur |Autor=T. S. Ferguson |Titel=On the Rejection of outliers |Sammelwerk=Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability |Band=1 |Datum=1961 |Seiten=253-287 |Online=http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?handle=euclid.bsmsp/1200512169&amp;amp;view=body&amp;amp;content-type=pdf_1}}&amp;lt;/ref&amp;gt; Hier wird davon ausgegangen, dass die Beobachtungen aus einer hypothetischen [[Wahrscheinlichkeitsverteilung|Verteilung]] stammen. Ausreißer sind dann Beobachtungen, die nicht aus der hypothetischen Verteilung stammen. Die folgenden Ausreißertests gehen alle davon aus, dass die hypothetische Verteilung eine [[Normalverteilung]] ist und prüfen, ob ein oder mehrere Extremwerte nicht aus der Normalverteilung stammen:&lt;br /&gt;
* [[Ausreißertest nach Grubbs]]&lt;br /&gt;
* [[Ausreißertest nach Nalimov]]&lt;br /&gt;
* [[David-Hartley-Pearson-Test|Ausreißertest nach David, Hartley und Pearson]]&lt;br /&gt;
* [[Ausreißertest nach Dixon]]&lt;br /&gt;
* [[Ausreißertest nach Hampel]]&lt;br /&gt;
* [[Ausreißertest nach Baarda]]&lt;br /&gt;
* [[Ausreißertest nach Pope]]&lt;br /&gt;
* [[Ausreißertest nach Tukey]]&lt;br /&gt;
&lt;br /&gt;
Der [[Ausreißertest nach Walsh]] basiert hingegen nicht auf der Annahme einer bestimmten Verteilung der Daten. Im Rahmen der [[Zeitreihenanalyse]] können [[Zeitreihen]], bei denen ein Ausreißer vermutet wird, darauf getestet werden und dann mit einem [[Ausreißermodell]] modelliert werden.&lt;br /&gt;
&lt;br /&gt;
=== Unterschiede zu Extremwerten ===&lt;br /&gt;
Ein beliebter Ansatz ist es, den [[Boxplot]] zu nutzen, um Ausreißer zu identifizieren. Die Beobachtungen außerhalb der [[Boxplot#Antenne (Whisker)|Whisker]] werden dabei willkürlich als Ausreißer bezeichnet. Für die Normalverteilung kann man ausrechnen, dass knapp 0,7 % der Masse der Verteilung außerhalb der [[Boxplot#Antenne (Whisker)|Whiskers]] liegen. Bereits ab einem Stichprobenumfang von &amp;lt;math&amp;gt;n&amp;gt;143&amp;lt;/math&amp;gt; würde man daher mindestens eine Beobachtung außerhalb der Whiskers erwarten (oder auch &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; Beobachtungen außerhalb der Whiskers bei &amp;lt;math&amp;gt;n&amp;gt;143{,}3362 \cdot k&amp;lt;/math&amp;gt;). Sinnvoller ist es daher, statt von Ausreißern von &amp;#039;&amp;#039;Extremwerten&amp;#039;&amp;#039; zu sprechen.&lt;br /&gt;
&lt;br /&gt;
== Multivariate Ausreißer ==&lt;br /&gt;
[[Datei:BivariateOutlier.svg|mini|200px|Ausreißer rechts unten im [[Streudiagramm]] und [[Boxplot]]s für jede einzelne [[Variable (Mathematik)|Variable]].]]&lt;br /&gt;
&lt;br /&gt;
In mehreren Dimensionen wird die Situation noch komplizierter. In der Grafik rechts kann der Ausreißer rechts unten in der Ecke nicht durch Inspektion jeder einzelnen [[Variable (Mathematik)|Variable]] erkannt werden; er ist in den [[Boxplot]]s nicht sichtbar. Trotzdem wird er eine [[lineare Regression]] deutlich beeinflussen.&lt;br /&gt;
&lt;br /&gt;
=== Andrews’ Kurven ===&lt;br /&gt;
[[Datei:Yale andrews curves.png|mini|200px|Andrews’ Kurven mit unterschiedlich eingefärbten Daten]]&lt;br /&gt;
&lt;br /&gt;
Andrews (1972) schlug vor, jede multivariate Beobachtung &amp;lt;math&amp;gt;(x_{i1}, x_{i2}, \dotsc, x_{ip})&amp;lt;/math&amp;gt; durch eine Kurve zu repräsentieren:&amp;lt;ref&amp;gt;D. Andrews: &amp;#039;&amp;#039;Plots of high-dimensional data.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Biometrics.&amp;#039;&amp;#039; 28, 1972, S. 125–136, {{JSTOR|2528964}}.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;f_i(t) = \frac{x_{i1}}{\sqrt{2}}+x_{i2}\sin(t)+x_{i3}\cos(t)+x_{i4}\sin(2t)+x_{i5}\cos(2t)+\dotsb&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Damit wird jede multivariate Beobachtung auf eine zweidimensionale Kurve im [[Intervall (Mathematik)|Intervalls]] &amp;lt;math&amp;gt;[-\pi;\pi]&amp;lt;/math&amp;gt; abgebildet. Aufgrund der Sinus- und Kosinusterme wiederholt sich die [[Funktion (Mathematik)|Funktion]] &amp;lt;math&amp;gt;f_i(t)&amp;lt;/math&amp;gt; außerhalb des [[Intervall (Mathematik)|Intervalls]] &amp;lt;math&amp;gt;[-\pi;\pi]&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Für jeweils zwei Beobachtungen &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt; gilt:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\underbrace{\int_{-\pi}^{\pi} \left(f_i(t)-f_j(t)\right)^2 dt}_{(1)} = \underbrace{\pi \sum_{k=1}^p (x_{ik}-x_{jk})^2}_{(2)}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Der Ausdruck (1) links neben dem [[Gleichheitszeichen]] entspricht (zumindest approximativ) der Fläche zwischen den beiden Kurven, und der Ausdruck (2) rechts ist (zumindest approximativ) der multivariate euklidische Abstand zwischen den beiden Datenpunkten.&lt;br /&gt;
&lt;br /&gt;
Ist also der Abstand zwischen zwei Datenpunkten klein, dann muss auch die Fläche zwischen den Kurven klein sein, d.&amp;amp;nbsp;h. die Kurven der [[Funktion (Mathematik)|Funktionen]] &amp;lt;math&amp;gt;f_i(t)&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;f_j(t)&amp;lt;/math&amp;gt; müssen nahe beieinander verlaufen. Ist jedoch der Abstand zwischen zwei Datenpunkten groß, muss auch die Fläche zwischen den Kurven groß sein, d.&amp;amp;nbsp;h. die Kurven der [[Funktion (Mathematik)|Funktionen]]&amp;lt;math&amp;gt;f_i(t)&amp;lt;/math&amp;gt; und &amp;lt;math&amp;gt;f_j(t)&amp;lt;/math&amp;gt; müssen sehr unterschiedlich verlaufen. Ein multivariater Ausreißer würde als Kurve sichtbar sein, die sich von allen anderen Kurven in ihrem Verlauf deutlich unterscheidet.&lt;br /&gt;
&lt;br /&gt;
Andrews’ Kurven haben zwei Nachteile:&lt;br /&gt;
&lt;br /&gt;
* Wenn der Ausreißer in genau einer [[Variable (Mathematik)|Variable]] sichtbar ist, nimmt der Mensch die unterschiedlichen Kurven umso besser wahr, je weiter vorne diese [[Variable (Mathematik)|Variable]] auftaucht. Am besten sollte sie die [[Variable (Mathematik)|Variable]] &amp;lt;math&amp;gt;x_{\bullet1}&amp;lt;/math&amp;gt; sein. D.h., es bietet sich an, die [[Variable (Mathematik)|Variablen]] zu sortieren, z.&amp;amp;nbsp;B. &amp;lt;math&amp;gt;x_{\bullet1}&amp;lt;/math&amp;gt; wird die [[Variable (Mathematik)|Variable]] mit der größten Varianz, oder man nimmt die erste [[Hauptkomponentenanalyse|Hauptkomponente]].&lt;br /&gt;
* Wenn man viele Beobachtungen hat, müssen viele Kurven gezeichnet werden, sodass der Verlauf einer einzelnen Kurve nicht mehr sichtbar wird.&lt;br /&gt;
&lt;br /&gt;
=== Stahel-Donoho Outlyingness ===&lt;br /&gt;
Stahel (1981) und [[David Leigh Donoho]] (1982) definierten die sog. Outlyingness. &amp;quot;Um die Maßzahl zu erhalten, die aussagt, wie weit ein Beobachtungswert von der Masse der Daten entfernt liegt,&amp;lt;ref&amp;gt;W. A. Stahel: &amp;#039;&amp;#039;Robuste Schätzungen: infinitesimale Optimalität und Schätzungen von Kovarianzmatrizen.&amp;#039;&amp;#039; PhD thesis, ETH Zürich, 1981.&amp;lt;/ref&amp;gt;&amp;lt;ref&amp;gt;D. L. Donoho: &amp;#039;&amp;#039;Breakdown properties of multivariate location estimators.&amp;#039;&amp;#039; Qualifying paper, Harvard University, Boston 1982.&amp;lt;/ref&amp;gt; müssen alle möglichen Linearkombinationen &amp;lt;math&amp;gt;\alpha_1 x_{i1}+\alpha_2 x_{i2}+ \dotsb + \alpha_p x_{ip} = \alpha^Tx_i&amp;lt;/math&amp;gt; berechnet werden. Das heißt die Projektion des Datenpunktes auf den Vektor &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;, mit &amp;lt;math&amp;gt;\sum_{k=1}^p \alpha_i^2=1&amp;lt;/math&amp;gt; ergibt die Outlyingness:&lt;br /&gt;
&lt;br /&gt;
:&amp;lt;math&amp;gt;\operatorname{out}(x_i) = \sup_{\alpha} \left(\operatorname{out}(x_i, \alpha)\right) = \sup_{\alpha} \left(\frac{\alpha^Tx_i-\operatorname{median}(\alpha^Tx)}{\operatorname{mad}(\alpha^Tx)}\right)&amp;lt;/math&amp;gt;,&lt;br /&gt;
&lt;br /&gt;
Wobei der [[Median]] der projizierten Punkte (&amp;lt;math&amp;gt;\operatorname{median}(\alpha^Tx)&amp;lt;/math&amp;gt;) und die [[mittlere absolute Abweichung]] der projizierten Punkte (&amp;lt;math&amp;gt;\operatorname{mad}(\alpha^Tx)&amp;lt;/math&amp;gt;), als robustes Streuungsmaß angegeben wird. Der Median dient dabei als robustes Lage-, die mittlere absolute Abweichung als robustes Streuungsmaß. &amp;lt;math&amp;gt;\operatorname{out}(x_i, \alpha)&amp;lt;/math&amp;gt; ist eine Normalisierung.&lt;br /&gt;
&lt;br /&gt;
In der Praxis wird die Outlyingness berechnet, indem für mehrere hundert oder tausend zufällig ausgewählte Projektionsrichtungen &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; das Maximum &amp;lt;math&amp;gt;\operatorname{out}(x_i, \alpha)&amp;lt;/math&amp;gt; bestimmt wird.&lt;br /&gt;
&lt;br /&gt;
== Ausreißererkennung im Data-Mining ==&lt;br /&gt;
Unter dem englischen Begriff &amp;#039;&amp;#039;Outlier Detection&amp;#039;&amp;#039; (deutsch: Ausreißererkennung) versteht man den Teilbereich des [[Data-Mining]], bei dem untypische und auffällige Datensätze identifiziert werden. Anwendung hierfür ist beispielsweise die Erkennung von (potentiell) betrügerischen Kreditkartentransaktionen in der großen Menge der validen Transaktionen. Die ersten [[Algorithmus|Algorithmen]] zur Ausreißererkennung waren eng an den hier erwähnten statistischen Modellen orientiert, jedoch haben sich aufgrund von Berechnungs- und vor allem Laufzeitüberlegungen die Algorithmen davon entfernt.&amp;lt;ref&amp;gt;{{Literatur |Autor=H.-P. Kriegel, P. Kröger, A. Zimek |Titel=Outlier Detection Techniques |TitelErg=Tutorial |Sammelwerk=13th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2009) |Ort=Bangkok, Thailand |Datum=2009 |Online=http://www.dbs.ifi.lmu.de/Publikationen/Papers/tutorial_slides.pdf |Abruf=2010-03-26}}&amp;lt;/ref&amp;gt; Ein wichtiges Verfahren hierzu ist der dichtebasierte [[Local Outlier Factor]].&lt;br /&gt;
&lt;br /&gt;
Ausreißer lassen sich auch durch den Vergleich mit [[Prognoseintervall]]en entdecken.&amp;lt;ref name=&amp;quot;DOI10.1111/rssb.12443&amp;quot;&amp;gt;Leying Guan, Rob Tibshirani: &amp;#039;&amp;#039;Prediction and Outlier Detection in Classification Problems.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Journal of the Royal Statistical Society Series B: Statistical Methodology.&amp;#039;&amp;#039; 2022, Band 84, Nummer 2, S.&amp;amp;nbsp;524–546 {{DOI|10.1111/rssb.12443}}.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Siehe auch ==&lt;br /&gt;
* [[M-Schätzer]]&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
* {{Literatur |Titel=Ausreißerproblem (outlier problem)|Herausgeber=[[P. Heinz Müller|P. H. Müller]] |Sammelwerk=Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik |Seiten=16–18 |Verlag=Akademie-Verlag |Ort=Berlin |Datum=1991 |Auflage=5 |ISBN=978-3-05-500608-1}}&lt;br /&gt;
* {{Literatur |Autor=Vic Barnett, Toby Williams |Titel=Outliers in Statistical Data |Auflage=3 |Reihe=Wiley Series in Probability and Mathematical Statistics |Verlag=Wiley |Ort=Chichester |Datum=1994 |ISBN=0-471-93094-6}}&lt;br /&gt;
* {{Literatur |Autor=R. Khattree, D. N. Naik |Titel=Andrews Plots for Multivariate Data: Some New Suggestions and Applications |Sammelwerk=Journal of Statistical Planning and Inference |Band=100 |Nummer=2 |Datum=2002 |Seiten=411–425 |DOI=10.1016/S0378-3758(01)00150-1}}&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
{{Wiktionary}}&lt;br /&gt;
* [http://www.statistics4u.info/fundstat_germ/cc_outlier_tests.html Grundlagen der Statistik] Ausreißertests&lt;br /&gt;
* [http://www.vias.org/simulations/simusoft_leverage.html Learning by Simulations] Simulation der Auswirkung eines Ausreißers auf die lineare Regression&lt;br /&gt;
&lt;br /&gt;
== Einzelnachweise ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
{{Normdaten|TYP=s|GND=4510494-3|LCCN=sh/85/96171}}&lt;br /&gt;
&lt;br /&gt;
{{SORTIERUNG:Ausreisser}}&lt;br /&gt;
[[Kategorie:Deskriptive Statistik]]&lt;br /&gt;
[[Kategorie:Regressionsanalyse]]&lt;br /&gt;
&amp;lt;!-- Interlanguage links --&amp;gt;&lt;/div&gt;</summary>
		<author><name>imported&gt;Bobbolous</name></author>
	</entry>
</feed>