<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://demowiki.knowlus.com/index.php?action=history&amp;feed=atom&amp;title=Statistische_Signifikanz</id>
	<title>Statistische Signifikanz - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://demowiki.knowlus.com/index.php?action=history&amp;feed=atom&amp;title=Statistische_Signifikanz"/>
	<link rel="alternate" type="text/html" href="https://demowiki.knowlus.com/index.php?title=Statistische_Signifikanz&amp;action=history"/>
	<updated>2026-04-06T20:48:08Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Demo Wiki</subtitle>
	<generator>MediaWiki 1.44.2</generator>
	<entry>
		<id>https://demowiki.knowlus.com/index.php?title=Statistische_Signifikanz&amp;diff=3335&amp;oldid=prev</id>
		<title>imported&gt;Xenein: /* growthexperiments-addlink-summary-summary:2|0|0 */</title>
		<link rel="alternate" type="text/html" href="https://demowiki.knowlus.com/index.php?title=Statistische_Signifikanz&amp;diff=3335&amp;oldid=prev"/>
		<updated>2025-05-21T00:12:54Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;growthexperiments-addlink-summary-summary:2|0|0&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;#039;&amp;#039;&amp;#039;Statistisch signifikant&amp;#039;&amp;#039;&amp;#039; wird das Ergebnis eines statistischen Tests genannt, wenn Stichprobendaten so stark von einer vorher festgelegten Annahme (der [[Nullhypothese]]) abweichen, dass diese Annahme nach einer vorher festgelegten Regel verworfen wird.&lt;br /&gt;
&lt;br /&gt;
Hierfür wird nach gängiger Praxis &amp;lt;!-- dem &amp;quot;Null Hypothesis Significane Testing&amp;quot;; auch im vorliegenden Artikel herrscht das Kuddelmuddel aus Fisher und Neyman-Pearsn --&amp;gt; vor der Testdurchführung ein Signifikanzniveau festgelegt, das die [[Fehlerwahrscheinlichkeit 1. Art]], also die Wahrscheinlichkeit, dass eine Nullhypothese (&amp;#039;&amp;#039;Hypothesis to be nullified&amp;#039;&amp;#039; – „Hypothese, die [anhand der Studiendaten] verworfen werden soll“&amp;lt;ref&amp;gt;Gigerenzer G. (2004). &amp;#039;&amp;#039;Mindless statistics.&amp;#039;&amp;#039; J. Soc. Econ. 33, 587–606. {{doi|10.1016/j.socec.2004.09.033}}, zitiert nach &amp;#039;&amp;#039;Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing&amp;#039;&amp;#039;. Frontiers in Psychology 2015; 6: 223. {{PMC|4347431}}&amp;lt;/ref&amp;gt;) fälschlich verworfen wird, nach oben beschränkt. Die Fehlerwahrscheinlichkeit 1. Art wird auch als [[Irrtumswahrscheinlichkeit]] bezeichnet, das vorgegebene Signifikanzniveau dementsprechend auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit genannt. Der [[Fehler 1. und 2. Art#Fehler 2. Art|Fehler 2. Art]] liegt vor, wenn die Nullhypothese nicht abgelehnt wird, obwohl sie falsch ist. Die Fehlerwahrscheinlichkeit 2. Art, also die Wahrscheinlichkeit einen Fehler 2. Art zu begehen, ist in der Regel umso größer, je kleiner das Signifikanzniveau ist.&lt;br /&gt;
Zu Fragen nach der [[Effektstärke|Stärke von Effekten]], der Relevanz der Ergebnisse für eine bestimmte Fragestellung oder deren Übertragbarkeit auf andere Umstände gibt das Ergebnis eines Signifikanztests keine Auskunft.&lt;br /&gt;
&lt;br /&gt;
Der [[p-Wert]] als Maß der statistischen Signifikanz wird häufig [[p-Wert#Typische Fehlinterpretationen|fehlinterpretiert]] und falsch verwendet, weswegen sich die [[American Statistical Association]] im Jahr 2016 genötigt sah, eine Mitteilung über den Umgang mit statistischer Signifikanz zu veröffentlichen.&amp;lt;ref&amp;gt;R. Wasserstein, N. Lazar: &amp;#039;&amp;#039;The ASA’s Statement on p-Values: Context, Process, and Purpose.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;[[The American Statistician]].&amp;#039;&amp;#039; Band 70, Nr. 2, 2016, S.&amp;amp;nbsp;129–133, {{DOI|10.1080/00031305.2016.1154108}}.&amp;lt;/ref&amp;gt; Einer kleinen kanadischen Feldstudie von 2019 zufolge wird in etlichen Lehrbüchern der Begriff nicht korrekt vermittelt.&amp;lt;ref&amp;gt;S. Cassidy, R. Dimova, B. Giguère, J. Spence, D. Stanley: &amp;#039;&amp;#039;Failing Grade: 89% of Introduction-to-Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Advances in Methods and Practices in Psychological Science.&amp;#039;&amp;#039; Juni 2019, [[doi:10.1177/2515245919858072]].&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Grundlagen ==&lt;br /&gt;
Überprüft wird statistische Signifikanz durch [[Statistischer Test|statistische Tests]], die so gewählt werden müssen, dass sie dem Datenmaterial und den zu testenden [[Parameter (Statistik)|Parametern]] bezüglich der [[Wahrscheinlichkeitsfunktion]] entsprechen. Nur dann ist es möglich, aus der Wahrscheinlichkeitsverteilung für [[Zufallsvariable]]n mathematisch korrekt den jeweiligen [[p-Wert]] zu errechnen als die Wahrscheinlichkeit, ein Stichprobenergebnis wie das beobachtete oder ein extremeres zufallsbedingt zu erhalten. Wie hoch deren Anteil bei unendlich oft wiederholten Zufallsstichproben aus derselben Gesamtheit zu erwarten ist, kann als Wert zwischen 0 und 1 angegeben werden. Dieser p-Wert wird somit berechnet unter der Annahme, dass die sogenannte [[Nullhypothese]] zutrifft.&lt;br /&gt;
&lt;br /&gt;
Im Folgenden wird zur Vereinfachung angenommen, dass die zu prüfende Nullhypothese einfach ist, also nicht mehrere Wahrscheinlichkeitsverteilungen bzw. Parameter zulässt, und dass die Nullhypothese inhaltlich von der Form ist &amp;#039;es liegt kein Unterschied vor&amp;#039;, &amp;#039;es liegt kein Effekt vor&amp;#039; oder &amp;#039;es liegt keine Wirkung vor&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
Anhand des p-Werts wird bestimmt, ob ein bestimmtes vorab festgelegtes Signifikanzniveau überschritten wird oder nicht. Dieses beschränkt die Wahrscheinlichkeit, dass z.&amp;amp;nbsp;B. die Nullhypothese: „Die festgestellten Unterschiede sind zufällig zustande gekommen“ abgelehnt wird, obwohl sie richtig ist. Die irrtümliche Ablehnung einer wahren Nullhypothese heißt [[Fehler 1. und 2. Art#Fehler 1. Art|Fehler 1. Art]] oder &amp;#039;&amp;#039;α-Fehler&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
Sinnvollerweise wird bei der Festlegung dieser kritischen Schwelle bedacht, welche Konsequenzen der Fall hätte, dass irrtümlich angenommen wird, ein beobachteter Unterschied sei nur zufällig. Hält man diese Folgen eher für gravierend, so wird man hier eher ein niedriges Niveau als ein höheres wählen, beispielsweise lieber 1 % als 5 %, oder aber 0,1 % für die &amp;#039;&amp;#039;maximal zulässige Irrtumswahrscheinlichkeit&amp;#039;&amp;#039; festlegen. Diese Wahrscheinlichkeit wird als &amp;#039;&amp;#039;Signifikanzniveau&amp;#039;&amp;#039; &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; bezeichnet.&lt;br /&gt;
&lt;br /&gt;
So bedeutet &amp;lt;math&amp;gt;\alpha=0{,}05&amp;lt;/math&amp;gt;: Falls die Nullhypothese richtig ist, darf die Wahrscheinlichkeit dafür, dass sie fälschlich abgelehnt wird (Fehler 1. Art), nicht mehr als 5 % betragen. Entsprechend beträgt dann die Wahrscheinlichkeit, eine richtige Nullhypothese aufgrund des statistischen Tests nicht abzulehnen, &amp;lt;math&amp;gt;1-\alpha=0{,}95&amp;lt;/math&amp;gt;, sprich mindestens 95 %.&lt;br /&gt;
&lt;br /&gt;
Ergibt die Anwendung des statistischen Verfahrens, dass der geprüfte beobachtete Unterschied statistisch nicht signifikant ist, kann man daraus keine definitiven Schlüsse ziehen. Auch ist in diesem Fall meist noch nicht einmal die Wahrscheinlichkeit eines [[Fehler 1. und 2. Art#Fehler 2. Art|Fehlers 2. Art]] (&amp;lt;math&amp;gt;\operatorname{Pr}(H_0|\overline H_0 )=\beta&amp;lt;/math&amp;gt;) bekannt, eine falsche Nullhypothese für richtig zu halten.&lt;br /&gt;
&lt;br /&gt;
Das Signifikanzniveau sagt also nur, wie groß höchstens die Wahrscheinlichkeit eines Fehlers 1. Art ist, also die Wahrscheinlichkeit, dass die Nullhypothese abgelehnt wird, obwohl sie richtig ist. Das Signifikanzniveau besagt nicht, mit welcher Wahrscheinlichkeit eine Hypothese richtig ist. Soll eine Hypothese als richtig erwiesen werden, so ist die Wahrscheinlichkeit des Fehlers 2. Art, dass die Hypothese als richtig befunden wird, obwohl sie falsch ist, umso größer, je kleiner das Signifikanzniveau ist.&lt;br /&gt;
&lt;br /&gt;
Beispiel: Es liegt ein Versuch zugrunde, der als Grundlage die Wahrscheinlichkeit p = ¼ hat. Geprüft werden soll  die Hypothese p = 1/5. Die Wahrscheinlichkeit, dass die Hypothese für richtig befunden wird, obwohl sie falsch ist, hängt von der Anzahl durchgeführter Versuche sowie dem Signifikanzniveau ab. Sie beträgt bei 25 Versuchsdurchführungen 93 % bei einem Signifikanzniveau von 5 % und 99 % bei einem Signifikanzniveau von 1 %; bei 1000 Versuchsdurchführungen sind es 3,6 % bei einem Signifikanzniveau von 5 % und 11,4 % bei einem Signifikanzniveau von 1 %.&lt;br /&gt;
&lt;br /&gt;
Allgemeiner verstanden beschreibt die statistische Signifikanz also den möglichen [[Informationsgehalt]] eines Ereignisses bzw. einer Messung vor dem Hintergrund zufälliger Verteilungen als Wahrscheinlichkeit. Je kleiner &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt; ist, desto höher ist dann die [[Informationsqualität]] eines signifikanten Ergebnisses.&lt;br /&gt;
&lt;br /&gt;
Entscheidend für die qualitative Bewertung ist die Frage: „Wovon hängt die statistische Signifikanz ab?“&lt;br /&gt;
&lt;br /&gt;
In erster Linie sind hier die Größe einer Stichprobe, deren Repräsentativität und ihre Varianz zu nennen. Die statistische Signifikanz wird wesentlich durch die Stichprobengröße beeinflusst. Wird statt einer größeren nur eine kleine Stichprobe untersucht, dann ist es wahrscheinlicher, dass deren Zusammensetzung nicht die [[Grundgesamtheit]] repräsentiert. Die infolge zufällig getroffener Auswahl auftretenden Unterschiede fallen so stärker ins Gewicht. Bildet die gewählte Stichprobe die Grundgesamtheit in ihren wesentlichen Merkmalen ab, spricht man von einer repräsentativen Stichprobe. Wichtig für die Informationsqualität ist ebenfalls die Varianz, also die Streuung der Werte innerhalb der untersuchten Gruppe.&lt;br /&gt;
&lt;br /&gt;
== Beispielhafte Fragestellungen ==&lt;br /&gt;
* Bei einer Umfrage wird festgestellt, dass 55 % der Frauen zu Partei &amp;#039;&amp;#039;A&amp;#039;&amp;#039; tendieren, während von 53 % der Männer Partei &amp;#039;&amp;#039;B&amp;#039;&amp;#039; bevorzugt wird. Gibt es tatsächlich einen Unterschied bei der politischen Überzeugung von Männern und Frauen oder sind nur &amp;#039;&amp;#039;zufällig&amp;#039;&amp;#039; bei den Frauen viele Anhängerinnen von Partei &amp;#039;&amp;#039;A&amp;#039;&amp;#039; und bei den Männern von Partei &amp;#039;&amp;#039;B&amp;#039;&amp;#039; befragt worden?&lt;br /&gt;
* Mit einem neuen Medikament ist die Heilungsrate höher als ohne Medikament. Ist das neue Medikament wirklich [[Therapeutische Wirksamkeit|wirksam]] oder sind nur &amp;#039;&amp;#039;zufällig&amp;#039;&amp;#039; besonders viele Patienten ausgewählt worden, die auch von alleine wieder gesund geworden wären?&lt;br /&gt;
* In der Umgebung einer Chemiefabrik tritt eine bestimmte Krankheit besonders häufig auf. Ist das &amp;#039;&amp;#039;Zufall&amp;#039;&amp;#039; oder gibt es einen Zusammenhang?&lt;br /&gt;
&lt;br /&gt;
== Irrtumswahrscheinlichkeit und Signifikanzniveau ==&lt;br /&gt;
&lt;br /&gt;
In den oben genannten Beispielen muss man annehmen, dass der Zufall die Ergebnisse beeinflusst hat. Man kann jedoch abschätzen, wie wahrscheinlich es ist, dass die gemessenen Ergebnisse auftreten, wenn &amp;#039;&amp;#039;nur&amp;#039;&amp;#039; der Zufall wirkt. Dieser zufällige Fehler wird allgemein als [[Fehler 1. Art]] ([[Synonymie|Synonym]]: &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;-Fehler) bezeichnet und die Wahrscheinlichkeit seines Auftretens – unter der Voraussetzung, dass die Nullhypothese richtig ist – als &amp;#039;&amp;#039;[[Irrtumswahrscheinlichkeit]]&amp;#039;&amp;#039;.&lt;br /&gt;
&lt;br /&gt;
Bei einem parametrischen Modell hängen die Wahrscheinlichkeiten für die verschiedenen Fehlschlüsse vom unbekannten Verteilungsparameter &amp;lt;math&amp;gt;\vartheta&amp;lt;/math&amp;gt; ab und können mit Hilfe der [[Gütefunktion]] des Tests angegeben werden.&lt;br /&gt;
&lt;br /&gt;
Die &amp;#039;&amp;#039;obere Grenze für die Irrtumswahrscheinlichkeit&amp;#039;&amp;#039;, also jener Wert, den man für die Wahrscheinlichkeit eines Fehlers 1.&amp;amp;nbsp;Art noch eben zu akzeptieren bereit ist, heißt &amp;#039;&amp;#039;Signifikanzniveau&amp;#039;&amp;#039;. Grundsätzlich ist dies frei wählbar; häufig wird ein Signifikanzniveau von 5 % verwendet. Die Etablierung dieses Wertes wird verschiedentlich [[Ronald Aylmer Fisher|R. A. Fisher]] zugeschrieben.&amp;lt;ref&amp;gt;Stephen Stigler: &amp;#039;&amp;#039;Fisher and the 5% level.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Chance.&amp;#039;&amp;#039; Bd. 21, Nr. 4, 2008, S. 12, {{doi|10.1080/09332480.2008.10722926}}.&amp;lt;/ref&amp;gt; In der Praxis bedeutet dieses Kriterium, dass im Schnitt eine von 20 Untersuchungen, bei denen die Nullhypothese richtig ist (z.&amp;amp;nbsp;B. ein Medikament tatsächlich wirkungslos ist), zu dem Schluss kommt, sie sei falsch (z.&amp;amp;nbsp;B. behauptet, das Medikament erhöhe die Heilungschancen).&lt;br /&gt;
&lt;br /&gt;
Eine [[Heuristik|heuristische]] Motivation des Wertes 5 % ist wie folgt: Eine [[Normalverteilung|normalverteilte]] [[Zufallsgröße]] nimmt nur mit einer Wahrscheinlichkeit von kleiner oder gleich (≤) 5 % einen Wert an, der sich vom [[Erwartungswert]] um mehr als die 1,96-fache [[Standardabweichung (Wahrscheinlichkeitstheorie)|Standardabweichung]] unterscheidet:&lt;br /&gt;
* Bei einem [[p-Wert]] von ≤ 5 % spricht z.&amp;amp;nbsp;B. [[Jürgen Bortz]] von einem &amp;#039;&amp;#039;signifikanten&amp;#039;&amp;#039;,&lt;br /&gt;
* bei einem Wert von ≤&amp;amp;nbsp;1 % (2,3 Standardabweichungen) spricht man von einem &amp;#039;&amp;#039;sehr signifikanten&amp;#039;&amp;#039; und&lt;br /&gt;
* bei einem Wert von ≤&amp;amp;nbsp;0,1 % (3,1 Standardabweichungen) spricht man von einem &amp;#039;&amp;#039;hoch signifikanten&amp;#039;&amp;#039; Ergebnis.&amp;lt;ref name=&amp;quot;BortzDöring2006&amp;quot;&amp;gt;Jürgen Bortz, Nicola Döring: &amp;#039;&amp;#039;Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler.&amp;#039;&amp;#039; 4., überarbeitete Auflage. Springer Medizin, Heidelberg 2006, ISBN 3-540-33305-3, S. 740.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Wichtig ist hierbei, dass diese Einteilung rein willkürlich ist, an die jeweilige Anwendung angepasst werden muss und durch Wiederholungen bestätigt werden sollte. Weiterhin ist diese Einteilung problematisch in Bezug auf [[Publikationsbias]] und [[p-Hacking]]. Da bei einem [[p-Wert]] von kleiner oder gleich 5 %, falls die Nullhypothese korrekt ist, im Schnitt 5 % aller Untersuchungen die Nullhypothese dennoch verwerfen, ist dieses Kriterium im Allgemeinen nicht ausreichend, um neue Entdeckungen zu belegen. So wurde zum Beispiel für den Nachweis der Existenz des [[Higgs-Boson]]s ein sehr viel strengeres Kriterium von 5 Standardabweichungen (entsprechend einem p-Wert von 1 in 3,5 Millionen) angewendet.&amp;lt;ref name=&amp;quot;HiggsBoson&amp;quot;&amp;gt;ATLAS Collaboration: &amp;#039;&amp;#039;Observation of a new particle in the search for the Standard Model Higgs Boson with the ATLAS detector at the LHC.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Physics Letters B&amp;#039;&amp;#039; Bd. 716, Nr. 1, S. 1–29, {{doi|10.1016/j.physletb.2012.08.020}}.&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Die &amp;#039;&amp;#039;Höhe&amp;#039;&amp;#039; der Signifikanz eines Ergebnisses verhält sich also entgegengesetzt zum Zahlenwert des Signifikanz&amp;#039;&amp;#039;niveaus&amp;#039;&amp;#039; – ein niedriges Signifikanzniveau entspricht einer hohen Signifikanz und umgekehrt.&lt;br /&gt;
&lt;br /&gt;
Im Gegensatz zur Fisherschen Auffassung von Signifikanz als Gradmesser für den Wahrheitsgehalt einer Hypothese ist im Kontext einer klassischen strikten Neyman-Pearson-Testtheorie eine nachträgliche Einstufung des Testergebnisses in unterschiedliche Grade der Signifikanz nicht vorgesehen. Aus dieser Sicht sind auch keine „hochsignifikanten“ oder „höchstsignifikanten“ Ergebnisse möglich – zusätzliche Informationen (beispielsweise der p-Wert) müssten anders angegeben werden.&lt;br /&gt;
&lt;br /&gt;
Auch bei statistisch signifikanten Aussagen ist stets eine kritische Überprüfung der Versuchsanordnung und -durchführung notwendig. Nur selten genügen wissenschaftliche Untersuchungen z.&amp;amp;nbsp;B. den mathematischen Anforderungen an einen aussagefähigen [[Statistische Tests|statistischen Test]]. Bei vielen Studien steht der Wunsch des oder der Studiendurchführenden (z.&amp;amp;nbsp;B. im Rahmen einer [[Doktorarbeit]]) nach einem „signifikanten“ Ergebnis bei der Studiendurchführung zu sehr im Vordergrund. Untersuchungen, bei denen die Nullhypothese bestätigt wird, werden nämlich gemeinhin (aber aus statistischer Sicht fälschlicherweise) als uninteressant und überflüssig angesehen. Weiterhin ist das [[Klinische Studie#Studiendesign|Studiendesign]] entscheidend. Als Hinweise auf die Qualität einer Studie können (z.&amp;amp;nbsp;B. im medizinischen Umfeld) die Eigenschaften „[[Randomisierung|randomisiert]]“, „kontrolliert“ und „[[doppelblind]]“ gelten. Ohne diese sind Aussagen etwa zur Wirksamkeit von Therapien mit äußerster Vorsicht zu behandeln.&lt;br /&gt;
&lt;br /&gt;
Bei häufig durchgeführten, weniger aufwändigen Studien besteht weiterhin die Gefahr, dass zum Beispiel von zwanzig vergleichbaren Studien nur eine einzige – eben die mit positivem Ergebnis – veröffentlicht wird, wobei allerdings deren Signifikanz tatsächlich nur zufällig erreicht wurde. Dieses Problem ist die wesentliche Ursache des [[Publikationsbias]] (s.&amp;amp;nbsp;u.). Problematisch ist insbesondere auch die Interpretation signifikanter [[Korrelation]]en in [[Retrospektive Studie|retrospektiven Studien]]. Zu bedenken ist darüber hinaus stets, dass aus statistisch signifikanten Korrelationen oft fälschlich auf eine vermeintliche [[Kausalität]] geschlossen wird (sog. [[Scheinkorrelation]]).&lt;br /&gt;
&lt;br /&gt;
== Probleme bei der Interpretation ==&lt;br /&gt;
=== Aussagewert und Trennschärfe ===&lt;br /&gt;
Auch bei Studien, die statistisch signifikant sind, kann der praktische Aussagewert gering sein.&lt;br /&gt;
&lt;br /&gt;
Studien mit großer Fallzahl führen aufgrund der hohen [[Trennschärfe eines Tests]] (auch Teststärke genannt) oft zu hoch signifikanten Ergebnissen. Solche Studien können trotzdem einen geringen Aussagewert haben, wenn die [[Effektstärke|Größe des beobachteten Effekts]] oder der gemessene Parameter nicht relevant sind. Statistische Signifikanz ist also ein notwendiges, aber kein hinreichendes Kriterium für eine praktisch auch relevante Aussage. Für die Beurteilung der Relevanz ist die [[Effektstärke]] (Effektgröße) ein wichtiges Hilfsmittel.&lt;br /&gt;
&lt;br /&gt;
Weitere kritische Prüfsteine vom methodologischen Gesichtspunkt aus sind:&lt;br /&gt;
&lt;br /&gt;
* die Korrektheit der statistischen Modellannahmen (beispielsweise die [[Wahrscheinlichkeitsverteilung|Verteilungsannahme]])&lt;br /&gt;
* die Anzahl der durchgeführten statistischen Tests (bei mehreren Tests, von denen nicht einer eindeutig als primärer Test gekennzeichnet ist, sollte eine [[Alphafehler-Kumulierung#Adjustierung des globalen α-Niveaus|Adjustierung]] des Signifikanzniveaus durchgeführt werden)&lt;br /&gt;
* die prospektive Definition der Analysemethoden, vor der „Entblindung“ doppelblinder Studien&lt;br /&gt;
* die eventuellen Folgen, die durch einen Fehler 1. Art oder 2. Art entstehen können, wozu auch mögliche Gefährdungen von Gesundheit und Leben gehören.&lt;br /&gt;
&lt;br /&gt;
=== Irrige Annahmen ===&lt;br /&gt;
Signifikanz ist entgegen einer weit verbreiteten Meinung nicht mit der Irrtumswahrscheinlichkeit gleichzusetzen, auch wenn im Output mancher Statistikprogramme (z.&amp;amp;nbsp;B. [[SPSS]]) die Irrtumswahrscheinlichkeit missverständlich als „Sig.“ oder „Signifikanz“ bezeichnet wird. Richtig ist es, von „signifikant“ zu sprechen, wenn die Irrtumswahrscheinlichkeit für das gewonnene Ergebnis einer bestimmten Studie nicht über dem zuvor festgelegten Signifikanzniveau liegt.&lt;br /&gt;
&lt;br /&gt;
Doch ist es möglich, dass eine Wiederholung dieser Studie mit demselben Design und unter sonst gleichen Bedingungen bei der erneuten Stichprobe ein Ergebnis liefern würde, für das die Irrtumswahrscheinlichkeit über dem Signifikanzniveau läge. Die Wahrscheinlichkeit für diesen Fall hängt bei zufällig verteilten Variablen vom gewählten Signifikanzniveau ab.&lt;br /&gt;
&lt;br /&gt;
Nicht selten wird das Wort &amp;#039;&amp;#039;signifikant&amp;#039;&amp;#039; mit der Bedeutung ‚deutlich‘ gebraucht. Eine &amp;#039;&amp;#039;statistisch signifikante&amp;#039;&amp;#039; Änderung muss allerdings nicht notwendigerweise auch deutlich sein, sondern nur eindeutig. Es kann sich also durchaus um eine geringfügige Änderung handeln, die eindeutig gemessen wurde. Bei genügend hoher Anzahl an Messungen wird jeder (existierende) Effekt statistisch signifikant gemessen werden, so klein und unbedeutend er auch sein mag.&lt;br /&gt;
&lt;br /&gt;
Nicht zutreffend sind ferner die Annahmen, das Signifikanzniveau beziehungsweise der beobachtete p-Wert lege fest&lt;br /&gt;
* die [[Effektgröße]]&lt;br /&gt;
* die Wahrscheinlichkeit, dass die Nullhypothese wahr oder falsch ist&lt;br /&gt;
* die Wahrscheinlichkeit, dass die [[Hypothese (Statistik)#Alternativhypothese|Alternativhypothese]] wahr oder falsch ist&lt;br /&gt;
&lt;br /&gt;
=== Wissenschaftliches Publizieren ===&lt;br /&gt;
Die Präsentation von statistisch signifikanten Ergebnissen hat Einfluss darauf, ob ein wissenschaftlicher Artikel veröffentlicht wird. Dies führt jedoch zum sogenannten „[[Publikationsbias]]“, da mögliche Zufallsergebnisse nicht durch Publikation der gesamten Bandbreite der durchgeführten Untersuchungen relativiert werden.&amp;lt;ref&amp;gt;Wolfgang Weihe: [https://www.aerzteblatt.de/archiv/41130 &amp;#039;&amp;#039;Klinische Studien und Statistik. Von der Wahrscheinlichkeit des Irrtums.&amp;#039;&amp;#039;] In: &amp;#039;&amp;#039;Deutsches Ärzteblatt.&amp;#039;&amp;#039; Bd. 101, Nr. 13, 26. März 2004.&amp;lt;/ref&amp;gt; Darüber hinaus haben Resultate, die aufgrund von Signifikanz zur Publikation ausgewählt werden, meist überschätzte [[Effektgröße]]n. Grund dafür ist, dass vor allem bei kleineren Studien nur die größten Unterschiede oder die stärksten Zusammenhänge signifikant werden.&amp;lt;ref&amp;gt;{{cite journal|last1=Amrhein|first1=Valentin|last2=Korner-Nievergelt|first2=Fränzi|last3=Roth|first3=Tobias|title=The earth is flat (p &amp;gt; 0.05): significance thresholds and the crisis of unreplicable research|journal=PeerJ|date=2017|volume=5|doi=10.7717/peerj.3544|url=https://peerj.com/articles/3544}}&amp;lt;/ref&amp;gt;&amp;lt;ref&amp;gt;{{Literatur |Autor=Daniel Berner, Valentin Amrhein |Titel=Why and how we should join the shift from significance testing to estimation |Sammelwerk=Journal of Evolutionary Biology |Datum=2022-05-18 |ISSN=1010-061X |DOI=10.1111/jeb.14009 |Seiten=jeb.14009}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Signifikanz und Kausalität ===&lt;br /&gt;
Die Signifikanz sagt nichts über die möglichen kausalen Zusammenhänge aus oder deren Art; oft wird dies übersehen.&lt;br /&gt;
&lt;br /&gt;
Als Beispiel: Eine Statistik hätte gezeigt, dass in der Umgebung einer Chemiefabrik eine bestimmte Krankheit besonders häufig aufgetreten ist, und zwar so, dass der Unterschied zur normalen Verteilung dieser Erkrankung in der Gesamtbevölkerung signifikant ist. Doch würde dieser statistisch signifikante Zusammenhang nicht zwingend bedeuten, dass die Chemiefabrik mit der erhöhten Erkrankungshäufigkeit ursächlich zu tun hat.&lt;br /&gt;
&lt;br /&gt;
(1) Denn denkbar wäre auch, dass die Umgebung jener Chemiefabrik eine unbeliebte Wohngegend ist und daher dort überwiegend finanziell schwache Familien wohnen, die sich einen Wegzug nicht leisten können. Meist ernähren sich finanziell schwache Familien eher schlechter und haben in der Regel auch eine schlechtere Gesundheitsvorsorge als der Bevölkerungsdurchschnitt; eine Reihe von Krankheiten wird dadurch begünstigt, womöglich gerade die in Rede stehende.&lt;br /&gt;
&lt;br /&gt;
(2) Ebenso denkbar wäre, dass die Krankheit in manchen Gebieten z.&amp;amp;nbsp;B. durch Überschreiten einer gewissen Bevölkerungsdichte und der damit verbundenen erhöhten Ansteckungsgefahr gehäuft auftritt; und nur zufällig steht die Chemiefabrik nun in einem solchen Gebiet mit höherem Auftreten dieser infektiösen Erkrankung.&lt;br /&gt;
&lt;br /&gt;
Im ersten gedachten Fall könnte also ein kausaler Zusammenhang vorliegen; es wäre jedoch ein anderer als der, welcher mit Blick auf die statistische Untersuchung angenommen werden möchte. Die Kausalität könnte auch derart sein, dass diese Chemiefabrik gerade da gebaut wurde, wo viele finanziell schwache Familien wohnen (z.&amp;amp;nbsp;B. weil diese sich mangels Lobby weniger gut gegen die Ansiedlung einer Fabrik wehren konnten als die wohlhabenderen Bewohner anderer Wohngegenden oder da ihre Mitglieder als mögliche Ware Arbeitskraft im Preis günstiger erschienen bei der Wahl des Standortes). Die Chemiefabrik ohne weitere Indizien als Ursache der gehäuften Krankheitsfälle anzusehen, wäre also ein logisch falsch gefolgerter Schluss der Art „&amp;#039;&amp;#039;[[cum hoc ergo propter hoc]]&amp;#039;&amp;#039;“.&lt;br /&gt;
&lt;br /&gt;
Im zweiten gedachten Fall läge keinerlei kausaler Zusammenhang vor; vielmehr würde der sogenannte [[Zielscheibenfehler]] begangen: Nachdem eine signifikante Häufung eines Ereignisses (hier: der Krankheit) festgestellt wurde, wird ein anderes einigermaßen auffälliges Ereignis (nun: die Chemiefabrik) herangezogen und als mit dem ersten kausal zusammenhängend interpretiert. Oder noch einfacher:&amp;lt;br /&amp;gt;Ein irgendwo als anders aufgefallenes Etwas wird wohl etwa mit irgendwas auffällig Anderem zusammenhängen – irgendwie, am liebsten: kausal und &amp;#039;&amp;#039;[[ad hoc]]&amp;#039;&amp;#039; (hier nun – »&amp;#039;&amp;#039;cum ergo propter&amp;#039;&amp;#039;« – nun hier).&lt;br /&gt;
&lt;br /&gt;
== Siehe auch ==&lt;br /&gt;
* [[F-Test]] zur Feststellung statistischer Signifikanz des Unterschiedes zweier [[Varianz (Stochastik)|Varianzen]]&lt;br /&gt;
* [[t-Test]]&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
* Erika Check Hayden: &amp;#039;&amp;#039;Weak statistical standards implicated in scientific irreproducibility.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;[[Nature]].&amp;#039;&amp;#039; 2013, [[doi:10.1038/nature.2013.14131]].&lt;br /&gt;
* David Salsburg: &amp;#039;&amp;#039;The lady tasting tea. How statistics revolutionized science in the twentieth century.&amp;#039;&amp;#039; Freeman, New York NY 2001, ISBN 0-7167-4106-7 (populärwissenschaftlich).&lt;br /&gt;
* {{Literatur |Autor=Ronald L. Wasserstein, Nicole A. Lazar | Titel=The ASA’s Statement on &amp;#039;&amp;#039;p&amp;#039;&amp;#039;-Values: Context, Process, and Purpose |Sammelwerk=The American Statistician |Band=70 |Nummer=2 |Datum=2016 |Seiten=129–133 |DOI=10.1080/00031305.2016.1154108}}&lt;br /&gt;
* Valentin Amrhein, Fränzi Korner-Nievergelt, Tobias Roth 2017. &amp;#039;&amp;#039;The earth is flat (p &amp;gt; 0.05): significance thresholds and the crisis of unreplicable research.&amp;#039;&amp;#039; PeerJ 5: e3544, [[doi:10.7717/peerj.3544]].&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
{{Wiktionary|signifikant}}&lt;br /&gt;
* Peter Sedlmeier: [https://www.dgps.de/fachgruppen/methoden/mpr-online/issue1/art3/sedlmeier.pdf &amp;#039;&amp;#039;Jenseits des Signifikanztest-Rituals: Ergänzungen und Alternativen.&amp;#039;&amp;#039;] (PDF-Datei; 427 kB)&lt;br /&gt;
* Jan M. Hoem: [https://www.demographic-research.org/volumes/vol18/15/18-15.pdf &amp;#039;&amp;#039;The reporting of statistical significance in scientific journals.&amp;#039;&amp;#039;] (PDF-Datei; 131 kB)&lt;br /&gt;
* [https://jeff560.tripod.com/s.html &amp;#039;&amp;#039;Earliest Uses: Significance.&amp;#039;&amp;#039;]&lt;br /&gt;
&lt;br /&gt;
== Einzelnachweise ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Testtheorie]]&lt;/div&gt;</summary>
		<author><name>imported&gt;Xenein</name></author>
	</entry>
</feed>