Der Mittelwert (Durchschnitt) wird berechnet, indem alle Werte in einem Datensatz summiert und die Summe dann durch die Gesamtzahl der Werte dividiert wird. Es repräsentiert die zentrale Tendenz der Daten.
Formel: Mittelwert = (Σx) / n
Wo:
- Der Mittelwert ist der Durchschnitt
- Σx ist die Summe aller Werte im Datensatz
- n ist die Gesamtzahl der Werte im Datensatz
Der Median ist der Mittelwert in einem Datensatz, wenn die Werte in aufsteigender Reihenfolge angeordnet sind.
Bei einer geraden Anzahl von Werten ist der Median der Durchschnitt der beiden Mittelwerte.
Formel (ungerade Anzahl von Werten): Median = Mittelwert
Formel (Gerade Anzahl von Werten): Median = (Wert an Position n/2 + Wert an Position (n/2 + 1)) / 2
Das Minimum ist der kleinste Wert in einem Datensatz.
Formel: Minimum = Kleinster Wert
Das Maximum ist der größte Wert in einem Datensatz.
Formel: Maximum = Größter Wert
Der Bereich ist die Differenz zwischen den Maximal- und Minimalwerten in einem Datensatz. Es liefert ein Maß für die Streuung oder Variabilität der Daten.
Formel: Bereich = Maximum – Minimum
Der mittlere Bereich ist der Durchschnitt der Maximal- und Minimalwerte in einem Datensatz.
Formel: Mittelbereich = (Maximum + Minimum) / 2
Die Anzahl stellt die Gesamtzahl der Werte in einem Datensatz dar.
Die Summe ist die Summe aller Werte in einem Datensatz.
Formel: Summe = Σx
Wo:
- Σx ist die Summe aller Werte im Datensatz
Ein Perzentil stellt den Wert dar, unter den ein bestimmter Prozentsatz der Daten fällt. Es wird häufig verwendet, um bestimmte Datenpunkte in einer Verteilung zu identifizieren.
Ein Quartil unterteilt einen Datensatz in vier gleiche Teile, wobei jeder Teil 25 % der Daten enthält. Quartile werden häufig zur Beurteilung der Datenverteilung verwendet.
Die Quadratsumme ist die Summe der Quadrate der Differenzen zwischen jedem Datenpunkt und dem Mittelwert. Es ist eine Schlüsselkomponente bei der Berechnung von Varianz und Standardabweichung.
Formel: Quadratsumme = Σ(x - Mittelwert)²
Wo:
- Σ stellt das Summensymbol dar
- x ist jeder Datenpunkt
- Der Mittelwert ist der Mittelwert (Durchschnitt) des Datensatzes
Die Standardabweichung misst das Ausmaß der Variation oder Streuung in einem Datensatz. Es gibt an, wie weit die Datenpunkte vom Mittelwert abweichen.
Formel: Standardabweichung = √(Σ(x - Mittelwert)² / (n - 1))
Wo:
- √ stellt die Quadratwurzel dar
- Σ stellt das Summensymbol dar
- x ist jeder Datenpunkt
- Der Mittelwert ist der Mittelwert (Durchschnitt) des Datensatzes
- n ist die Gesamtzahl der Werte im Datensatz
Die Varianz ist ein Maß für die Streuung oder Streuung eines Datensatzes. Es ist der Durchschnitt der quadrierten Differenzen zwischen jedem Datenpunkt und dem Mittelwert.
Formel (Populationsvarianz): Varianz (σ²) = Σ(x - Mittelwert)² / N
Wo:
- Σ stellt das Summensymbol dar
- x ist jeder Datenpunkt
- Der Mittelwert ist der Mittelwert (Durchschnitt) des Datensatzes
- N ist die Gesamtzahl der Werte in der Grundgesamtheit
Hinweis: Wenn Sie mit einer Stichprobe von Daten arbeiten, verwenden Sie die Stichprobenvarianzformel, die durch (N – 1) statt durch N dividiert. Diese Korrektur berücksichtigt Stichprobenverzerrungen.
Der Z-Score misst, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert einer Standardnormalverteilung aufweist. Es wird verwendet, um Daten zu standardisieren und ihre Position relativ zum Mittelwert zu bewerten.
Formel: Z-Score = (x – Mittelwert) / Standardabweichung
Wo:
- x ist der Datenpunkt
- Der Mittelwert ist der Mittelwert (Durchschnitt) des Datensatzes
- Standardabweichung ist die Standardabweichung des Datensatzes
Der Interquartilbereich ist der Bereich zwischen dem ersten Quartil (Q1 – 25. Perzentil) und dem dritten Quartil (Q3 – 75. Perzentil) in einem Datensatz. Es liefert ein Maß für die Streuung der mittleren 50 % der Daten.
Formel: IQR = Q3 - Q1
Wo:
- Q1 ist das erste Quartil (25. Perzentil)
- Q3 ist das dritte Quartil (75. Perzentil)
Der Variationskoeffizient ist ein relatives Maß für die Variabilität und wird in Prozent ausgedrückt. Es wird verwendet, um die Standardabweichung von Daten mit ihrem Mittelwert zu vergleichen, was es nützlich macht, die relative Variabilität zwischen Datensätzen mit unterschiedlichen Mittelwerten zu bewerten.
Formel: CV = (Standardabweichung / Mittelwert) * 100 %
Schiefe misst die Asymmetrie der Wahrscheinlichkeitsverteilung einer reellwertigen Zufallsvariablen. Es zeigt an, ob die Daten nach rechts oder links verzerrt sind.
Eine positive Schiefe weist darauf hin, dass das Verteilungsende nach rechts geneigt ist (rechtsschief), was bedeutet, dass es auf der rechten Seite der Verteilung extremere Werte gibt.
Eine negative Schiefe weist darauf hin, dass das Verteilungsende nach links geneigt ist (linksschief), was bedeutet, dass es auf der linken Seite der Verteilung extremere Werte gibt.
Kurtosis misst die „Schwanzigkeit“ der Wahrscheinlichkeitsverteilung einer reellwertigen Zufallsvariablen. Es zeigt das Vorhandensein und den Grad von Ausreißern in den Daten an.
Eine positive Kurtosis (leptokurtic) weist auf starke Ausläufer und einen Peak hin, was bedeutet, dass die Daten extremere Werte aufweisen und mehr Peaks aufweisen als eine Normalverteilung.
Eine negative Kurtosis (Platykurtic) weist auf leichte Ausläufer und eine flachere Verteilung hin, was bedeutet, dass die Daten weniger Extremwerte aufweisen und flacher als eine Normalverteilung sind.
Kovarianz misst den Grad, in dem sich zwei Variablen gemeinsam ändern. Es gibt an, ob die Variablen einen positiven oder negativen linearen Zusammenhang haben.
Formel: Cov(X, Y) = Σ((X - Mittelwert(X)) * (Y - Mittelwert(Y))) / (n - 1)
Wo:
- Σ stellt das Summensymbol dar
- X und Y sind Variablen
- Mittelwert(X) und Mittelwert(Y) sind die Mittelwerte von X bzw. Y
- n ist die Gesamtzahl der Beobachtungen
Wenn die Kovarianz positiv ist, weist dies auf eine positive Beziehung hin (X nimmt tendenziell zu, wenn Y zunimmt).
Wenn die Kovarianz negativ ist, weist dies auf eine negative Beziehung hin (X nimmt tendenziell ab, wenn Y zunimmt).
Der Korrelationskoeffizient misst die Stärke und Richtung der linearen Beziehung zwischen zwei Variablen. Es handelt sich um eine normalisierte Version der Kovarianz, die zwischen -1 und 1 liegt.
Formel: r = Cov(X, Y) / (Standardabweichung(X) * Standardabweichung(Y))
Wo:
- Cov(X, Y) ist die Kovarianz zwischen X und Y
- Standardabweichung (X) und Standardabweichung (Y) sind die Standardabweichungen von X bzw. Y
Wenn |r| liegt nahe bei 1, weist dies auf eine starke lineare Beziehung hin, wobei ein positives r eine positive Korrelation und ein negatives r eine negative Korrelation anzeigt. Wenn |r| Liegt der Wert nahe bei 0, weist dies auf eine schwache oder keine lineare Beziehung hin.