Mittelwert

\[ \hat{x} = \frac{1}{N} \sum_{i=1}^N x_i \hspace{2cm} \text{Schätzer für den Mittelwert} \]

Dies ist “nur” ein Schätzer, da die Stichprobe zahlenmäßig begrenzt ist. Um den wahren Mittelwert zu wissen, müsste man alle Objekte vermessen (Beispiel: Wollte man den genauen Mittelwert des Gewichtes der Heringe in der Ostsee wissen, müsste man alle Heringe in der Ostsee wiegen). Je größer die Stichprobe (also \(N\)), desto genauer der Schätzer !

In R:

x = c(1.3, 2.0, 3.6, 2.7, 3.1, 2.5, 2.9, 2.4, 2.2, 3.3)   # observation
xm = mean(x) # mean value
xm
## [1] 2.6


Varianz

\[ V(\boldsymbol{x}) = \frac{1}{N-1} \cdot \sum_{i=1}^N \left( x_i - \hat{x} \right)^2 \hspace{2cm} \text{Schätzer für die Varianz} \] Die Varianz ist ein Maß für die Streuung in einer Stichprobe. Es ist immer \(V(\boldsymbol{x}) \ge 0\) (die Quadrate sind positiv).

In R:

varx = var(x)   # variance
round(varx, 3)
## [1] 0.456


Standardabweichung

\[ D(\boldsymbol{x}) = \sqrt{V(\boldsymbol{x})} \]

Die Standardabweichung hat die gleiche Einheit wie die ursprünglichen Messgrößen \(x_i\).

In R:

stdev = sd(x)   # standard deviation
round(stdev, 3)
## [1] 0.675


Normalverteilung (optional)

Viele Messgrößen sind normalverteilt. Die Wahrscheinlichkeitsdichte ist:

\[ f(x) = \frac{1}{\sqrt{2\pi} \cdot \sigma} \cdot \exp{ \left( \frac{x-\mu}{\sigma} \right)^2 } \]

Hier ist \(\mu\) der (wahre) Mittelwert und \(\sigma\) die (wahre) Standardabweichung.


curve(dnorm(x, mean = 0, sd = 1), from = -5, to = 5, col = "red", type = "l", lwd = 1.5, main = "Normal distribution", ylab = "f(x)")
curve(dnorm(x, mean = 1, sd = 1), from = -5, to = 5, col = "blue", type = "l", lwd = 1.5, add = TRUE)
curve(dnorm(x, mean = 0, sd = 1.5), from = -5, to = 5, col = "green", type = "l", lwd = 1.5, add = TRUE)
legend("topleft", c("mean = 0, sd = 1", "mean = 1, sd = 1", "mean = 0, sd = 1.5"), col = c("red", "blue", "green"), lwd = 2, cex = 0.8)

Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable \(x\) zwischen den Werten \(a\) und \(b\) landet, ist:

\[ P \left( a \lt x \le b \right) = \int_a^b f(x) \; dx \]

Beispiel: Zufallsvariable mit bekannten (oder geschätzten) Werten für Mittelwert und Standardabweichung:

Die Wahrscheinlichkeit, einen Fisch zu fangen, dessen Gewicht zwischen \(0.1\) kg und \(0.2\) kg liegt, ist dann:

\[ P \left(0.1 \lt x \le 0.2\right) = \int_{0.1}^{0.2} \frac{1}{\sqrt{2\pi} \cdot 0.15} \cdot \exp{ \left( \frac{x-0.25}{0.1} \right)^2} \; dx \]


Das entspricht der Fläche unter der Dichtefunktion (für \(\mu=0.25\) und \(\sigma=0.1\)) zwischen \(0.1\) und \(0.2\).

curve(dnorm(x, mean = 0.25, sd = 0.1), from = -0.25, to = 0.75, col = "blue", type = "l", lwd = 2.0, 
      main = "Normal distribution", font.main = 1, ylab = "f(x)")
a = 0.1  # color red between a and b
b = 0.2 
cord.x <- c(a, seq(a, b, len=301), b) 
cord.y <- c(0, dnorm(seq(a, b, len=301), mean = 0.25, sd = 0.1), 0) 
polygon(cord.x, cord.y, col='red')
abline(h=0, col="darkgrey", lty=2)

Der rotmarkierte Flächeninhalt entspricht also der gesuchten Wahrscheinlichkeit.

Die Funktion pnorm in R berechnet die Verteilungsfunktion \(F_x\) und kann daher zur Berechnung des Integrals verwendet werden. Es gilt:

\[ P \left( a \lt x \le b \right) = \int_a^b f(x) \; dx = F_x(b) - F_x(a) \] (\(F_x(x)\) ist also die Stammfunktion von \(f(x)\))

Die oben gesuchte Wahrscheinlichkeit ist also:

P = pnorm(0.2, mean = 0.25, sd = 0.15) - pnorm(0.1, mean = 0.25, sd = 0.15)
round(P, 2)
## [1] 0.21


Das Integral unter der gesamten Kurve (von \(-\infty\) bis \(+\infty\)) ist immer \(1\), für jedes \(\mu\) und \(\sigma\):

integrate(dnorm, lower = -Inf, upper = Inf, mean = 0, sd = 1)
## 1 with absolute error < 9.4e-05
integrate(dnorm, lower = -Inf, upper = Inf, mean = 1, sd = 1)
## 1 with absolute error < 1.6e-05
integrate(dnorm, lower = -Inf, upper = Inf, mean = 0, sd = 1.5)
## 1 with absolute error < 4.1e-07


uwe.menzel@matstat.org