Bayes Statistik

Die Bayes Statistik verfolgt einen grundsätzlich anderen Ansatz als die Klassische Statistik. Die Klassische Statistik versucht nur aus den gegebenen Daten, den Messwerten, z.B. mit der Methode der kleinsten Quadrate die wahrscheinlichsten Werte der unbekannten Parameter zu schätzen, deren Erwartungswerte als fest angenommenen werden. Demgegenüber geht die Bayes-Statistik davon aus, das auch die Parameter selbst Zufallsgrößen sein können und bestimmt nicht nur die Parameterwerte, für die die Datenwahrscheinlichkeit am größten ist, sondern auch deren Wahrscheinlichkeitsverteilung, aus der sich die Unsicherheit über den wahren Wert der Parameter ableiten lässt. Dazu arbeitet die Bayes-Statistik mit bedingten Wahrscheinlichkeiten. Mit Hilfe des Bayes-Theorem

$\displaystyle p(\bm{\theta}\mid\bm{y}) = \frac{p(\bm{y}\mid\bm{\theta})\;p(\bm{\theta})}{p(\bm{y})}$ (16)

wird die gesuchte bedingte Wahrscheinlichkeitsverteilung $ p(\bm{\theta}\mid\bm{y})$ der Parameter, deren Posteriori-Wahrscheinlichkeit bestimmt. 8Neben der Likelihood-Funktion $ p(\bm{y}\mid\bm{\theta})$ sind Vorkenntnisse über die Wahrscheinlichkeitsverteilung der unbekannten Parameter $ p(\bm{\theta})$, über die sogenannte Priori-Verteilung notwendig. Je nach Festlegung beinhaltet diese eine mehr oder weniger große Subjektivität. Auch wenn die statistischen Aussagen ausschließlich aus der Posteriori-Verteilung abgeleitet werden, bleibt diese subjektive Komponente erhalten. Im Gegensatz dazu arbeitet die klassische Statistik nur mit der Likelihood-Funktion. Da der Ausdruck $ {p(\bm{y})}$ nur eine Normierungskonstanteist, reicht es aus, Gleichung 16 in der Form

$\displaystyle p(\bm{\theta}\mid\bm{y}) \propto p(\bm{y}\mid\bm{\theta})\times p(\bm{\theta})$ (17)

zu verwenden.

In der Schreibweise der Bayes-Statistik lautet das allgemeine lineare Modell:

$\displaystyle \bm{y}$ $\displaystyle =$ $\displaystyle \bm{A}\;\bm{\theta} + \bm{\epsilon}
\hspace{5mm} \mathrm{beziehun...
...ise} \hspace {5mm}
\bm{\mathrm{E}}[\bm{y}\mid\bm{\theta}] = \bm{A}\;\bm{\theta}$  
  $\displaystyle \mathrm{mit}$ $\displaystyle \bm{\mathrm{E}}[\bm{\epsilon}\mid\bm{\theta}] = 0$  
  $\displaystyle \mathrm{und}$ $\displaystyle \bm{\mathrm{Cov}}[\bm{\epsilon}\mid\bm{\theta},\sigma^2] =
\bm{\mathrm{Cov}}[\bm{y}\mid\sigma^2] = \bm{\Sigma} = \sigma^2\bm{P}^{-1}$ (18)

wobei im weiteren für die Verteilung der Messabweichungen eine mehrdimensionale Normalverteilung vorausgesetzt wird.9Unter diesen Voraussetzungen ergibt sich die Likelihood-Funktion zu:

$\displaystyle p(\bm{y}\mid\bm{\theta},\sigma) = \frac{1}{(2\pi)^{n/2}\vert(\sig...
...gma^2}(\bm{y}-\bm{A}\;\bm{\theta})^T\bm{P}(\bm{y}-\bm{A}\;\bm{\theta})\right)
$

Da über die Parameter $ \bm{\theta}$ und $ \sigma^2$ keine Vorinformationen vorliegen, wird im weiteren von einem nichtinformativen Priori-Verteilung ausgegangen. Für $ \theta$ wird angenommen, das alle möglichen Werte gleich wahrscheinlich sind.

$\displaystyle p(\bm{\theta}) \propto 1$   für$\displaystyle \hspace{5mm}
-\infty < \theta_i < \infty\;,\; i=1,\ldots,n
$

Da $ \sigma^2$ nur Werte im Intervall $ 0 < \sigma^2 < \infty$ annehmen kann, wird von einer Gleichverteilung für $ \ln{\sigma}$ ausgegangen. Dies führt auf die nichtinformative Priori-Verteilung für die Varianz:

$\displaystyle p(\sigma) \propto \sigma^{-2}$   für$\displaystyle \hspace{5mm} 0 < \sigma < \infty
$

Somit ergibt sich für die Priori-Verteilung $ p(\bm{\theta},\sigma^2)$ :

$\displaystyle p(\bm{\theta},\sigma^2)=p(\bm{\theta})\times p(\sigma^2)\propto\sigma^{-2}$ (19)

Diese Verteilungsfunktion ist nicht normierbar und wird deswegen auch als uneigentliche Priori-Verteilung bezeichnet. Da die verwendete Likelihood-Funktion normierbar ist, folgt aus der Verknüpfung nach dem Bayes-Theorem eine Posteriori-Verteilung, die normierbar ist.

$\displaystyle p(\bm{\theta},\sigma\mid\bm{y}) \propto (\sigma^2)^{-(n+2)/2}
\e...
...ma^2}(\bm{y}-\bm{A}\;\bm{\theta})^T\bm{P}\,(\bm{y}-\bm{A}\;\bm{\theta})\right)
$

Der Exponenten lässt sich geeignet umformen.10

$\displaystyle (\bm{y}-\bm{A}\;\bm{\theta})^T\bm{P}(\bm{y}-\bm{A}\;\bm{\theta}) ...
...;s^2 +(\bm{\theta}-\bm{\mu_0})^T\bm{A}^T\bm{P}\bm{A}\,(\bm{\theta}-\bm{\mu_0})
$

Darin bedeuten

$\displaystyle \bm{\mu_0} = (\bm{A}^T\bm{P}\bm{A})^{-1}\bm{A}^T\bm{P}\bm{y}
$

und

$\displaystyle s^2 =\frac{1}{n-p}\;(\bm{y}-\bm{A}\;\bm{\mu_0})^T\bm{P}\,(\bm{y}-\bm{A}\;\bm{\mu_0})
$

Damit ergibt sich eine Normal-inverse Gammaverteilung11 $ \mathrm{NIG}(\bm{m},\,\bm{M},\,a,\,b)$ mit den Parametern
$\displaystyle \bm{m}$ $\displaystyle \rightarrow$ $\displaystyle \bm{\mu_0}\,\mathrm{,}\hspace{12mm}
\bm{M} \rightarrow (\bm{A}^T\bm{P}\;\bm{A})^{-1}$  
$\displaystyle a$ $\displaystyle \rightarrow$ $\displaystyle \frac{n-p}{2}\,\mathrm{,}\hspace{5mm}
b \rightarrow \frac{n-p}{2}\;s^2$  

und der Dichte

$\displaystyle p(\bm{\theta},\sigma\mid\bm{y}) \propto(\sigma^2)^{-(n+2)/2} \exp...
...eta}-\bm{\mu_0})^T\bm{A}^T\bm{P}\bm{A}\,(\bm{\theta}-\bm{\mu_0})\right]\right\}$ (20)

Um daraus die Verteilung $ p(\bm{\theta}\mid\bm{y})$ zu erhalten, wird über $ \sigma^2$ integriert.

$\displaystyle p(\bm{\theta}\mid\bm{y}) \propto \int (\sigma^2)^{-(n+2)/2} \exp ...
...0})^T\bm{A}^T\bm{P}\bm{A}\,(\bm{\theta}-\bm{\mu_0})\right] \right\} d\sigma^2
$

Der Integrand ist der Kern einer inversen Gamma-Verteilung12 $ \mathrm{InvGa}(a,b)$ für $ \sigma^2$ mit den Parametern
$\displaystyle a$ $\displaystyle \rightarrow$ $\displaystyle n/2$  
$\displaystyle b$ $\displaystyle \rightarrow$ $\displaystyle \frac{s^2(n-p)+(\bm{\theta}-\bm{\mu_0})^T\bm{A}^T\bm{P}\bm{A}\,(\bm{\theta}-\bm{\mu_0})}{2}$  

Aus dem Normierungsparameter der inversen Gamma-Verteilung folgt:
$\displaystyle p(\bm{\theta}\mid\bm{y})$ $\displaystyle \propto$ $\displaystyle \Gamma(\frac{n}{2})\left[ \frac
{s^2(n-p)
+(\bm{\theta}-\bm{\mu_0})^T\bm{A}^T\bm{P}\bm{A}\,(\bm{\theta}-\bm{\mu_0})}{2}
\right]^{-\frac{n}{2}}$  
  $\displaystyle \propto$ $\displaystyle \left[1 + \frac{(\bm{\theta}-\bm{\mu_0})^T\left(s^2(\bm{A}^T\bm{P}\bm{A})^{-1}\right)^{-1}(\bm{\theta}-\bm{\mu_0})}{n-p}\right]^{\frac{n-p+p}{2}}$  

Dieser Ausdruck entspricht dem Kern einer $ p$-dimensionalen t-Verteilung13
$ \mathrm{T}_p(\bm{\mu},\bm{D},d)$ mit :
$\displaystyle \bm{\mu}$ $\displaystyle \rightarrow$ $\displaystyle \bm{\mu_0}$  
$\displaystyle \bm{D}$ $\displaystyle \rightarrow$ $\displaystyle s^2(\bm{A}^T\bm{P}\bm{A})^{-1}$  
$\displaystyle d$ $\displaystyle \rightarrow$ $\displaystyle n-p$  

Für den Parametervektor $ \bm{\theta}$ ergibt sich damit die $ p$-dimensionalen t-Verteilung

$\displaystyle \bm{\theta} \mid \bm{y} \sim \mathrm{T}_p\left(\bm{\mu_0},\,s^2(\bm{A}^T\bm{P}\bm{A})^{-1},\,n-p\right)$ (21)

als Posteriori-Randverteilung. Zu dem gleichen Ergebnis gelangt man auch mit anderen nichtinformativen Priori-Verteilungen14,15. Aus dem Erwartungswert der mehrdimensionalen t-Verteilung

$\displaystyle \bm{\mathrm{E}}[\bm{\theta}\mid\bm{y}] = \bm{\mu_0}
$

ergibt sich die Bayesschätzung $ \widehat{\bm{\theta}}_B$ zu

$\displaystyle \widehat{\bm{\theta}}_B = (\bm{A}^T\bm{P}\bm{A})^{-1}\,\bm{A}^T\bm{P}\bm{y}$ (22)

Diese stimmt mit dem Ergebnis der Klassischen Statistik (12) überein.

Aus der Posteriori-Randverteilung (21) lässt sich der Konfidenzbereich für jeden Teilvektor des Parametervektor $ \bm{\theta}$ und damit auch das Konfidenzintervall des einzelnen Parameters $ \theta_j$ ableiten. Es ergibt sich dann eine eindimensionale t-Verteilung mit $ n-p$ Freiheitsgraden, die sich mit der Substitution

$\displaystyle x = \frac{{\bm{\mu_0}}_j - \theta_j}{s_j}
$

und dem entsprechenden Hauptdiagonalenelement der Dispersionsmatrix $ \bm{D}$

$\displaystyle s_j = \left(s^2(\bm{A}^T\bm{P} \bm{A})^{-1}_{j,j}\right)^{1/2}
$

auf eine Standard t-Verteilung mit $ n-p$ Freiheitsgraden zurückführen lässt. Die sich daraus ergebenden Konfidenzintervalle

$\displaystyle {\bm{\mu_0}}_j - t_{n-p}(1-\alpha/2)\; s_j \le \theta_j \le {\bm{\mu_0}}_j + t_{n-p}(1-\alpha/2)\; s_j$ (23)

stimmen mit denen der Klassischen Statistik (15) überein.

Aus der Posteriori-Verteilung (20) folgt als Randverteilung für die Varianz $ \sigma^2$ eine inverse Gammaverteilung $ \mathrm{InvGa}(a,b)$ mit den Parametern

$\displaystyle a$ $\displaystyle \rightarrow$ $\displaystyle \frac{n-p}{2}$  
$\displaystyle b$ $\displaystyle \rightarrow$ $\displaystyle \frac{n-p}{2}\;s^2$  

Aus dem Erwartungswert der inversen Gammaverteilung ergibt sich damit die Bayesschätzung des Varianzfaktors $ \widehat{\sigma^2}_B$ zu
$\displaystyle \widehat{\sigma^2}_B$ $\displaystyle =$ $\displaystyle \bm{\mathrm{E}}[\sigma^2\mid\bm{y}]$  
  $\displaystyle =$ $\displaystyle \frac{n-p}{n-p-2}\;s^2$  
  $\displaystyle =$ $\displaystyle \frac{1}{n-p-2}\;(\bm{y}-\bm{A}\;\bm{\mu_0})^T\bm{P}\,(\bm{y}-\bm{A}\;\bm{\mu_0})$  

Das gleiche Ergebnis kann auch auf anderen Weise gefunden werden16. Die Bayesschätzung $ \widehat{\sigma^2}_B$ ist um den Faktor $ (n-p)/(n-p-2)$ größer als die Schätzung $ \widehat{\sigma^2}$ der klassischen Statistik(13).

schaefer 2017-12-09