Das allgemeine lineare Modell

Den Ausgangspunkt bildet eine Reihe von $ n$ Messwerten,

$\displaystyle \bm{y}=\left( \begin{array}{l}
y_1 \\
y_2 \\
\vdots \\
y_n \\
\end{array} \right)
$

die in Abhängigkeit von $ r$ nicht stochastischen Einflussgrößen erhalten wurden. Die $ n$ Vektoren $ \bm{x}_i = (x_1,x_2,\ldots,x_r)_i$ müssen dabei nicht alle unterschiedliche Werte besitzen. Die Abhängigkeit der Messwerte von den Einflussgrößen kann über

$\displaystyle y_i = f(\bm{x}_i,\bm{\theta}) +\epsilon_i \hspace{15mm} i = 1,\dots,n$ (2)

beschrieben werden. Die Spaltenvektoren

$\displaystyle \bm{\theta}=\left( \begin{array}{l}
\theta_1 \\
\theta_2\\
\...
...
\epsilon_2\\
\vdots \\
\epsilon_n \\
\end{array} \right) \hspace{5mm}
$

enthalten die $ p$ unbekannten Parameter des Modells beziehungsweise eine unabhängige Zufallsgröße, die die Abweichungen der Messwerte $ y_i$ von den aus dem Modell berechneten Werten beschreibt. Für den Erwartungswert $ \bm{\mathrm{E}}$ und die Varianz $ \bm{\mathrm{Var}}$ dieser Größe soll gelten:

$\displaystyle \bm{\mathrm{E}}[\bm{\epsilon}] = 0$   und$\displaystyle \hspace{5mm} \bm{\mathrm{Var}}[\bm{\epsilon}] = \sigma^2$ (3)

wobei $ \sigma^2$ im allgemeinen unbekannt ist. Weitere Annahmen über die Verteilung der $ \epsilon_i$, insbesondere die Voraussetzung einer Normalverteilung, sind an dieser Stelle nicht notwendig.1Damit gilt für den Erwartungswert2vom $ y_i$:

$\displaystyle \bm{\mathrm{E}}[y_i] = f(\bm{x}_i,\bm{\theta}) \hspace{15mm} i = 1,\ldots,n$ (4)

Wenn sich die Funktion $ f(\bm{x}_i,\bm{\theta})$ als Linearkombination von $ p$ beliebigen, nicht notwendigerweise linearen Funktionen $ f_j(\bm{x}_i)$ darstellen lässt, kann man dafür schreiben:

$\displaystyle \bm{\mathrm{E}}[y_i] =\sum_{j=1}^p \theta_j f_j(\bm{x}_i) \hspace{15mm} i = 1,\ldots,n$ (5)

In diesem Fall liegt ein in den Parametern $ \bm{\theta}$ lineares Modell vor. Aus diesem lassen sich verschiedene Spezialfälle ableiten. Wenn zum Beispiel die Messwerte nur von einer Einflussgröße $ \bm{x}_i = (x_1)_i$ linear abhängen, kann $ f_1(\bm{x}_i) = 1$ sowie $ f_2(\bm{x}_i) = x_i$ festgesetzt werden. In diesem Fall ergibt sich daraus das Modell der linearen Regression

$\displaystyle \bm{\mathrm{E}}[y_i] = \theta_1 + \theta_2 x_i \hspace{15mm} i = 1,\ldots,n$ (6)

mit den unbekannten Parametern $ \theta_1$ und $ \theta_2$. In ähnlicher Weise lassen sich auch das Modell für eine Gerade durch den Koordinatenursprung oder für die Anpassung mit einem Polynom herleiten.

Durch die Wahl der $ p$ Funktionen $ f_j(\bm{x}_i)$ und der $ n$ Messstellen $ \bm{x}_i$ sind die Werte

$\displaystyle a_{i,j} =f_j(\bm{x}_i) \hspace{15mm} i = 1,\ldots,n \hspace{5mm} j = 1,\ldots,p
$

fest vorgeben. Diese $ a_{i,j}$ bilden die $ n \times p$ Design-Matrix

$\displaystyle \bm{A}=\left( \begin{array}{llll}
a_{1,1} & a_{1,2} & \cdots & a...
...ots & \vdots \\
a_{n,1} & a_{n,2} & \cdots & a_{n,p}\\
\end{array} \right)
$

des linearen Modells, das damit als einfache Matrizengleichnung geschrieben werden kann.

$\displaystyle \bm{y} = \bm{A}\;\bm{\theta} + \bm{\epsilon} \hspace{5mm} \mathrm{beziehungsweise} \hspace {5mm} \bm{\mathrm{E}}[\bm{y}] = \bm{A}\;\bm{\theta}$ (7)

Bisher wurde vorausgesetzt, dass alle Messergebnisse die gleiche Genauigkeit besitzen. Dies ist oftmals nicht der Fall und die einzelnen Messwerte sollen daher mit unterschiedlicher Gewichtung in das Modell einfließen. Zu diesem Zweck kann zu jedem Messwert ein entsprechendes Gewicht $ p_i$ festgelegt werden. Damit lassen sich die relativen Unterscheide in der Genauigkeit der einzelnen Messungen in einfacher Weise beschreiben. Diese Werte bilden die Gewichtsmatrix $ \bm{P}=diag(p_1,p_2,\ldots,p_n)$. Setzt man für
$\displaystyle \bm{y}^*$ $\displaystyle =$ $\displaystyle \bm{P}^{1/2} \bm{y}$  
$\displaystyle \bm{A}^*$ $\displaystyle =$ $\displaystyle \bm{P}^{1/2} \bm{A}$  
$\displaystyle \bm{\epsilon}^*$ $\displaystyle =$ $\displaystyle \bm{P}^{1/2} \bm{\epsilon}$ (8)

so ergibt

$\displaystyle \bm{y}^* = \bm{A}^* \bm{\theta} + \bm{\epsilon}^*$ (9)

wieder ein lineares Modell (Gleichung 7).

Liegen Informationen über die Varianz $ \sigma_i$ der Fehler der einzelnen Messwerte $ y_i$ vor, so können diese zur Gewichtung benutzt werden. Dazu geht man von der Vorstellung aus, dass die einzelnen Messwerte $ y_i$ jeweils Mittelwerte einer Sichprobe des Umfanges $ n_i$ repräsentieren. Die Varianz dieser Mittelwerte folgt aus der Varianz $ \sigma$ der zugrunde liegenden Grundgesamtheit entsprechend $ \sigma_i^2 = \sigma^2/n_i$. Setzt man als Gewichte den Umfang der jeweiligen Stichproben ein, wie dies auch von Fahrmeir (2009) für gruppierte Daten beschrieben wird, so folgt daraus:

$\displaystyle p_i = n_i = \frac{\sigma^2}{\sigma_i^2}
$

Da oftmals die Varianz $ \sigma^2$ der Grundgesamtheit vorab nicht bekannt ist, werden die Gewichte nur proportional zu $ n_i$ angesetzt.

$\displaystyle p_i \propto \frac{\sigma^2}{\sigma_i^2}\hspace{10mm} p_i = c\;\frac{1}{\sigma_i^2}$ (10)

wobei c in diesem Fall, eine willkürlich festgelegte Konstante3ist, die, wie später zu sehen sein wird, keinen Einfluss auf die Schätzungen von $ \widehat{\bm{\theta}}$ (Gleichung 12) und $ \widehat{\bm{\mathrm{Cov}}[\widehat{\bm{\theta}}]}$ (Gleichung 14) hat.

Die Diagonalmatrix $ diag(\sigma_1^2,\sigma_2^2\ldots\sigma_n^2)$ entspricht der $ n\times n$ Kovarianzmatrix $ \bm{\mathrm{Cov}}[\bm{\epsilon}]$ der bisher als statistisch unabhängig angenommenen Abweichungen $ \epsilon_i$ der Messwerte $ y_i$ von den aus dem Modell berechneten Werten. Diese Annahme ist im weiteren nicht mehr erforderlich. Die Kovarianzmatrix der Messabweichungen $ \bm{\Sigma}$ ist allgemein gegeben durch:

$\displaystyle \bm{\Sigma} = \bm{\mathrm{Cov}}[\bm{\epsilon}]=\left( \begin{arra...
...
\sigma_{n,1} & \sigma_{n,2} & \cdots & \sigma_{n,n}\\
\end{array} \right)
$

wobei

$\displaystyle \sigma_{i,i} = \sigma_i^2= \bm{\mathrm{Var}}[\epsilon_i] \hspace{...
...{Cov}}[\epsilon_i,\epsilon _j] \hspace{3mm} \mathrm{mit} \hspace{3mm} i \neq j
$

sind. Die Kovarianzmatrix $ \bm{\Sigma}$ ist symmetrisch und positiv semidefinit. Ist sie positiv definit, kann ihre Inverse, auch als Präzisionsmatrix bezeichnet, zur Festlegung der Gewichtmatrix genutzt werden.

$\displaystyle \bm{P} = \sigma^2\;\bm{\Sigma}^{-1}
$

$ \sigma^2$ ist hierbei der Varianzfaktor, oftmals auch als Varianz der Gewichtseinheit bezeichnet, der festlegt welchem Messwert das Gewicht Eins gegeben wird. Bei unbekanntem $ \sigma$ wird die Gewichtsmatrix als proportional zur Präzisionsmatrix angesetzt.

$\displaystyle \bm{P} \propto \bm{\Sigma}^{-1} \hspace{10mm} \bm{P} = c\;\bm{\Sigma}^{-1}$ (11)

Für die Konstante $ c$ gilt das oben gesagte.

Setzt man für die Gewichtsmatrix die Einheitsmatrix ein, $ \bm{P} =\bm{I}$, so ergibt sich daraus das einfache lineare Modell (Gleichung 7). Eine getrennte Behandlung dieses Spezialfalles ist im weiteren nicht erforderlich.



Unterabschnitte
schaefer 2017-12-09