Deep learning - Probability and Information theories I
Random variables and probability distribution
Random variables(隨機變數)
在實驗的過程,所有可能的實驗結果 \(\omega\) 組成之集合稱為「樣本空間」(Sample space)\(\Omega\)
- 擲一次六面骰子
- 其樣本空間為{1, 2, 3, 4, 5, 6}
「事件」(Event)為樣本空間的子集合
- 擲一次六面骰子
- 其中一個事件「大於 4 點」的集合為{5, 6}
- 上述事件的機率為一分數(Fraction)
- 分母為樣本空間的元素個數 6
- 分子為其事件的元素個數 2
- \(機率(大於 \;4 \;點) = \frac 26 = \frac 13\)
- 對於所有事件
- 0 ≦ 事件對應的機率 ≦ 1
Definition(隨機變數 \(\mathrm x\))
為一個函數將樣本空間 \(\Omega\) 的元素映射至實數空間,換言之 \(\mathrm X\) 為一個自訂的法則,將每個實驗結果 \(\omega \in \Omega\) 賦予其實數值 \(\mathrm X(\omega)\)
Example
- 對應於樣本空間 \(\Omega = {(1,1),(1,2), \ldots,(6, 6)}\),自訂一個隨機變數 \(\mathrm X\) 其等於有序對(Order pair)的元素相加
- \(\mathrm X(1, 1) = 2, \mathrm X(1, 2) = 3\)
- 推廣:\(\mathrm X(i, j) = i+j\)
Notation
- \(\mathrm X = x\)
- 為事件集合 \({\omega\in\Omega:\mathrm X(\omega) = x}\)
- 一個隨機變數 \(\mathrm X\) 可被隨機指定指定值的變數
- (以正體標示,斜體標示為一個常數變數)
- 會對應一個機率值當指定 \(\mathrm x\) 一個值時
- 如:\(\Pr(\mathrm X = x_1) = 0.1, \Pr(\mathrm X = x_2) = 0.3\ldots\)
- 正規來說,\(\mathrm X\) 為一個函數將一個「機率事件」映射至「實數域」
- 必須伴隨一個可以說明當 \(\mathrm X\) 為該實數值的機率分佈 \(\mathrm P\)
- \(\mathrm X~\mathrm P(\theta)\) 意旨「\(\mathrm X\) 擁有一個以 \(\theta\) 為參數的機率分佈 \(\mathrm P\)」
- 若 \(\mathrm X\) 為離散值,\(\mathrm P(\mathrm X = x)\) 為一個「機率質量函數」(Probability mass function;\(P_{\mathrm X}(x) = \mathrm P(\mathrm X = x) = \Pr(\mathrm X =x )\))
- 如:「一個公正的骰子能擲出的點數」為「離散均勻分佈」並且 \(P_{\mathrm X}(x) = \frac 16\)
- 若 \(\mathrm X\) 為連續值,\(\mathrm P(\mathrm X = x)\) 為一個「機率密度函數」(Probability density function;\(F_{\mathrm x}(x)\))
- \(F_{\mathrm X}(x)\) 的輸出值不為機率而是機率密度(在 \(x\) 點之累進機率成長的幅度)
- 為「累進分佈函數」(Cumulative distribution function)的導函數
- 機率求取:\(\Pr(a\leq\mathrm x\leq b) = \int_{[a,b]}p(x)\mathrm dx\)
- \(F_{\mathrm X}(x)\) 的輸出可能大於 1
- 在 [a, b] 平均分佈(Uniform distribution)的狀態下
- 其機率密度函數 \(p(x) = \left\{\begin{matrix}\frac {1}{b-a} &,if\; x\in [a, b] \\ 0 &,otherwise \end{matrix}\right.\)
- 當 \(b-a\) 小於 1 時,\(p(x)>1\)
Marginal probability(邊際機率)
- 多個變數存在於一個機率分佈
- \(P_{\mathrm{X,Y}}(x, y)\) (聯合機率分佈;Joint probability distribution)
- 邊際機率分佈
- 在一個聯合機率分佈之下,取其多個隨機變數中只對其子集所關心的機率分佈
- 離散型:\(\mathrm P(\mathrm X = x) = \sum_y P_{\mathrm{X,Y}}(x, y)\)
- 連續型:\(\int F_{\mathrm{X,Y}}(x,y)\mathrm dy\)
- 亦稱作「Sum rule of probability」
- 在一個聯合機率分佈之下,取其多個隨機變數中只對其子集所關心的機率分佈
Conditional probability(條件機率)
- 在機率質量函數或機率密度函數中,其條件機率函數為
- \(\mathrm P(\mathrm X = x\vert\mathrm X = y) = \frac {\mathrm P(\mathrm X = x,\mathrm Y = y)}{\mathrm P(\mathrm Y = y)}\)
- 必須符合 \(\mathrm P(\mathrm y = y) > 0\) 的情況下
- Product rule of probability
- \(\mathrm P(\mathrm X^{(1)}, \ldots, \mathrm X^{(n)}) = \mathrm P(\mathrm X^{(1)})\prod_{i = 2}^n\mathrm P(\mathrm X^{(i)}|\mathrm X^{(1)}, \ldots, \mathrm X^{(i-1)})\)
- 如:\(\mathrm P(\mathrm{a, b, c}) = \mathrm P(\mathrm{c|a, b})\mathrm P(\mathrm{b|a})\mathrm P(\mathrm{a})\)
Independence and conditional independence(獨立與條件獨立)
- 隨機變數 \(\mathrm X\) 獨立於(Independent)\(\mathrm Y\)
- 若且唯若 \(\mathrm P(\mathrm X\vert\mathrm Y) = \mathrm {P(Y)}\)
- 可推論至 \(\mathrm {P(X,Y) = P(X)P(Y)}\)
- 標記為 \(\mathrm X \perp \mathrm Y\)
- 隨機變數 \(\mathrm X\) 在 \(\mathrm Z\) 之下條件獨立於(Conditionally independent)\(\mathrm Y\)
- 若且唯若 \(\mathrm {P(X\vert Y, Z) = P(X\vert Z)}\)
- 可推論至 \(\mathrm {P(X,Y\vert Z) = P(X\vert Z)P(Y\vert Z)}\)
- 標記為 \(\mathrm X \perp \mathrm{Y\vert Z}\)
Expectation(期望值)
- 可稱為「Expectation value」或「Mean」(平均值)
- 當一個"平均值"定義在對應於 \(\mathrm X\) 的函數 \(f\) 中
- 將 \(f\) 視為一個事件模型(分佈模型),當輸入 \(\mathrm X\) 值改變時,其輸出值的加權(其出現機率)平均
- 離散型:\(\mathrm E_{\mathrm {X~P}}[f(x)] = \sum_xP_{\mathrm X}(x)f(x)\)
- 連續型:\(\mathrm E_{\mathrm {X~P}}[f(x)] = \int F_{\mathrm X}(x)f(x) \mathrm dx = \mu_{f(x)}\)
- 對於與 \(\mathrm X\) 無關的變數 \(a, b\),期望值函數為線性函數
- \(\mathrm E[af(\mathrm X)+b] = a\mathrm E[f(\mathrm X)]+b\)
證明(離散型)
\(\mathrm E[af(\mathrm X)+b] = \sum_xP_{\mathrm X}(x)(af(x)+b) \\ = \sum_x aP_{\mathrm X}(x)f(x)+ bP_{\mathrm X}(x) = a\sum_x P_{\mathrm X}(x)f(x)+b\sum_xP_{\mathrm X}(x)= \\ =a\sum_x P_{\mathrm X}(x)f(x)+b\cdot1 = a\mathrm E[f(\mathrm x)]+b\)
- 因為 \(\mathrm E[f(x)]\) 為一個決定性的定值
- 則 \(\mathrm E[\mathrm E[f(x)]] = \mathrm E[f(x)]\)
- 在聯合機率分佈之下定義期望值
- 離散型:\(\mathrm {E[f(X,Y)]} = \sum_{x,y}P_{\mathrm {X,Y}}(x,y)f(x,y)\)
- 連續型:\(\mathrm {E[f(X,Y)]} = \int_{x,y}F_{\mathrm {X,Y}}(x,y)f(x,y)\mathrm dx\mathrm dy\)
- 條件期望值
- 離散型:\(\mathrm E[f(\mathrm X)|\mathrm Y = y] = \sum_x P_{\mathrm{X,Y}}(x|y)f(x)\)
- 連續型:\(\mathrm E[f(\mathrm X)|\mathrm Y = y] = \int F_{\mathrm{X,Y}}(x|y)f(x)\mathrm dx\)
- 若隨機變數 \(\mathrm {X,Y}\) 相互獨立
- \(\mathrm {E[f(X)g(Y)] = E[f(X)]E[g(Y)]}\)
Variance(變異數)
- 描述「一個對應於隨機變數 \(\mathrm X\) 的事件函數 \(f\)」其輸出之於該期望值的差異量
- \(\mathrm {Var[f(X)] = E[(f(X)-E[f(X)])^2] = \sigma_{f(X)}^2}\)
- = \((「每個 \;\mathrm {f(X)} \;的輸出」- 「\;\mathrm {f(X)} \;的平均數」)^2 的平均數\)
- 離散型:\(\sigma^2 = \frac 1n\sum_{i = 1}^n(x_i-\mu)^2\)
- \(\sigma_{\mathrm f(x)}\) 稱作「Standard deviation」(標準差)
- \(\mathrm {Var[f(X)] = E[(f(X)-E[f(X)])^2] = \sigma_{f(X)}^2}\)
- 對於與 \(\mathrm x\) 無關的變數 \(a, b\) 時
- \(\mathrm {Var}[af(\mathrm X)+b] = a^2\mathrm{Var}[f(\mathrm X)]\)
- 因為取變異數其可視為一個二次式
- 又因為取變異數是與其平均數的相對值,所以 \(b\) 不影響其輸出
證明
\(\mathrm {Var}[af(\mathrm X)+b] = \mathrm{E[(af(X)+b-E[af(X)+b])^2]} \\ = \mathrm{E[(af(X)+b-aE[f(X)]-b)^2]} = \mathrm{E[(af(X)-aE[f(X)])^2]}\\= \mathrm{a^2E[(f(X)-E[f(X)])^2]} = a^2\mathrm{Var}[f(\mathrm X)]\)
Covariance(共變異數)
在給定兩個變量(兩個隨機變數 \(\mathrm {X, Y}\))之下
- 探討兩個變量之間是否有關聯,其關聯程度是多少,在統計學上稱為「相關」
- 藉由「共變異數」可以決定兩個變量的「線性相關程度」
- 正相關:當 \(\mathrm X\) 值增加時 \(\mathrm Y\) 值隨之增加,此時稱兩變數為線性正相關
- 負相關:當 \(\mathrm X\) 值增加時 \(\mathrm Y\) 值隨之遞減,此時稱兩變數為線性負相關
- 零相關:當 \(\mathrm X\) 值增加時 \(\mathrm Y\) 值不隨之增加遞減或是成非線性相關,此時稱兩變數為線性零相關
- 引申出「相關係數」\(r\),\(\mathrm {X, Y}\) 有 \(n\) 筆數據
- \(-1\leq\frac{\sum_{i = 1}^n(x_i-\mathrm E[f(\mathrm X)])(y_i-\mathrm E[g(\mathrm Y)])}{n\cdot\sigma_{\mathrm X}\cdot \sigma_{\mathrm Y}}\leq1\)
- 共變異數描述 \(f(\mathrm X)\) 與 \(g(\mathrm Y)\) 的變動的差異性
- \(\mathrm{Cov[f(X), g(Y)] = E[(f(X)-E[f(X)])(g(Y)-E[g(Y)])]}\)
- 此數為正時,當 \(\mathrm X\) 值增加時 \(\mathrm Y\) 值隨之增加
- 此數為負時,當 \(\mathrm X\) 值增加時 \(\mathrm Y\) 值隨之遞減,反之亦然
- 若 \(\mathrm{X, Y}\) 相互獨立,則 \(\mathrm{Cov(X,Y)} =0\)
- 反之不成立,當 \(\mathrm{X,Y}\) 有可能相互有「非線性關係」(Nonlinear)
- 如:\(\mathrm Y = \sin(\mathrm X), \mathrm Y ~\mathrm{Uniform(-\pi, \pi)}\) 如下圖
- \[\mathrm{Var}(af(\mathrm X)+bg(\mathrm Y)) \equiv \mathrm{Var}(a\mathrm X+b\mathrm Y) \\ = a^2\mathrm{Var(X)}+b^2\mathrm{Var(Y)}+2ab\mathrm{Cov(X,Y)}\]
- 如果 \(\mathrm{X,Y}\) 相互獨立則 \(\mathrm{Var}(\mathrm X+\mathrm Y) = \mathrm{Var(X)}+\mathrm{Var(Y)}\)
證明
\(\mathrm{Var}(a\mathrm X+b\mathrm Y) = \mathrm{E[(ax+by-E[ax+by])^2]} \\ = \mathrm{E[(ax+by- aE[x]-bE[y])^2]} = \mathrm{E[(a(x-E[x])+b(y-E[y]))^2]} \\ = \mathrm{E[a^2(x-E[x])^2+b^2(y-E[y])^2+ab(x-E[x])(y-E[y])]} \\ = \mathrm{a^2E[(x-E[x])^2]+b^2E[(y-E[y])^2]+abE[(x-E[x])(y-E[y])]} \\ = a^2\mathrm{Var(x)}+b^2\mathrm{Var(y)}+2ab\mathrm{Cov(x,y)}\)
- \(\mathrm{Cov}(a\mathrm x+b, c\mathrm y+d) = ac\mathrm{Cov(x,y)}\)
證明
\(\mathrm{Cov}(a\mathrm x+b, c\mathrm y+d) = \mathrm E[(a\mathrm x+b-\mathrm E[a\mathrm x+b])(c\mathrm y+d-\mathrm E[c\mathrm y+d])] \\ = \mathrm E[(a\mathrm x+b-a\mathrm E[\mathrm x]-b)(c\mathrm y+d-c\mathrm E[\mathrm y]-d)] \\ = \mathrm E[ac(\mathrm x-\mathrm E[\mathrm x])(\mathrm y-\mathrm E[\mathrm y])] = ac\mathrm E[(\mathrm x-\mathrm E[\mathrm x])(\mathrm y-\mathrm E[\mathrm y])] = ac\mathrm{Cov(x,y)}\)
- \(\mathrm{Cov}(a\mathrm x+b\mathrm y, c\mathrm w +d\mathrm v) = \\ ac\mathrm{Cov(x,w)}+ad\mathrm{Cov(x,v)}+bc\mathrm{Cov(y,w)}+bd\mathrm{Cov(y,v)}\)
證明
\(\mathrm{Cov}(a\mathrm x+b\mathrm y, c\mathrm w +d\mathrm v) \\= \mathrm E[(a\mathrm x+b\mathrm y-\mathrm E[a\mathrm x+b\mathrm y])(c\mathrm w+d\mathrm v-\mathrm E[c\mathrm w+d\mathrm v])] \\ = \mathrm E[(a\mathrm x+b\mathrm y-a\mathrm E[\mathrm x]-b\mathrm E[\mathrm y])(c\mathrm w+d\mathrm v-c\mathrm E[\mathrm w]-d\mathrm E[\mathrm v])] \\ = \mathrm E[(a(\mathrm x-\mathrm E[\mathrm x])+b(\mathrm y-\mathrm E[\mathrm y]))(c(\mathrm w-\mathrm E[\mathrm w])+d(\mathrm v-\mathrm E[\mathrm v]))] \\= \mathrm E[ac(\mathrm x-\mathrm E[\mathrm x])(\mathrm w-\mathrm E[\mathrm w])+ad(\mathrm x-\mathrm E[\mathrm x])(\mathrm v-\mathrm E[\mathrm v])\\+bc(\mathrm y-\mathrm E[\mathrm y])(\mathrm w-\mathrm E[\mathrm w])+bd(\mathrm y-\mathrm E[\mathrm y])(\mathrm v-\mathrm E[\mathrm v])] \\ = ac\mathrm{Cov(x,w)}+ad\mathrm{Cov(x,v)}+bc\mathrm{Cov(y,w)}+bd\mathrm{Cov(y,v)}\)
Multivariate and Derived variables
Multivariate random variables(多元隨機變數)
- 多元隨機變數標記為 \(\mathrm x = \begin{bmatrix} \mathrm x_1\\ \vdots \\ \mathrm x_d \end{bmatrix}\)
- 可視為一個向量(稱作「Random vector」隨機向量),裡面每一個分量則為一個特性(Attributes;Variables;Features),其彼此通常為相互依賴的(Dependent)否則拆開討論即可
- 多元隨機變數對應的機率分佈 \(\mathrm {P(x)}\) 即為 \(\mathrm{x_1,\ldots,x_d}\) 對應的聯合機率分佈
- \(\mathrm x\) 的期望值定義為 \(\mu_{\mathrm x} = \mathrm{E(x) = \begin{bmatrix} \mathrm \mu_{x_1}\\ \vdots \\ \mathrm \mu_{x_d} \end{bmatrix}}\)
- \(\mathrm x\) 的共變異數矩陣(Covariance matrix)
- \(\Sigma_x = \begin{bmatrix} \sigma^2_{\mathrm x_1} & \sigma_{\mathrm {x_1,x_2}} & \ldots & \sigma_{\mathrm {x_1,x_d}}\\ \sigma_{\mathrm {x_2,x_1}} & \sigma^2_{\mathrm x_2} & \ldots & \sigma_{\mathrm {x_2,x_d}} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{\mathrm {x_d,x_1}} & \sigma_{\mathrm {x_d,x_2}} & \ldots &\sigma^2_{\mathrm x_d} \end{bmatrix}\)
- \(\sigma_{\mathrm {x_i,x_j}} = \mathrm{Cov(x_i,x_j) = E(x_i-\mu_{x_i})(x_j-\mu_{x_j})} \\ = \mathrm{E(x_ix_j)-\mu_{x_i}\mu_{x_j}}\)
- \(\Sigma_x = \mathrm{Cov(x) = E[(x-\mu_x)(x-\mu_x)^T] = E(xx^T)-\mu_x\mu_x^T}\)
- 重要性質
- 必為對稱矩陣
- 必為半正定
- 特徵向量必為實數且 ≧ 0
- 此矩陣為非奇異若且唯若此舉陣為正定
- 此矩陣為奇異代表隨機向量 \(\mathrm x\) 可能
- 包含確定性(Deterministic)的隨機變數,此值與其他隨機變數的共變異數為 0(相互獨立)
- 包含一對以上隨機變數相互獨立
- 包含一對以上隨機變數為非線性相依
- 包含重複的隨機變數導致矩陣內兩列(Row)相依
證明共變異數矩陣必為半正定
- 令 \(C\) 為一個共變異數矩陣
- 存在一個隨機向量 \(\mathrm x\) 使得 \(C = E[(x-\mu_x)(x-\mu_x)^T]\)
- \(\forall u, u^TCu = u^TE[(x-\mu_x)(x-\mu_x)^T]u \\ = E[u^T(x-\mu_x)(x-\mu_x)^Tu] \\ = E[<(x-\mu_x), u>^2] = <(x-\mu_x), u>^2\)
- 因為 \(<(x-\mu_x), u>^2\) 必為實數,則對其求期望值不會改變其值
- 因為 \(<(x-\mu_x), u> \in \mathbf R\)
- \(u^TCu = <(x-\mu_x), u>^2 \geq 0\)
- 共變異數矩陣為半正定
Derived random variables(衍隨機變數)
- 由其他隨機向量(\(\mathrm x\))衍生定義出的隨機變數(\(\mathrm y\))
- 給定一個參數向量 \(w\),\(\mathrm x\) 可衍生隨機變數 \(\mathrm y\)
- \(\mathrm y = f(\mathrm x;w) = w^Tx\)
- 由 \(\mathrm x\) 向量以描述向量 \(\mathrm y\) 的性質
- 期望值向量:\(\mu_{\mathrm y} = \mathrm E(w^T\mathrm x) = w^T\mathrm{E(x)} = w^T\mu_x\)
- \(\sigma^2_{\mathrm y} = w^T\Sigma_{\mathrm x}w\)
- \(\sigma^2_{\mathrm y} = \mathrm E[(\mathrm y-\mu_{\mathrm y})^2] \\ = \mathrm E[(w^T\mathrm x-w^T\mu_{\mathrm x})^2] \\ = \mathrm E[(w^T(\mathrm x-\mu_{\mathrm x}))^2] \\ = \mathrm E[(w^T(\mathrm x-\mu_{\mathrm x}))((\mathrm x-\mu_{\mathrm x})^Tw)] \\ = w^T \mathrm E[((\mathrm x-\mu_{\mathrm x}))((\mathrm x-\mu_{\mathrm x})^T)] w = w^T\Sigma_{\mathrm x}w\)
Bayes' rule and statistics
\(\Pr(\mathrm x = x)\) 的意義?
- Bayesian probability(貝氏機率)
- It's a degree of belief or qualitative levels of certainty
- 「相信 \(\mathrm x = x\) 事件發生的程度(確定性)」
- Frequentist probability(頻率)
- If we can draw samples of \(\mathrm x\), them the proportion of frequency of samples having the value \(\mathrm x\) is equal to \(\Pr(\mathrm x = x)\)
- 如果可以對隨機變數 \(\mathrm x\) 進行抽樣,\(\Pr(\mathrm x = x)\) 則為 \(x\) 在抽樣中的出現比率
上述兩個意義應為一致
Bayes' rule(貝氏定理)
\[ \mathrm {P(y\vert x)} = \frac{\mathrm{P(x\vert y)P(y)}}{\mathrm{P(x)}} = \frac{\mathrm{P(x\vert y)P(y)}}{\mathrm{\sum_yP(x\vert y} = y)\mathrm{P(y}=y)} \]
- 貝氏定理在機器學習上是非常重要的概念,所以上述的每一項皆有各自的名稱
- \(\mathrm{posterior = \frac{likeihood \times prior}{evidence}} \\ \mathrm{後驗機率 = \frac{相似性\times 前驗機率}{事證}}\)
- 為何重要?
- 一個醫生在診斷病人的疾病時,內心中其實令看到的「病徵」(Symptom)為 \(\mathrm x\)、令「病種」(Disease)為 \(\mathrm y\),而醫生的目標就是要經由「病徵」確診病人的「病種」(使 \(\mathrm{P(y\vert x)}\) 最大化)
- 醫生藉由過往統計的 \(\mathrm{P(x \vert y), P(y)}\) (在某個「病種」下其「病徵」發作的機率、該「病種」發生的機率)更輕鬆的判斷
Point estimation(點估計)
- 「點估計」:試著藉由樣本(單一的性質;單點)以估計母體未知的參數(\(\theta\);性質,有可能是平均值、標準差…等性質)
- 如:為了瞭解台北市民的平均月收入(假設有 260 萬人),挑選其中 1000 人計算月收入的算術平均數,假設為 60000,若使用點估計則會推論台北市民的月平均收入為 60000
- 假設一個獨立同分佈(Independent and identically distributed;i.i.d.)隨機變數 \(\mathrm x\) 有 \(n\) 個的樣本記作 \(\left\{ x^{(1)},\ldots,x^{(n)} \right\}\)
- 這些資料的點估計(Pointer estimator;Statistic)函數為
- \(\hat\theta_n = g(x^{(1)},\ldots,x^{(n)})\)
- \(\hat \theta_n\) 稱作 \(\theta\) 性質的估計
- 在機器學習中目標就是希望能找出一個好的函數 \(g\) 使得 \(\hat \theta_n\) 性質與 \(\theta\) 性質越相近越好
- 這些資料的點估計(Pointer estimator;Statistic)函數為
Sample mean and covariance
- 給定 \(X = \begin{bmatrix} x^{(1)} \\ \vdots \\ x^{(n)} \end{bmatrix} \in \mathbf R^{n\times d}\) 為一個 i.i.d. 樣本(Design matrix),則 \(\mathrm x\) 的「猜想平均數向量」與「猜想共變異矩陣」為何?
- 樣本平均數向量
- \(\hat\mu_x = \frac 1n\sum_{i = 1}^nx^{(i)}\)
- 樣本共變異矩陣
- \(\hat\Sigma_{\mathrm x} = \frac 1n\sum_{i = 1}^n(x^{(i)}-\hat\mu_{\mathrm x})(x^{(i)}-\hat\mu_{\mathrm x})^T\)
- 第 \((i)\) 個樣本
- \((x^{(i)}-\hat\mu_{\mathrm x})(x^{(i)}-\hat\mu_{\mathrm x})^T\) 為第 \((i)\) 個樣本的共變異矩陣
- \(\mathrm x_i, \mathrm x_j\) 兩個隨機變數的「共變異數」
- \(\hat\sigma_{\mathrm x_i,\mathrm x_j}^2 = \frac1n\sum_{s = 1}^n(x^{(s)}_i-\hat\mu_{\mathrm x_i})(x^{(s)}_j-\hat\mu_{\mathrm x_j})\)
- 第 \((s)\) 個樣本
- \((x^{(s)}_i-\hat\mu_{\mathrm x_i})(x^{(s)}_j-\hat\mu_{\mathrm x_j})\) 為第 \((s)\) 個樣本對於 \(\mathrm x_i, \mathrm x_j\) 兩個隨機變數的「共變異數」
- \(\hat\sigma_{\mathrm x_i,\mathrm x_j}^2 = \frac1n\sum_{s = 1}^n(x^{(s)}_i-\hat\mu_{\mathrm x_i})(x^{(s)}_j-\hat\mu_{\mathrm x_j})\)
- \(\hat\Sigma_{\mathrm x} = \frac 1n\sum_{i = 1}^n(x^{(i)}-\hat\mu_{\mathrm x})(x^{(i)}-\hat\mu_{\mathrm x})^T\)
- 若將每個樣本 \(x^{(i)}\) 歸位化(先將每個樣本減去 \(\hat\mu_{\mathrm x}\),成為零均值 zero-mean)
- 則 \(\hat\Sigma_{\mathrm x} = \frac {\sum_{i = 1}^nx^{(i)^T}x^{i}}{n} = \frac1n X^TX\)
- 樣本平均數向量
- 假設只有一個歸位化的隨機變數 \(\mathrm Y\)
- 其變異數 \(\sigma^2 = \mathrm {E(Y^2)}\)
- 在有 \(n\) 個樣本資料 \(\mathrm {Y_1,Y_2,\ldots, Y_n}\) 的情況下,其「猜想變異數」會等價於「猜想平均數」
- \(\hat\sigma^2_{\mathrm Y} = \hat\mu_{\mathrm Y} = \frac{\sum_{k = 1}^n Y_k^2}{n}\)
- 假設一個隨機向量 \(\mathrm X = \begin{bmatrix}\mathrm{X_1,\ldots,X_d} \end{bmatrix}\),每個元素皆為歸位化的隨機變數
- 其共變異數矩陣 \(\Sigma_{\mathrm X }\mathrm {= E(X^TX)}\)