Featured Post

#34解讀統計分布的方式_下

/*-------------分隔線-------------*/
         Okay大家好,我們又見面了。今天我們終於進到最後的部分,要和大家講解資訊量和限制條件的關係。

        首先大家一定還記得,對單一的機率事件來說,他所隱含的資訊量是:
假設y本身就是資訊耗散的場域(domain), 限制條件是Tf的期望值必須是某定值,我們之前也討論過,根據principle of maximum entropy,Py可以寫成像這個樣子:
所以把這兩個式子合併起來的話,我們就可以知道對這個統計分布來說,它的資訊量是: 
也就是說,我們可以把資訊量的變化量和限制條件的變化量連結在一起:
 

        好的我知道各位到目前為止應該是一頭霧水,現在我們就來看看這樣子想事情會有甚麼結果。先從最簡單的exponential distribution開始,他的限制條件是<y>=某定值,所以Tf = y,dSy =
λ,是一個常數,也就是說不管y的值有多大,我們每得到新的一筆資料獲得的資訊量都是固定的量。那如果是Gaussian distribution呢?他的限制條件是<(y-µ)^2>是某定值,所以Tf=(y-µ)^2,dSy ∝ (y-µ),也就是說獲得的資訊量和該筆資料的大小是線性關係。我們獲得一筆新的資料時,如果他離平均越遠,獲得的資訊量越多。

       okay聽起來真是了無新意毫無用處對吧,所以我們現在就要來帶大家解讀一下一些奇怪的統計分布。舉個例子,如果今天你手上有一筆數據是某水文站在歷年的颱風期間洪峰流量數據,這些數據會遵從下面的統計分布:
天啊這啥阿?這個東西叫做extreme value distribution, Gumbel form。請問你要如何解讀這個怪怪的分布代表甚麼意思呢?首先我們保持鎮定,回想一下我們應該如何把這個分布轉換成限制條件的形式,還記得有經過變數轉換或沒有經過變數轉換的形式會不太一樣,我們把他都先抄下來:

 
恩......,比對一下覺得這個統計分布應該長得比較像第二行,也就是說它其實是經過變數轉換後的結果,實際上資訊耗散的domain不是y。簡單比對我們也可以很容易知道實際耗散的domain x應該要長得像這樣:
也就是說,我們的解讀是x是實際耗散資訊的domain,且限制條件是x=exp(-y)的期望值是固定數。但exp(-y)到底是啥呢?只要寫成這樣各位就會變得很好理解:
也就是說,假如獲得一筆比y更極端的資料的累積機率遵從exponential distribution。每次颱風事件中,都有機率會出現極端資料。這個機率本身不是一個固定值,每次颱風都不太一樣,但平均而言,這個機率的期望值是1/λ。如果是這樣子的話,最後我們獲得的颱風期間洪峰流量資料y就會遵從extreme value distribution, Gumbel form。

       好像有比較理解一點了?雖然需要消化一下,但至少比原本那不知所云的統計分布來得make sense多了。我們再看另一個例子,回憶一下在#31集我們討論過的Gamma分布:
我們知道它代表的是第k次事件發生的等待時間的分布,那如果我們用information entropy的觀點來看會是甚麼意思呢?我們把上面的式子和這孩子比對一下:
我們很容易就可以知道,對Gamma distribution來說,他的限制條件是:
所以我們每得到一筆新的資料,我們獲得的資訊量是:
也就是說,如果我們獲得的資料數值很小,資訊量和獲得的數值大小間的關係是,越小的數值資訊量越大。但如果獲得的資料數值很大,那麼每筆資料所含的資訊量是個常數。這代表甚麼?我們回到台北市死亡車禍的例子,平均一個月發生7筆。我們現在感興趣的是,從4/1開始算起,到幾月幾號的時候台北市會新累積發生4筆死亡車禍?如果今天我們最後的觀測結果是1天之內就累積到四筆,這代表說這四筆死亡車禍幾乎要是同時發生的了,所以發生這件事情的機率就大概是同時發生四次稀有事件的機率,因此大約等於p^4。如果單次車禍的資訊量是S,那一天之內累積四筆死亡車禍的資訊量大概就是4S。可是如果今天是等到4/30左右才累積到第四筆死亡車禍,因為前面已經隔了很長的時間,大概早就已經發生三次死亡車禍了,所以我們每天都只是在等最後一筆車禍事故發生而已,因此不管是在哪一天發生,我們獲得的資訊量都只有S,這也就是為什麼當y很大時dS會是常數的原因了。

        所以到目前為止,我們已經知道如何以限制條件和資訊量的觀點來解讀一個統計分布,希望這對未來各位解讀實際上的數據會有所幫助囉~~。
/*-------------分隔線-------------*/
參考文章:
S. A. Frank. How to read probability distribution as statements about process. Entropy 16: 6059-6098. (2014).

Comments