Featured Post

#33解讀統計分布的方式_中

/*-------------分隔線-------------*/
        嗨嗨我們又見面了~,在上集我們跟大家介紹了以maximum entropy和限制條件的觀點來解讀一個統計分布,今天我們要來介紹變數轉換的部分。在這之前,我們要先對maximum entropy的觀念在做多一點的解釋,要不然牽涉到變數轉換的時候大家會有點搞不清楚。

         基本上我們測量的東西,通常是很多很多小尺度現象累積起來的最終結果。舉例來說,我們拋1000次銅板,會出現幾個人頭呢?。在這些微小尺度的現象會有一些小小的不確定性在裡面(我們並不知道每次拋銅板最後會拋出甚麼東西),而這些不確定性都會導致資訊量的耗散,也就會讓資訊熵增加。因此如果y本身就是資訊量耗散的場域(最後出現幾個人頭,直接就是由每次拋擲的結果相加起來決定的),那我們要預測y的統計分布,就可以直接對Py的information entropy進行分析。

        可是有時候事情並不是這樣子運作的,比方說我們的收入。我們的收入也是很多事情一點一滴慢慢累積起來決定的,比方說求學階段有沒有累積自己的能力、有沒有把握一個好的機會、有沒有獲得升遷、有沒有看準一個好的投資等等。這些小小事件裡面都有一些隨機性,但是這些小小事件對我們收入的影響不是累加起來的,而是相乘的結果。也就是說,實際資訊耗散的場域(domain)是x (x是過去有機會讓收入增加或減少的所有小小事件),但我們最後觀測到的東西是y (y是收入),x對y的影響是相乘而不是相加。最簡單讓相乘變相加的方式就是log,所以資訊耗散的場域是x = log(y)。

        所以現在我們就來看看如果我們需要先經過變數轉換再進行maximum entropy的分析,該如何處置。假設x & y之間的轉換關係為x = g(y),如果我們定義m_y = |g'(y)|的話,簡單的微積分告訴我們:
現在我們假設,x ~ x+dx,對應到y值域剛好就是y ~ y+dy的話,這兩個小區域的統計分布的面積(也就是這個小區域包含的機率)應該要是一樣的。所以我們可以寫出下面的式子:
也就是說
還記得我們在上次講過,如果我們在x domain上做maximum entropy分析,給予限制條件是Tf的期望值必須等於某個數的話,最後長出來的統計分布會長得像這個樣子:
那所以從剛剛的討論我們就可以知道,如果今天x & y之間的變數轉換關係是x = g(y),那麼y的統計分布就應該長成:

        讓我們來舉個例子,假設x = log(y),實際上耗散資訊量的場域是x,我們對x的限制條件是x的變異數等於某定值。那麼從上次的討論和剛剛的討論,我們可以很容易寫出:
  
也就是說我們最後觀測到y的分布會是log-normal distribution,這也是我們的收入遵從的統計分布。到目前為止我們只討論了一種變數變換的方法,就是函數變換。還有另一種重要的變數變換方式是積分變換(integral transform),如傅立葉轉換、拉普拉斯轉換等。但我們就不討論了,請有興趣讀者自己讀參考文章。

        沒有預期會解釋這麼多啊(傻眼),三分鐘也快到了(早就爆時了啦傻孩子),看來限制條件與資訊量的關係只好放到下集了,我們下次見~。
/*-------------分隔線-------------*/
參考文章:
S. A. Frank. How to read probability distribution as statements about process. Entropy 16: 6059-6098. (2014).

Comments