W01 Using Indicator Variable (I) 非線性關係

2025-02-19三 14:10-17:00 林師模教授



| GoogleDoc-Note | Presentation | Paper/Report |
Review of basic statistics concept | A_Review_of_BasicStatistical_Concepts | 統計テスト | Prof.'s: Basic Probability Concepts |
預習: 參考 自習Econometrix and 變量分析 Multivariate Analysis | 五分鐘R語言系列第一集: 安裝下載及簡 | 閱讀筆記 Hackmd |
網頁: 統計學-自習 | Regression Analysis 回歸分析 | Research Methods預習 |
課本: 全文 Principles of Econometrics, 5th Edition | 參考資料查表(Statistical Tables和Formula Sheets) 等等 | EViews_prgprogram files |
By chapter:

Chp00| Chp01| Chp02| Chp03| Chp04| Chp05| Chp06| Chp07| Chp08|
Chp09| Chp10| Chp11| Chp12| Chp13| Chp14| Chp15| Chp16| Appendix|
GDoc_chp04 | GDoc_chp05 |

助教Dr.張桂鳳 Sophia: 作假設檢定時,都有固定流程: H0/H1/估計/算t值、P值/判斷有無落入拒絕域/給出結論. 作題回答的方法建議參考課本例題, 回覆的比較精準.
查表: F-critical_value |
軟體: EViews | EViews Alternatives for Linux | 🎯 李宗璋老師Youtube的EViews教學 |
(I)練習: GoogleSheet-Exc#1 | Exc#2 |
(I)作業: Asig#1 | W08Asig#2 | W11Asig#3 | W14Asig#4 | W16 12/25 Asig#5-Final Report |
同學: 共有10人 主要是印尼,還有巴基斯坦和甘比亞同學

老師的講義 Ch-07 | 教科書內容 Chapter-07 |
Chp.7 非線性關係 Using Indicator Variables 和 Chp.8 異質變異 Heteroskedasticity 上學期沒講完,這期接著講,然後才講 Chp.9 動態模型、自我相關及預測 Regression with Time-Series Data: Stationary Variables

本學期的Final Report,跟上學期(老師決定)不一樣,這學期要自找資料、找題目,但用上所學到的技巧。所需的Data 可以從public pubishing找來,可能可以做macro economics比如wage, cumsumtion etc. 或financial model(time series model)(如: 台灣能源消耗 與GDP關係人口)
Final Report-老師會給sample format:
1.introduction
2.literature reivew related to your topic:
3.說明model 及estimation mothod will be used方法, explain what is data
4.最後emperical result跟conclusion
5.Reference. or Appendix (put data but not required)
- you can use any software you like, it generate the same result any way.
but you have to learn how to write your report professionaly. read good joural always.

今天講Chp7. Using Indicator Variables (I)

Indicator Variables, also know as y, binary, or dichotomous variables, are used in statistical and econometric analysis, especially in regression analysis, to represent qualitative data using numerical values.
They are artificial variables that take on values of 0 or 1 to indicate the presence of absence of a "quality" or attribute.
這次解釋dummy variable的原理,影響。
下週講treatment對dummy variable的影響。

W02 Using Indicator Variable (II)

2025-02-26三 14:10-17:00 林師模教授


Reference:subject should study

7.1 Indicator Variables
今天講
 7.2 Applying Indicator Variables
 7.3 Log-Linear Models
 7.5 Treatment Effects
將略過
 7.4 The Linear Probability Model
 7.6 Treatment Effects and Causal Modeling

回顧上週說的
Yi=B1 + B2Xi + ei
Pi=B1 + B2 Sqfti + ei
concern location which is a qualitative veriable
near university=1 not near=0
Pi=B1 + B2 Sqfti + B3 Li + ei
if L= 1 near or =0 not near; si we cab change model as:
Pi=B1 + B2 Sqfti + B3 Di + ei (D means dummy)
so
E(P|D=1) = B1 + B2 Sqfti + B3 = (B1+B3) + B2 Sqfti
E(P|D=0) = B1 + B2 Sqfti
This 2 model only different in intercept (B1, B1+B3), but same slope B2
這稱為Basic Model 現在要開始展開:

1.因為slope相同 每增1 unit of sqft P 等比率增加。但如果在加個變數 sqftDi
Pi=B1 + B2 Sqfti + B3 Di + B4 (Sqft
Di) + ei
so
E(P|D=1) = B1 + B2 Sqfti + B3 = (B1+B3) + (B2+B4) Sqfti + ei
E(P|D=0) = B1 + B2 Sqfti
這樣不但intercept不同 slope斜率也會不同 (是否正還負 要看資料內容)

2.本週還要再加以擴大:請看Basic Model (D: near university=1 not near=0)
Yi=B1 + B2Xi + ei 如果D反過來做 (D: near university=0 not near=1)
因為離大學近遠會影響 intecept 首先b3 就會變成負數;
其次intercept是基於距離大學近考慮起
Yi=(b1+b3_ + b2Xi -b3Di + ehat
E(Yi|Di=0)= (b1+b3) + b2
Xi
E(Yi|Di=1)= (b1+b3) + b2*Xi -b3 b1 + b2Xi 想想看

3.我們來看例題p. EXAMPLE 7.1 The Universit Effect on House Price

先用utown跑eviews
在反過來設D 0 1 設變數 utown-1 這樣 0,1就反過來
再重跑equation
兩個estiamtion比較 就會看到 b1和B1 還有b2和B2相比的數字

以上說的是兩個dummy variable 還有0,1設定反過來的例子。

4.再想想這樣可以嗎 如果 LDi=1-Di
假設independent variable需要 ‘線性關係’ 這樣做會有collinearity問題,是不行的!
Yi=B1 + B2 Sqfti + B3 Di + B4 LDi + ei (這是perfect collinearity所以不成立)
通常1個catogary只能有一個dummy,但如果有好幾個catogary的話,可以設多個dummy

老師有討論: 如果3個category(near,not near, far)你設為0,1,2 會怎樣: restrcited result 只有 幾個B3的差別 不合理
如果用3個dummy 會有d1+d2+d3=1 的問題
請看 如果只用 兩個 就會可以有足夠的區別
所以知道 n個catergory就用n-1個dummy

如果有兩個qualitative 各有兩個catergory則2個dummy 就ok了
excel不管你有沒有colinearity 但eviews會提醒你

🤣今天開VirtualBox想用W11跟我要換密碼,開不成所以沒法用eviews; 可能要重開win去找出金鑰。
解決了:就是原來20250227-Vboxuser:變更密碼從22332587改為90922934lfh;(win10要用-eviews)
5.再來看例題 可以run更多不同equation 看各個table 老師說你要自己試
6.看(7.8)
WAGE=B1 +B2EDUC +d1BALACK +d2FENALE +g(BLACK*FEMALE) + e
看EXAMPLE 7.2 The Effects of Race and Sex on Wagep.323 跑eviews
因為是用non black=0 所以BLACK的coefficent 是負數,還有FEMALE也是負數
這是因為 WHITE MALE的dummy 都是設為0 做基數。
在這個例子: 所有差別都在intercept 而slope是一樣的,這叫: _______

7.再看看7.2.2 Qualitative Factors with Several Categories 上個小時已講過了。多個categories 只用 n-1個dummy veriables
再來看有趣的7.2.3 Testing the Equivalence of Two Regressions
(看老師畫的圖照相)
Pi=B1+ B2Si + ei 比如資料室這樣 中間有一段(比如小、大屋型)讓你覺得
如果跑兩個regression好像更接近事實, 但怎樣知道跑一個好 還是兩個好?

適或不適合 可以看 e hat square 的總和 SSE; 只要加上一個dummy veriable以區別兩組樣本 (d=0 or d=1)
這樣可以有兩個regression 再讓兩個regression的(sum sqare resid) SSE1+SEE2加總起來
這樣可以觀察 SSE-(SSE1+SSE2)的結果。 然而,怎樣設bundry以區分兩組data呢?

就要先設Hypothesis
H0: two regression is equvelant SSE=SSE1+SSE2
H1: not equal

所以設邊界 SSE-(SSE1+SSE2)/df1 / (SSE1+SSE2)/df2 =>F distribution (F test)
SSE ~ χ^2^
以上是一種F test方法,而另一種方法就是用Dummy variable
Yi = B1 + B2Xi + B3Di + B4(Xi*Di) +ei
這個model 是不同intecept 和不同slope,這樣就是有兩條不同的regression line
這樣test可以設 H0: B3-B4 = 0
而如果B3 B4的 是significant 就可說 reject H0,則兩個regression line是不相等,是不同的
H1: B3 !=0 or B4!=0 or B3-B4!=0

老師用wage-same跑eviews-然後view-做wald-test,老師用WAGE的eviews檔案跑equation然後view 做wald test

老師再帶大家做F test (首先把用dummy variable做equation時的SSE 1919,862 先記好
然後開始做三個regression看看
- price c sqft; Sample: 1000; sum sqare resid= 1149512 (SSE)
- price c sqft; Sample: utown=1 (519); sum sqare resid= 123216.9 (SSE1)
- price c sqft; Sample: utown=0 (498); sum sqare resid= 113544.8 (SSE2)
SSE-(SSE1+SSE2)/df1 / (SSE1+SSE2)/df2 =>F
1149512-(123216.9+113544.8)/df1 / (123216.9+113544.8)/df2 =
df1 = (10000-2)-((519-2) + (481-2))=2
df2 = (519-2) + (481-2) = 996
算出和dummy一樣的結果
SSE-(SSE1+SSE2)/df1 / (SSE1+SSE2)/df2 =>F =1919,862

介紹: Chow Test: 是一種 Structure Break (看照片), 是有折線的意思。
其實Chow Tes 就是=SSE-(SSE1+SSE2)/df1 / (SSE1+SSE2)/df2 =>F
一樣的ideal也可用dummy vareable 結果是一樣但方法簡單多了,

看p.326: We might ask “Are there differences between the wage regressions for the south and for the rest of the country?” ……(7.10)
看.EXAMPLE 7.4 Testing the Equivalence of Two Regressions: The Chow Test
最後就是算出F value 0.6980 太小(老師找不到creitical value說應該是around 3) not reject the null hypothesis, coefficent basicly =0 this is called Chow Test.

這裡是把一個國家 分出了一個 南方,和非南方。 當這個時候,想知道會不會是個Structure breake. 因為reject the null hypothesis, coefficent basicly =0 所以我們知道DATA 沒有 Structure break (區分south 和不區分 沒有差別)

8.最後要講個p.332的 7.5 Treatment Effects
比如說:生病就須治療Treatment,從政府角度來說,就是推出一種policy。有時,想要先比較看看,政策改或不改變會有何差別,比如:基本工資調整,對就業率會有何影響?

key point是 where do you get the sample?
舉例來說:如果你去醫院問人:你覺得健康比以前好嗎?這對來上月就來治療者或著剛來的病人顯然大有差別。剛來醫院就診的,就是覺得病得很,很不健康的嘛。因此,這樣的調查(抽樣)是一種selection bias因為 你選錯sample了,chosing wron sample,而最好的方法就是randomly select smple.

又舉例:調查學生覺得自己ecomometrics學得好不好?若此課程是required course就ok,但若是selectd course就會有selection bias. 顯然願意去選修此課的人,應是想要學好的人嘛。
本節講述如何用dummy verialbe來測出Treatment Effect,下週會從Treatment Effect繼續講!!

W03 Heteroskedasticity

2025-03-05三 14:10-17:00 林師模教授



老師的講義 Ch-07 | 教科書內容 Chapter-07 |
(p.332) [7.5] Treatment Effects
老師的講義 Ch-07 | 教科書內容 Chapter-08 |

關於Treatment effect 異質性Heterogeneity動畫說明
ATE: Average Treatment Effects 平均處理效應Average treatment effect
- 對處理的隨機分配可確保在大量的實驗迭代中,分配給處理組的單位與分配給對照組的單位保持一致。

繼續看EXAMPLE 7.13 Estimating the Effect of a Minimum Wage Change: Using Panel Data
解釋 ΔFTEi = β3 + δNJi + Δei (7.24) 的來由。
這到了panel data 的時候會解釋得更清楚,目前只研究兩個time periods。

到這裡chapter 7算講完了,沒講到的跳過去的,請你自己去研究。
注意: 本期的final report 可以參考這個Dummy veriable來應用


hetero means different, if same we may say homo; so homoskedasticity means same variance.
來介紹什麼是Hetroskedasticity:
Yi = B1 + B2Xi + ei 這是個simple linear regression
此時基本假設是
E(ei|Xi)=0 Var/(ei|Xi)=sigma square = contant = δ2
看 food.wf1
希望 flagerate around zero 但如果 不是的話, 就是有 Hetroskedasticity問題,也就是 ≠ δ2
Nature:varance is changing;
Consequences: 如果
太重要了!要記住 Var(b2) = δ2 / S(Xi-Xbar)2 這樣可以先算出Var(b2)應是個常數
但事實上 各個Xi可能會有異常的 e分佈 會有很多不同的δ2 ,這樣的話還用OLS去算出的B2不正確
因為incorrect standard error所以 testing result 也會incorrect.
這是Hetroskedasticity問題! 也就是Consequences! 就是「testing will be not correct」

回頭來看food.wf1 你可以看到Std. t-statastic 雖然都有數字, 但其實都是不正確的,
1.那麼怎樣判斷這有沒有Hetroskedasticity問題呢??
這種狀況是很普遍的,通常來自某些variable(有時只來自一兩個,但不一定,有時來自多個)
2.那麼怎樣判斷是那個變數促成這個Hetroskedasticity問題呢??
3.那麼怎樣解決這個Hetroskedasticity問題呢??

Iris說: 在印尼,SimpleLR通常不check只有multiple LR才檢查Hetroskedasticity問題!好像不對?
老師說: 這是不對的。都須要檢查

老師先教: 3.怎樣解決,才回頭教1,2. how to detect.

如果我們已經知道有Hetroskedasticity問題了。
1.有沒有其他正確的formula? 有些學者發展出一些formula:
請看Figure 8.1 這個問題。
這有個formula很複雜的:
var(b2|x)= σ2/∑Ni=1 (xi − x)2 (8.6)

p.374 (White heteroskedasticity-consistent estimator (HCE)想出來的)
var⋀(b2)=[∑(xi − x)2]−1 {∑[(xi − x)2 ( NN − 2)ê2i]} [∑(xi − x)2]−1 (8.9)
用了這個var⋀(b2)就會more correct而testing value也就會更正確。
這就是White教授想出 consistent estimator的方法。可以得到正確的SD,也稱作Robust Variance。
這是用原來的OLS但是另外去算出一個HCE 然而,既然有heteroskedasticity問題,光是估出HCE只解決e的問題,其實B2還是不正確。
(這時就要了解Gauss-Markov Theorem) 怎麼辦呢? OLS若要BLUE,best linear/unbias 兩個可能有問題,需要確認或解決。 Should I do, and why I do that?

如果沒有把握,可能要繼續用OLS但-如果我要換個方法來aprroach那我就要make assumption!

目前我現用food 案例來試著解決問題:
先算Robust Variance -estimate regression 時特的去選White 你會發現Std和t-value都變了
這是第一種option (看照片)
看 EXAMPLE 8.2 Robust Standard Errors in the Food Expenditure Model
White Robust se: (p.374)

下週講 8.4 Generalized Least Squares: Known Form of Variance

W04 Regression with time-series data: Stationary variables (I)

2025-03-12三 14:10-17:00 林師模教授


請假,去北海道!

W05 Regression with time-series data: Stationary variables (II)

2025-03-19三 14:10-17:00 林師模教授


運動會停課!

W06 Chp10- Random regressors & moment-based estimation (I)

2025-03-26三 14:10-17:00 林師模教授


老師的講義 Ch-09 | 教科書內容 Chapter-09 |

今天開始講第9章 Chapter 9 Regression with Time-Series Data: Stationary Variables時間序列資料迴歸:平穩變量(定態變數)
- will skip 9.3 Forecasting and 9.5 Time-Series Regressions for Policy Analysis 集中介紹 forcus on 0.1,2,4

- 1.有一種model是lagged effect滯後效應 is called distributed lag model
- 2.另一種是autoregressive model 這是 an autoregressive process, is one where a varuable y depends on p ast balues of itself
-9.1 如果兩種 model並在一起就做autoregressive distributed lag model
公式為(9.3) 簡稱 ARDL(p,q)

-9.1.1 看書本421頁Infinite Distributed Lag Models (9.4)等解釋 這裡有個推導過程 一直到 (9.9) 本來有一堆infinite distribution number 被簡化到只剩兩個variable: yt-1 和 xt
這是來自(9.5)假設推導出來的
這是geometric dcline (figure9.3)的假設來的
- 這個model 也稱ARDL(1,0)
- infinite distributed lag(IDL) model

p.4249.1.2 Autocorrelations
p1某一期間的 .. 見(9.17)

Testing the Significance of an Autocorrelation

用usmicro來做做看 figure 9.4
到19是significant (這裡沒秀出critical value) 但是你放大左邊圖 看有條虛線 是代表critical value 還有書上p.426有寫
The horizontal line drawn
at 2/√
173 = 0.121 is the significance bound for positive
autocorrelations.

根據staionary 的3個定義
variable has constant mean
variable has constant variance
covariance will depend on how many lag period apart for the data point
可以來做判斷,是否為stationary

p.4279.2 Stationarity and Weak Dependence

判斷是否為stationaity 最終要根據chp12章教的unit rot tests方法 來判斷
weakly dependence 除了假設變數是平穩的之外,在本章中我們也假設它們依賴性較弱。In addition to assuming that the variables are stationary, in this chapter we also assume they are weakly dependent.

Eviews檔案usmacro的 inf是inflation rate, u 是unemployee rate, g是gdp growth rate, c是constant,

台灣去年是4.3今年估計是3.1 GDP growth rate; 印尼的GDP rate是5%,
台灣的unemployee rate 約是3.多

9.4 Testing for Serially Correlated Errors
理論上e是沒有 但實際上存在的 當我們estimate後應當test一下 有沒有Correlated Errors

9.4.1 先檢查correlogram of the least squares residuals
這兒有個公式可檢查(9.45)
看EXAMPLE 9.10 看圖只有3個超出 cretical value 所以他說It is reasonable to conclude that there is no strong evidence of serial correlation.

estimate equation:
先做 u c u(-1) u(-2) g(-1) 再去看residule
接著做 u c u(-1) g(-1) 再去看residule


9.4.2 Lagrange Multiplier Test - formal test
可以run (9.47) 可以得到一個rough result
但通常不用這樣做,而是去做formal test 就是去 (9.49)這公式的depnet是residule
跑這個equation叫做Lagrange Multiplier Test 注意看他的Ho是p=0

這是測autoregression error

注意 有幾個period就有幾個df
EXAMPLE 9.12
ARDL(1,1) model

你看那個ARDL(2,1)的p-value order 1,4可能not significant但2,3是significant

9.4.3 Durbin-Watson Test現在已很少用了 因為只能用在order 1 serials regression model

老師要跳過去section 5,但還有點時間,所以要講:
9.5.2 HAC Standard Erros
這個跟heterocedasticity很像,檢查residule
公式很複雜不用管,注意EXAMPLE 9.14 A Phillips Curve

經濟學上應該要學過Phillips Curve 菲利浦曲線 公式(9.64) 解釋了菲利浦曲線(英語:Phillips Curve),紐西蘭統計學家威廉·菲利浦於1958年根據英國近百年(1861-1957)的總體經濟數據,畫出來的 菲利浦曲線
用philips5_aus.wf1
robust standard error
用inf c du DU Coefficient -0.398670

HAC

0.287846 這就是robust standard error
看TABKE 9.9
如果你有serious correlation 在你的model (像heterocedasticity 的GLS )

下週結束chp9, 開始10.

今天回家複習如下:
🎯Australia孫老師BX2122講得和林師模老師一樣的內容。可作複習用。今天複習
BX2122/EC5216 Topic 9-1 Regression with Time Series Data: Stationary Variable再看
BX2122/EC5216 Topic 9-2 Regression with Time Series Data: Stationary Variable

中文部份看了:
中原國貿系yang powebe楊奕農TSA ch1.1a 假性迴歸有繁體字幕8m
? 一階自我相關(AR模型)
? 需求法則 價格與需求成反向變動 P=SP*
TSA ch1.1b 從AR(1)模型談起20m 數據的前世今生Auto Rregressive模型,自我相關(你過去怎樣,未來會不會怎樣),AR(1)1代表落後1期的意思。 Yt=f(Yt-1) Yt=Φ1 Yt-1 (AR線性關係/目前已發展到可計算非線性關係了)
- 遞迴推算solutionn by interation之規則
- 遞迴推算規則之一般式 Yt=(Φ1) Yt-1 只要知道第一期,就可推導出各期。=> 16:00推導yt=(a1)^t y0;
TSA ch1.1c 包含截距項的AR(1)模型(12m/有字幕-v24a)
- 等比級數,等加級數公式。

TSA ch1.3~1.4 蛛網理論+收歛值和經濟長期均衡8m蛛網理論 reduce form: Pt=a0 + a1 Pt-1
- 定態意指「長期均衡」。有意義的均衡=不是泡沫化。 |a1|<=1 staionarity定態
TSA ch.1.5a 加入誤差觀念的 AR(1) 模型 16m v23b
- 「些許」誤差長期平均而言應該會,「相互抵銷mutual offset」 即E(ut)=0 for all t.

W07 Chp10- Random regressors & moment-based estimation (II)

2025-04-02三 14:10-17:00 林師模教授


老師的講義 Ch-09 | 教科書內容 Chapter-09 |
老師的講義 Ch-10 | 教科書內容 Chapter-10 |

本週要結束chp9, 開始10.

ARMA 是 Autoregressive Moving Average的縮寫,中文為「自我迴歸滑動平均模型」。這是一種時間序列分析模型,用於描述平穩隨機過程。ARMA模型結合了兩個部分:
Autoregressive (AR):自我迴歸部分,表示當前值是過去值的線性組合。
Moving Average(MA):滑動平均部分,表示誤差項是當前及過去誤差項的線性組合。
ARMA 模型通常以 ARMA(p, q) 表示,其中
p 是自我迴歸項的數量
q 是滑動平均項的數量

中原楊奕農p. TSA ch2.1 先談白噪音 (white noise)AR[1,3,5] MA[2,4]寫出公式(13m)
TSA ch2.3 MA的經濟意義(15m)

W08 Chp11- Simultaneous equations models

2025-04-09三 14:10-17:00 林師模教授


Reference:subject should study
  1. supply curve and demand curve; 跟6,7週的觀念很相近

W09 (期中考)

2025-04-16三 14:10-17:00 林師模教授


Reference:subject should study

W10 Regression with time series data: Nonstationary variables (I)

2025-04-23三 14:10-17:00 林師模教授


Reference:subject should study

W11 Regression with time series data: Nonstationary variables (II)

2025-04-30三 14:10-17:00 林師模教授


Reference:subject should study

W12 Chp13- Vector error correction and vector autoregressive models (I)

2025-05-07三 14:10-17:00 林師模教授


Reference:subject should study

W13 Chp13- Vector error correction and vector autoregressive models (II)

2025-05-14三 14:10-17:00 林師模教授


W14 Chp14- Time-varying volatility and ARCH models (I)

2025-05-21三 14:10-17:00 林師模教授


Reference:subject should study

W15 Chp14- Time-varying volatility and ARCH models (II)

2025-05-28三 14:10-17:00 林師模教授


Reference:subject should study

W16 Chp15- Panel data models (I)

2025-06-04三 14:10-17:00 林師模教授


Reference:subject should study

W17 Chp15- Panel data models (II)

2025-06-11三 14:10-17:00 林師模教授


Reference:subject should study

W18 (Final Report)

須自習 Chp16- Qualitative and limited dependent variable models

2025-06-18三 14:10-17:00 林師模教授


Reference:subject should study

Backup Data 其他參考資料


Book | Data Miming | Data Science for Business |
URL | Kaggle | 彭明輝教授
1.演講Youtube: 期刊論文閱讀技巧
2.演講Youtube: 研究生的核心能力 ─ 從文獻回顧到批判與創新 │Future Faculty Talk

▼1 WHAT IS INFORMATION MANAGEMENT?

WHAT IS INFORMATION MANAGEMENT?
1.ANIMATION FOR PLATONWHAT IS INFORMATION MANAGEMENT? wearesynkro 2014。
2. Information Management BasicsCommunity IT Innovators 2018。
3.(IM) Information Management JuanIT 2021。有一系列lecture
4.The 5 Components of an Information System COTC A.R.C. 2015。


▼2 折疊2

折疊2
  1. Lorem ipsum dolor sit amet.
  2. Lorem ipsum dolor sit amet.



ab