Transcript CH01.ppt

第一章 緒論
1
假數據?




某教授進行老鼠實驗
共有六組老鼠
每一組有20隻
各組老鼠實驗成功的比例為:
53%, 58%, 63%, 46%, 48%, 67%
2
EX: 意見調查
 某一專欄作家詢問其讀者:如果可以重來一
次,你要孩子嗎?結果在一萬份的答覆中,
其中有將近 70% 選擇不要。是不是真的在所
有父母中,有如此高比例不願再有小孩呢?
3
EX: 入學審核有性別歧視?
 某大學頒發的學位只有兩種主修,一種是電
機工程,另一種是英文。申請入學並不容易,
而婦女委員會懷疑,審核過程有對女性歧視
的嫌疑。
4
 委員會從學校得到以下資料:
男性
女性
通過
35
20
不通過
45
40
總和
80
60
 男性通過比例 = 35/80 = 44%
女性通過比例 = 20/60 = 33%
5
 學校的解釋:
電機工程
男性
女性
通過
30
10
不通過
30
總和
60
通過率 = 0.5
英文
男性
女性
通過
5
10
10
不通過
15
30
20
總和
20
40
通過率 = 0.25
6
EX: 收入因性別而不同
 全職工作的女性,所賺的錢(平均來說)差
不多是男性的76%。這個差距是否反映女性
受到歧視?
7
?
性別
?
薪資
?
潛在影響因素:
• 年齡
•教育程度
•工作經驗
•工作風險性
8
EX: 將化石分類
 始祖鳥是一種以滅絕的動物,牠有像鳥類的羽毛,
但是也有像爬蟲類的牙齒及長而多骨的尾巴。已知
的化石標本只有6個。因為這些標本的大小差很多,
有些科學家認為這些標本可能是不同的種類,而不
是同一種類的不同個體。在5個仍同時保有股骨
(一種腿骨)以及肱骨(上臂的骨頭)的標本中,
我們檢查其長度(單位為公分):
9
股骨:38 56 59 64 74
肱骨:41 63 70 72 84
 請問你如何判斷?
10
90
80
70
60
50
40
30
30
40
50
60
70
80
90
11
相撲 vs. 機率
12
相撲 == 力士
 新招募的相撲學員 前相撲
 有資格參加相撲比賽的力士共分為十級
– 序之口(最低)序二段三段目幕下十兩
前頭小結關胁大關橫綱(最高)
 每年在東京、大阪、名古屋、福岡等四地六
個場所比賽,每個場所比賽15場
 如果選手能夠勝八場以上,排名就會上升;
反之會降級。
13
 假設有兩位選手比賽,一位已經七勝七負,
另一位為八勝六負
 你認為誰贏的機率大?
14
 平常時候
七勝七負贏的機率為 48.7%
 在相撲比賽最後一天
七勝七負贏的機率為
79.6%
15
 當七勝七負者與八勝六負者在下一次雙方都
無晉級壓力交手時
– 七勝七負者獲勝機率為…
不到 4 成
學習目標
1. 母體 v.s. 樣本
2. 敘述統計 v.s. 推論統計
3. 歸納法 v.s. 演繹法
17









各陣營縣市長提名人初選: 電話民調
你是否支持應調降證交稅?
你相信網路上餐廳的評比分數嗎?
該如何比較中油與台塑之油品?
每一次的示威抗議遊行該如何統計有多少人參與?
吸煙是否會致癌?
消費者行為調查?產品關聯度分析?
為何保險費用逐年增加?
醫學藥品核可上市前的驗證工作?
18
推論正確性之判斷
問題
確認
研究對象
之確認
資料
蒐集
資料
分析
解釋
資料
整理
抽樣
推論
敘述
推論
統計
統計
樣本
機率論
母體
1: 產生數據
2: 整合
數據
3: 從數據
中得出結
論 19
1.1 統計學的應用
 統計學的功能:
用來蒐集(collection)、組織(organization)、
呈現(presentation)、分析與解釋資料(data)及
數據所隱含的意義,並進一步地利用統計的
技巧來作商情預測與管理決策制定之參考。
20
抽樣:母體 vs. 樣本
 所要研究、觀察的對象全體  母體 (population)
 所實際調查得到的資料全體  樣本 (sample)
 抽樣 (sampling)
– 從母體中獲取樣本的過程
– 蒐集樣本以便對整個母體作某些瞭解
21
 中國成語:瞎子摸象;
西方諺語:不必吃完整條牛才知道肉是老的。
 思考:如何從檢查一部分來得知全體?
 該如何選取樣本(即如何『抽樣』) ?
才會具有代表性。
22
 描述母體的特徵值  參數(parameter)
 描述樣本的特徵值 統計量數(statistic)
23
圖1.2 母體與樣本的關係圖
母
體
•平均數
•比 例
•變異數
樣
抽
樣
本
•樣本平均數
•樣本比例
•樣本變異數
推論
參數
統計量數
24
1.2 敘述統計與推論統計
 統計學的類別
敘述統計(descriptive statistics):
利用統計圖表與統計量數來呈現與彙
整所蒐集的資料。例如全體同學的統
計學期中考平均成績,即是利用敘述
統計來表達全體同學成績的中心分數。
25
敘述統計:樣本之初步整合
台灣老中青網路使用人口比例趨勢
網路使用者族群
90年5月 90年6月 90年7月
年輕族群(25歲以下) 46.4%
44.7%
44.2%
中年族群(26 - 50歲) 52.1%
53.2%
52.1%
老年族群(51歲以上) 1.3%
2.0%
3.8%
資料:2001年5~7月份台灣, NetValue
26
27
例1.4 民國九十年的全國失業率
敘述統計之實例
圖1.1 民國九十年全國失業率的統計圖
6.00
5.00
失
業
率
4.00
3.00
2.00
1.00
0.00
1
2
3
4
5
6
7
8
9
10 11 12
月份
28
例1.5 加權指數前十二大漲、跌點數
敘述統計之實例
表1.2 台灣加權指數前十二大漲、跌點數(民國79年至90年)
排序
1
2
3
4
5
6
7
8
9
10
11
12
日 期
上漲點數
日 期
下跌點數
89/03/21
566.24
79/04/07 -612.45
79/02/20
479.29
88/07/16 -575.68
79/04/20
461.82
79/02/26 -572.03
79/01/12
453.59
79/05/01 -557.44
79/03/06
442.78
79/05/16 -510.41
79/03/10
440.92
79/05/18 -510.21
79/05/31
433.88
79/06/04 -509.27
79/02/05
432.67
79/05/10 -496.26
79/04/02
407.62
79/06/07 -473.38
79/05/29
399.31
89/03/13 -467.95
79/06/12
389.48
79/04/06 -466.42
79/06/01
373.6
89/04/26 -456.66
29
這次調查於8月31日晚間進行,成功訪問了704成年人,另
264人拒訪;在95%的信心水準下,抽樣誤差在正負三點七
個百分點以內。調查是以台北市住宅電話為母體作尾數兩
位隨機抽樣。
30
推論統計(inferential statistics):
根據樣本(sample)資料推測母體
(population)之某一特性或作區間估計
(interval estimation)與假設檢定(testing
hypothesis)。
例如以民調來預測選舉結果, 即是利用
推論統計來推測全體民眾對各候選人的
支持狀況。
31
1.3 統計學的方法
 演繹統計學(deductive statistical):
– 假設母體為已知的情形下,推導出樣本的特性。
– 例如根據過去的經驗,工廠裡某一生產線的產
品瑕疵率為2%,則我們任意抽取一組100個產品
的樣本,其瑕疵產品數=?
母體
樣本
32
 歸納統計學(inductive statistical):
– 利用樣本資料來推估及臆測未知的母體參數。
– 例如,民國八十九年總統大選前,某民調單位公
佈陳水扁總統的支持率為38% ,若抽樣誤差為3
% ,則我們推估陳總統的得票率為35%至41% 。
母體
樣本
33
統計是什麼?
 統計協助人們以有效率的方式從數據中獲取
資訊
 如何讓數據說話?
 一種研究方法、一種工具
 如何避免「假統計之名,行欺騙之實」?
34
怎樣取的爛樣本?
 方便性抽樣
 自發性回應樣本:寫應 (write-in) or 叩應
(call-in)。
 問題的措詞不當:
 是否應該立法來消除特殊利益團體捐款大筆款項給候
選人的所有管道?
 應該立法來禁止利益團體捐款給競選活動,還是團體
有權捐款給他們支持的候選人?
35
相信調查結果之前該自問的問題







誰做的調查?
樣本是怎樣選取的?
樣本多大?
應答率是多少?
用什麼方法聯絡受訪者?(電話?郵寄?面談?)
調查是什麼時候做的?
問題確實是怎麼問的?
36