| ProfilerichiejenPhotosBlogLists | Help |
|
June 13 生活上常見的統計問題與陷阱生活上常見的統計問題與陷阱
遠東技術學院資訊管理系 陳逸謙
統計學係一門社學科學,研究如何提供合理的方法來蒐集、整理及分析資料,並加以解釋或預測推論,從而幫助人們在不確定的環境中(不確定的環境如股市漲跌、明日晴雨等,確定的環境如蘋果上抛去必會掉下來,統計學應用的對象是不確定的環境,確定的環境必定會發生,那是定理不須要”統計”),做出合理的研判及正確的決策。簡而言之,統計學本身是一種分析的工具或方法,用來幫助人們做選擇及決策。 二次世界大戰後由於電子計算機科技的發展,統計學便快速大量的應用在我們日常生活周遭。例如:現代的政府必需籍由統計技術幫忙才能有效的了解人口分配情況,進而做出正確的福利或稅務政策;企業家更需參考有關經濟或產品品管的統計資料,才能決定是否應進行投資;一般民眾的日常生活如減肥藥是否如廠商所宣稱的有效、支持球隊本季的表現、樂透的中獎率、明日的晴雨、所支持的候選人的民調等也都充滿統計的資料。人們常會依照這些統計資料來做決策,但你真正了解這些統計資料所代表的意義嗎?統計學上有那些數字的陷阱是要小心的?一個數字可以含蓋一個真象嗎(考試分數可以完整代表你的學習成績嗎)?如果不是那麼我們須要那些數字呢? 面對以上的問題,我們必須了解統計學,唯有了解它,我們才不會被有心人所公佈的統計數字所矇騙,不會誤解了無心人所公佈的統計數字,更不會依此做出錯誤的決策。總而言之,我們生活上充滿了賴以決策的統計數字,這些數字本身不會騙人,但是如果你不了解它,你卻可能被他人所欺騙或被自己所欺騙,故我們不能不了解生活上有那些常見的統計問題與陷阱,以下便是生活上常見的統計問題與陷阱及其所代表的真正含意。 一、平均數的陷阱 平均數是日常生活上我們最常見的一種統計資料,我們卻也經常掉入它的迷思陷阱中。假設今日你是一家企業負責人,有二家下游廠商可提供你所須的零件,價格與品質相同,甲廠商平均交貨天數為5天,乙廠商為5.125天,請問你會向那家下游廠商訂貨?如果你單純的只從平均數來看,你可能會認為甲廠商的平均交貨天數比乙廠商來得短,可較快拿到貨品比較好,故而向甲廠商訂貨,那你已陷入平均數的迷思陷阱中?我們來看甲、乙二廠商最近過去8次交貨記錄,甲廠商(2,2,7,4,1,9,7,8),乙廠商(4,5,5,6,5,5,6,5),如下圖
你會發現雖然甲廠商的平均交貨天數較少,但它交貨的情況極其不穩定,有時1天就可交貨但有時卻要延要9天才能交貨。反之,乙廠商的平均交貨雖稍長,但它均能在4-5天內準時交貨。所以如果身為老板的你只看平均數來下決策,那你的公司可能面臨生產過程不流暢的困境。我們再來看一個例子,你是一家成衣生產商,計畫開拓某國海外市場,你參考該國的國家國民所得(假設是2100美金),而決定生產了相對購買力價位的服飾銷往該國,結果你可能一件也賣不出去。因為該國的國民所得資料如下(我們假設該國只有5個國民):70,120,230,80,10000
你發現你生產了2100元價位的服飾,這國家的低收入的4個人(可能是奴隸)他們買不起,而有錢的那一個人(可能是國王)他看不上你的東西,所以你依據統計學平均數.但卻下了一個完全錯誤的決策。 以上的二個例子平均數本身並沒有錯誤或欺騙,但你如果你不夠了解它,你卻很容易被誤導,做出不正確的決策。那我們應該怎樣來看平均數才是正確的呢? 平均數是一種最常用的集中趨勢量計算方式(measure of central location),所謂集中趨勢量是一組資料的代表值用以簡化一組資料,例如某班級的統計學平均成績是用來代表簡化那一整個班級所有學生的統計學成績,簡化一組資料的目的是較易用於比較或表示。如何計算具代表性的集中趨勢量呢?學者提出了許多方法,如:平均數(Mean)、中位數(Median)、眾數(Mode)、加權平均數(Weighed Arithmetic Mean)、分位數等不同的方式,而平均數(Mean)因為計算較為容易,所以最常看到以平均數來計算集中趨勢量。那平均數是不是一種好的方式,計算出來的結果是不是具備代表性?我們先來看平均數是如何計算的: 平均數 = 平均數的計算極為簡單計算出所有數值的總和再除上資料個數即可,由於它包含了所有的數值,且給予相等的權重,所以當資料中有極大或極小值(如上例二中國王的所得),平均數便會失去代表性,這是使用平均數無可避免的缺陷。那要如何才能避免這陷阱呢?我們並不鼓勵改用其它集中趨勢量的求法,何況有些資料不是我們掌控公佈的,在被動使用平均數的情況下,如何才能避掉它的缺陷呢?我們可以觀察另外一個統計量-標準差(Standard deviation),它是用來衡量一組資料內各觀測值距離平均數的離散程度,其計算方式如下: 母體標準差= 樣本標準差= 所以當標準差值愈小時,表示大家距離平均數愈赾愈集中,也就是說平均數愈具有代表性;反之,標準差值愈大時,表示大家距離平均數愈遠愈離散,也就是說平均數愈不具有代表性。所以下次當你再遇到平均數時,請你一定要同時參考標準差,這樣才可以判斷出平均數是否具有代表性,你是否可以依據平均數來下決策。 二、民調的估計 接著我們再來探討另一個生活上常見的統計數量-估計,我們一定曾在新聞報導中聴過或看過這樣的一段話“根據本公司的民調顯示,甲候選人的支持度為32.7%,在95%的信賴水準下,抽樣誤差為正負3個百分點,有效訪問2030人”,這句話是什麼意思呢?這民調的結果是可信的嗎?什麼是信賴水準?誤差如何決定?抽樣人數會影響結果嗎? 我們先來看為什麼要需要抽樣,今天我們想要知道某一問題的解答,最正確的方法應是進行所謂的普查,即調查母體中的每一個體,如此才能獲得最正確的答案,例如我們想知道明年大選誰會當選,這問題的母體是所有明年有資格投票的選民,我們只要去訪問每一個選民,便可獲得正確的答案。但你也會發現這樣的普查將會牦用大量成本,因此在實務我們只會調查部份的母體,以節省成本,這種方式便是抽樣。至於該如何抽樣,才能在樣本中表現出完整母體的特性,以及如何的設計問題,這是另外一個主題,也是有心人士用來操控民調結果的地方,下次我們再另成專篇來討論。 調查抽樣的樣本,譬如我們想知道某候選人是否為當選,抽樣訪問100人,其中48位支持某候選人,關於此結果我們不能說某候選人的支持度是48%,因為那是樣本的結果,我們只能說那100人中有48%支持該候選人。那要如何利用樣本的結果來推論母體的結果呢?一般民調所用的方法便是區間估計(Interval Estimation),這是根據樣本資料所得的樣本結果配合抽樣分配與機率理論,所發展出來的一種方式,用以提供母體未知參數一個可能所在範圍的方法,稱之區間估計。其計算方式為: 母體比例區間估計= p:表樣本比例(如上例48%) α:表信賴係數(confidence coefficient)或信賴水準(confidence greed)
n:表樣本數 其中α信賴水準所代表的是你這個母體估計值它的可靠度或命中度(命中真正的支持率)的程度有多少,如上例所提95%的信賴水準即表示讓民調結果有95%的可靠度命中度。而公式中 最後,我們來談一下抽樣所須樣本數的問題,就理想而言,我們當然希望信賴水準則是愈大愈好,代表估計愈準確,而抽樣誤差也就是區間愈小愈好(區間太大估計是準確的但會沒有意義,例如我估計你的身高在0~300公分間,絶對夠準確但一點參考意義都沒有)。由公式的觀察我們知道抽樣誤差的計算受到z值及n的影響,而z值的大小和α值是同向的,也就是信賴水準則是愈大誤差也會愈大;n則在分母,所以當抽樣樣本數愈大,則可控制抽樣誤差變小。因此,如果我們想要讓我們的估計是準確率高而且範圍小有意義,那唯一的方法便是增加樣本數n。至於n要多大少夠,那就看你要高的準確率及可容忍多大的範圍。 TrackbacksThe trackback URL for this entry is: http://richiejen1981.spaces.live.com/blog/cns!3D3DAE0CAA145703!150.trak Weblogs that reference this entry
|
|
|