赫夫《別讓統計數字騙了你》How to Lie with Statistics(天下文化,2005)
常聽人說:「數字會說話。」但是,可別以為所有的統計數字說的都是真話!
不論是新聞報導還是廣告,我們經常碰到類似這樣的標題:「經實驗證明,XX牌牙膏能有效減少23%的蛀牙」、「根據統計,喝牛奶的人罹患某某癌症的機會,是不喝牛奶的人的YY倍」、「某大學調查發現,女性碩士的未婚人數,占所有30到40歲未婚女性的一半」等等。
面對各式各樣的統計數字時,我們必須認知到:讓數字「說話」的是人,而人可以進行操控。十九世紀的英國政治家狄斯累利就曾說過:「世上有三種謊言,就是:謊言,天大的謊言,與統計數字。」現在,《別讓統計數字騙了你》要揭穿各種統計騙術,讓老實人不再上當受騙。
赫夫寫過多本數學、統計普及書籍,另著有《How to Take a Chance》、《Cycles in Your Life》、《The Complete How To Figure It》等。現在定居在美國加州。
喬貝斯特Joel Best《統計數字:是事實還是謊言》Damned Lies and Statistics:Untangling Numbers from the Media, Politicians,and Activists(商周出版,2008)
數字確實會說話,但它更會說謊。
當數字說謊時,你分辨得出來嗎?
死於槍口下的兒童數目每年以倍數的速度增加?厭食症每年奪走十五萬名年輕女性的生命?白種男性只佔新勞動力的六分之一?令人怵目驚心的統計數字形塑我們對社會議題的思考。但這些數字多半是錯的。本書教你如何看出有問題的統計數字,並以批判的方式來思考它們。對於任何看或讀新聞的人,以及任何仰賴統計數字來理解社會問題的人,還有大學學生,這本書都不可不讀。
貝斯特從各種在媒體上備受關注的社會議題切入,包括墮胎、網路色情、遊民、百萬人遊行、青少年自殺等,藉由來自《紐約時報》、《華盛頓郵報》及其他主要媒體的例子,他為我們揭開了統計數字的使用、誤用與濫用的祕辛。
貝斯特鉅細靡遺地向我們解釋了壞統計數字出現、散播並形塑政策辯論的原因與方式,也告訴我們看穿壞統計數字、批判思考「統計戰爭」的具體方法。你並不需要高深的數學知識才能讀懂這本書,因為裡面談的,全都是最基本、最易懂的統計,例如百分比、平均值、比例。
這本平易近人的書告訴我們,除了天真地全盤接受統計數字或犬儒地認為它們毫無意義外,我們還有另一種選擇:面對著在社會科學以及我們飽受媒體轟炸的生活裡氾濫的統計數字,我們可以當個聰明、批判、具權的閱聽者。
作者簡介
喬.貝斯特(Joel Best)德拉瓦大學社會學暨刑事司法教授,其他著作包括Random Violence: How We Talk About New Crimes and New Victims (1999)、More Damned Lies and Statistics: How Numbers Confuse Public Issues (2004) 及 Flavor of the Month: Why Smart People Fall for Fads (2006) 等。
本書的目的,在於指出不良統計的來源,解釋為什麼不良的統計不會消失。有些統計先天品質不良,其根據無非只是猜測或尚未確定的資料,所以打從一開始就有問題。也有統計在半途發生了突變,因外力而變成不良的統計(上述期刊文章作者饒富創意的改寫,便是一例)。不管哪一種,對某些有心人士而言,不良的統計其實非常重要:他們可以利用這些數字,煽動群眾的憤慨或恐懼;扭曲我們對這個世界的認識;甚至導致我們做出錯誤的政策決定。
像這樣呼籲大眾留心錯誤統計的想法,其實並不新鮮。我們都聽過這句話:「只要有統計,什麼都能證明。」(*)本書原文書名《該死的謊言與統計》(**Damned Lies and Statistics**),靈感來自一句著名的格言:「世界上有謊言、該死的謊言,還有統計。」
一般認為,說出這句話的,是馬克吐溫(Mark Twain)或狄斯雷利(Benjamin Disraeli)(注2)另外還有一本出版四十餘年,仍在印行中的實用小書,就叫做《如何利用統計數字說謊》(**How to Lie with Statistics**)。(注3)
統計因此得了一個臭名。讓人不禁懷疑,統計可能出錯,而使用統計的人也可能「撒謊」,也就是說,他們試圖利用數字來扭曲事實、操縱人心。但是同時,我們卻又需要統計;對於複雜社會的本質,我們仰賴統計來加以概述與澄清。在討論社會問題時,尤其如此。
在進行關於社會問題的辯論時,我們總是會先提出需要以統計來回答的問題:問題是否散布在社會各層面?多少人,以及哪些人,受到了影響?問題是否日漸惡化?社會因此付出了什麼代價?又需花費多少成本善後?要對這類問題提出具有說服力的答案,便需要證據,而證據往往就是數字、測量與統計。
但我們真的能夠利用統計數字來證明什麼嗎?這得看「證明」這個詞是什麼意思。比如,如果我們想知道每年有多少孩童遭到「槍殺死亡」,我們不能光憑自己的猜測,憑空抓一個數字:一百、一千、一萬、三十五兆什麼的。大家都知道,隨心所欲的猜測不能證明什麼。要是有人利用警局、醫院急診室或驗屍官的紀錄,持續追蹤受害孩童的人數,或許還能提出一些證據;彙整仔細而完整的紀錄,或許能讓我們在某種程度上正確掌握孩童受害人數。如果那個數字看起來沒什麼大問題,我們可能就會把它當作強而有力的物證,或是「證明」。
對於不良的統計所造成的問題,解決之道並非完全摒棄統計方法,或是認定每個數字都有問題。有些統計確實不好,但也有些相當不錯,何況,我們需要統計,而且是優良的統計,才能理性地討論社會問題。所以解決的辦法,並不是放棄統計,而是每次看到統計數字時,我們必須謹慎判斷。我們要用批判的眼光來看待統計數字——至少要有能力看出,從一九五○年到現在,遭到槍殺的孩童數目再怎樣也不可能每年都多出一倍
數盲
幾年前,數學家包洛斯(John Allen Paulos)寫了一本簡明易懂的小書,內容關於「數學文盲」,書名叫做《數盲》(Innumeracy)。(注4)包洛斯說,很少有人能夠從容地處理幾個簡單的數學原理,以致一般人遇到統計數字時缺乏判斷能力。毫無疑問,我們之所以有這麼多不良的統計,這是其中一個原因,但是還有其他原因。
社會統計學描述的對象是社會,同時也是社會行為的產物。那些引起我們注意社會統計數字的人,無不別有居心;他們有所意圖,一如記者或其他媒體人,為了某種目的,不斷地重複、宣傳統計數字。說穿了,統計數字只是用來達成特定目的的工具。若要對統計進行批判,首先必須瞭解統計在社會中所扮演的角色、地位。
儘管對於不同立場的對手(也就是支持不同政黨或信念的人)所提供的統計數字,我們通常較不易輕信,不過,無論是哪種立場的人,其實都可能會使用不良的統計數字。這些數字的來源,可能是右派的保守主義者、左派的自由主義者,或是財力雄厚的大財團,也可能是握有大權的政府機構,抑或是為窮人與弱勢團體發聲的代言人。
我希望本書所呈現的案例也能反映這樣的分布:在我所選擇的不良統計案例裡,有些主張的立場和我相同,有些提倡的訴求則為我所反對。希望讀者也至少能在自己所支持的訴求裡,找到一個令人坐立難安的不良統計個案。誠實的原則,要求我們不僅細察對手在推理上的缺陷,同時還得承認自己在推理時犯下的錯誤。
本書能夠協助讀者瞭解社會統計的使用方法,判別統計數字的優劣。閱讀本書並不需要複雜的數學知識,書中所討論的,僅限於最基本的統計方法:如百分比、平均、比例等,也就是「敘述統計」。這些是一般統計入門課程在第一週左右教授的內容(就像所有統計進階課程一樣,該課程其餘部分涵蓋了「推論統計」,以及本書略過未談的複雜推論等)。
本書能夠幫助讀者評價在一般晚間新聞聽到的統計數字,而不是印行在《美國社會學期刊》(American Sociological Review)或其他學術期刊的統計圖表。本書的目的,是讓大眾學習如何發現不良的統計,才不至於相信每年受害孩童數目倍增這類的主張,甚至是轉告他人這樣的「事實」。
該問的三個問題
這個道理應該已經非常清楚:統計數字,即便是犯罪率、失業率、人口普查等官方統計,均是社會活動的產物。人們在談論統計數字時,往往好像在談論早已存在的事實,像是獨立於人類而存在石頭,同時,人們往往認為統計數字的蒐集,就好像石頭收藏家檢起石頭一樣單純。這是錯的。只有透過人類活動,才能創造出統計數字:必須有人決定何者納入計算、如何計算,種種計算的工作也必須由人進行,最後也得有人解釋統計結果,決定數字所代表的意義。所有統計都是社會的產物,也是人類努力的結果。
一旦認清這個事實,就能明白,我們不該毫不猶豫地將數字當作正確的事實一概接受。如果統計乃由人所製造,就該對這些數字加以評估、評鑑。有些統計做得不錯,反映出人類為了能夠仔細、精確、客觀地測量社會問題,所付出的最大努力。有些卻是不良的統計,它們可能出錯,甚至是離譜的錯誤。我們必須要能分辨優良的統計與不良的統計。以下三個基本問題,可讓我們在面對統計數字時,加以斟酌思考。
一、誰製造了統計數字?
所有統計數字都有原始作者,也就是當初製造它們的人。有時數字來自某人,有時來自像是美國普查局的大型組織(當然,數字所反映的,其實是該組織內部某一群人的工作結果)。
當我們思考統計數字的製造者時,他們的姓名並不是重點,我們在意的,是這些人在統計的公共戲碼中扮演的角色。這些統計數字是否來自企圖吸引目光與引發討論的社運人士?或是出自以新聞價值為首要考量的媒體報導?還是數據來自一群做著例行公事、對數字意義漠不關心的政府官僚?
二、統計數字的製造目的為何?
通常,製造者的身分可以為製造動機提供有利的線索。一般說來,社運人士的目的是為了尋求民意支持,促使大眾注意某些社會問題。理所當然,他們偏好較高的統計結果,於是試圖製造符合期望的統計數字,以致缺乏仔細的審查。當改革派人士呼籲社會注意娼妓或遊民問題,我們必須瞭解,如果他們提供的數字不多,訴求似乎也就不會有太多人注意。
從另一方面來看,也有人偏好較低的統計數目。還記得紐約警局的例子嗎,他們變出一個數字,號稱娼妓人數少之又少,以證明他們績效卓著。我們必須知道,製造統計數據的人,關心的是數字所代表的意義,數字是他們用來說服大眾的工具。
三、統計數字的製造過程為何?
我們不能因為製造者的特殊立場或看待問題的態度嚴肅與否,而懷疑統計結果的正確性。我們應該問的,是統計結果的計算過程。統計都不完美,但有些缺點尤其多。一個隨意猜測得到的數字,和一個經過仔細設計研究產生的數據,兩者之間差別極大。這才是主要的問題所在。
一旦我們知道,所有的統計都是由人而起,製造社會統計的人都想證明己見(即便經過仔細、可靠、公正的計算),那麼,接著我們該留意的,便是製造統計數字的方法。本書接下來的重點,將專注在這個問題上。
下面要談些什麼?
後面我們要討論的,是製造與解釋社會統計時,幾個最常見也最重要的問題。第二章檢視不良統計的四個基本來源:錯誤的猜測、虛假的定義、混淆的問題,以及偏差的樣本。第三章要看的是突變的統計,即使是優良的統計,有時也可能遭到破壞、誤用與誤解。第四章討論比較統計數據的邏輯問題,探討比較兩個以上時期、地區、群體或社會問題時,幾個常犯的錯誤。第五章思考因統計而起的論戰。最後,第六章檢驗看待統計的三種常見途徑。
優良統計的特徵是什麼
這一章的重點,是說明低劣統計的製造方式:薄弱的猜測、含糊的定義、有問題的測量,以及貧乏的取樣。此時你可能會想,是不是所有統計都有問題,統計不過是個「該死的謊言」。難道沒有好的統計嗎?我們該如何分辨統計的好壞呢?
這一章指出的問題,其實也道出了好的統計所必須具備的部分條件。
首先,好的統計不能光靠猜測。
統計最基本的問題是:這個數字是怎麼算出來的?統計絕非十全十美,但某些缺點卻是要不得的。我們不該對猜測抱持太大的信心(即便是基於經驗或知識的猜測)。
請注意猜測的危險徵兆:提供統計數字的人是否有偏見,他們是否想證明問題非常普遍或極為少見?數字是否相當龐大、接近整數?統計所描述的,是否是個從未見過、不為人知而且還包括龐大黑數的社會問題(如果是,倡議者又是如何得出這個數字呢)?
第二,好統計靠的是清楚合理的定義。
千萬記住,每一項統計調查都必須對研究對象加以定義。定義必須清楚,而且對外公開。個案不是定義,戲劇化且駭人驚悚的故事與最極端的案例更絕對不是定義。任何提出統計數據,用來描述社會問題的人,應該能夠並願意解釋用以製造數據的定義。定義通常很廣:能夠包含各種與舉例不同(且通常較為輕微)的案例。
我們要問的是:定義究竟多廣?定義包含了什麼?然後,問問自己,這些提出數據的人是否特別喜歡廣泛或狹隘的定義?原因是什麼?並且想想這些定義是否排除太多漏報個案,或納入太多誤報個案。
第三,好統計的基礎是清楚合理的測量。
所有統計多少都與測量有關;儘管測量都不完美,但是各種缺陷的嚴重程度不一。提供統計者應有能力與意願解釋測量社會問題的方法,並做出明智的抉擇。如果提供數字的人持有某種偏見(偏好較大或較小的數字),那麼,該偏見可能就會反映在測量問題的方法。例如,他們可能會調整問題的措辭,以誘導某些回應,或是藉由特殊方法解讀。對於測量方法不明者,我們必須謹慎以對,思考究竟是怎樣的測量選擇,製造出這樣的統計數據。
最後,好的統計數據要有好的樣本。
光是清楚合理的定義和測量還不夠。幾乎所有統計都是由小樣本推論到大規模母體,提供統計數據的人,應該解釋自己選擇樣本的方法。好的樣本能夠代表母體;理想上,這樣的樣本應該隨機抽出。格外留意樣本數少、非隨機的便利抽樣;這類樣本雖然取得容易、花費低,卻難以成為全面性推論的基礎。記得問問自己,選擇的樣本會怎樣扭曲最後的統計結果。
好的統計所具備的共同特徵,是我們不只看到一個數字;我們還看到數字背後的定義內涵、測量方法與抽樣方式,也就是得出數字的完整過程。當報告隱瞞了這些訊息,我們絕對有理由懷疑數字的真假。
社會統計反思 從批判觀點出發
有些文化,人們相信某些事物有特殊魔力,人類學家稱之為物神崇拜。而在我們的社會裡,統計數字就有點像是被崇拜的物神。在看待統計數字時,我們似乎認為它是有魔力的,好像它不光只是數字而已。我們把統計數字當成是事實的有力代表,就好像統計把現實的複雜和混亂提煉成簡單的事實一樣。
我們利用統計,將複雜的社會問題轉化成容易理解的估計數、百分比和比率。統計數字主導我們關切的焦點;告訴我們什麼事該擔心,也決定了我們擔心的程度。或許可以說,社會問題已經變成統計數字,而由於我們認為統計數字是不可反駁的事實,所以它已經成為我們所崇拜的物神;對於我們看待社會問題的方式,它有著好似魔力一般的控制能力。我們認為統計數字是我們所發現的事實,而不是我們自己製造的數字。
但是,統計數字當然不是獨立存在的;如果想要製造出統計數字,就得先要有人才行。現實是複雜的,而每個統計數字,都是特定某人簡化複雜的現實後做出的摘要。每個統計數字,都必定是被人們製造出來的,而製造的過程,總是牽涉到會影響數字結果的選擇,而這些選擇也會因此影響我們對數字所概述、簡化的問題的理解。製造統計數據的人,必須選擇定義(也就是他們究竟想要計算什麼),也必須選擇計算的方法(這包括測量、取樣等等)。
這些選擇,會造成各種優劣不一的統計數字。在簡化事實時,劣質的統計數字會扭曲事實造成我們的誤解,而優質的統計數字則會盡量將扭曲的程度減到最小。沒有任何統計數字是完美無缺的,只是有一些會比其他的少一點瑕疵。無論好壞,每個統計數字都反映出製造者的選擇。
本書提供批判社會統計的一些方向,指出社會統計常見的一些問題,並舉出具體的實例說明。我們通常比較容易明白特定的例子,卻比較不容易理解和辨別該例子所代表的一般性問題或原則。
但是,我希望在讀了這本書後,讀者會比較熟悉一些最常見的社會統計缺失:讀者能夠提出一些關於統計起源的基本問題(定義、測量、取樣,和其他在第二章討論到的議題);瞭解統計被扭曲誤用的方式(第三章);瞭解不當類比的風險(第四章);而且在面對統計大戰時,讀者不會輕易投降(第五章)。然而本書篇幅有限,無法提供各種統計錯誤完整的清單。
為了解讀統計,我們需要的不只是常見錯誤的清單。我們需要的是一個整體的方法、一個大方針、一種心態,來思考每次所面對的新的統計數據。在看待統計時,我們需要更謹慎。這可能很難辦到,正因為在我們的社會裡,有許多人過於崇拜統計數字;我們或許可以把這稱為「敬畏者」的心態,因為這些人不會對統計數字進行批判思考,彷彿它們具有魔力一般。敬畏者深知他們並非總是瞭解所聽到的統計數字,但他們覺得無所謂,畢竟,有誰能夠瞭解神奇的數字呢?然而,敬畏者虔誠的宿命論,只不過是一種避免思考的方式。對於統計數字,我們必須採取不同的方式,我想到三種方式,它們可以分別稱為「天真者」、「犬儒者」和「批判者」的心態。
統計是權威?還是權力?
過年前,幫商周寫了「統計數字--是事實,還是謊言」的推薦序,沒多久就出版了。這本書寫的淺寫易懂,連我這個對統計沒什麼能力與太多好感的人,都可以寫推薦序,實在是很神奇。這不是什麼統計學的教科書,而是一本認識統計潛在謬誤與權力的科普方法。
雖然,本書的作者,在用辭譴字上對社會運動似乎沒什麼好感,不過,對於幫助我們認識統計的迷思卻有不少的貢獻。下頭是這本書的推薦序,也推薦給大家。
人有個莫名其妙的習慣:相信權威。相信權威可以解決生活問題,相信權威可以提供生活的指引。也許你小時候就曾說過:「哼,你敢打我?我要告訴我巴比(爸爸)!」或者:「馬迷(媽媽),這個我不會,妳可不可以教我?」
幼兒的權威是父母,但到了學校就換成「老師說」。有趣的是,開始讀了點書,認識幾位偉人、科學家後,我們又有新的偶像,「老師說」於是變成「國父說」, 原本生活中的權威,換成遙遠的偉人,一堆與我們沒什麼直接關係的人,頓時之間成了生活的主宰。只是偉人的話有時只是政治語言,未必可信。科學家呢?科學家 說的話就真能信嗎?以前的科學家說「太陽繞著地球跑」,現在的科學家說「地球繞著太陽跑」,來的科學家會不會又有另一套說法?
除了偉人、科學家,現代社會中的大眾傳播媒體則是另一種權威,即使許多調查都顯示臺灣新聞的可信度越來越低,但你很難否認自己的食衣住行,甚至投票行為,都經常隨著媒體起舞。
人們相信傳媒,是因為社會所建構的媒體權威感,更重要的是,新聞媒體有時候還讓我們看見事件原貌,滿足我們「眼見為憑」的信賴感,但眼見真的可以為憑?
每年七月一號至三號,臺灣的大型重頭戲就是大學指考,那幾天一定會看到大官巡視考場、補習班老師預測分數的新聞。但還有一件事一定會發生,你一定看過糊塗考生跑錯考場或忘了帶准考證,接著,會有好心的警察出面解決的新聞。看到這種新聞通常是習以為常,不會有什麼反應,因為年復一年,總是會有人忘東忘西,但,你可曾想過,即使每年都有糊塗考生,但怎麼會這麼巧,每年都被媒體拍到?
難道有人遺失准考證或跑錯考場時,會發新聞稿要記者來採訪?如果是記者不小心遇到也就算了,但一年、兩年、三年,十幾二十年的巧合,也未免太神奇了!也許我們可以再想想,是不是曾經看過考生的正面?還是考生總是戴著安全帽,坐著警車揚長而去?這種日常生活的小新聞都有可能造假,更別說「腳尾飯」、「周政保」、「選舉灌票」,這些引起社會恐慌的新聞事件。
權威除了來自「人」,也會來自統計數字。統計是科學的結果,而科學是一種權威的象徵。民眾接觸到統計數字往往很少產生疑問,總是不疑有他地全盤接受,特別當數字經過科學檢驗或權威單位認可時,「數字」就不再只是數字,而是像科學一樣地擁有權威。
舉個例子來說,你到市場買菜,如果菜販用目測就告訴你菜的斤兩及價錢,你一定會滿臉疑惑:真的嗎?這麼神?用看的就行了哦?但如果老闆拿出的是傳統天平式的槓桿磅秤,雖然稍微科學一點,但你還是會懷疑老闆會不會趁機偷斤減兩,小 A 一筆。不過,只要店家拿出的是經政府單位檢驗過,掛保證的電子磅秤,通常不會有太多質疑,即使付錢時,覺得價格有點怪怪的,但你通常不會覺得磅秤有問題,反倒懷疑會不會是店員在惡搞!為什麼?因為電子磅秤畢竟是經過權威機構的檢驗,應該不會有問題。
但事實真是如此?
每年過年前,經常會有政府官員或消保團體到各地「年貨大街」突擊檢查市場裡的磅秤是否合乎規定:有沒有被動過手腳?或者暗藏玄機?很巧的是,總是會有幾家店家被抓包。這時候「科學」的磅秤受到了挑戰,你會告訴自己,這些商家怎麼那麼沒有職業道德,欺騙消費者!你還可能打從心裡感謝政府官員或消保團體勇於任事,伸張正義,但弔詭的是,這時你又在相信權威了,你不相信動過手腳的科學儀器,反而相信未必經過科學或社會檢驗的權威人士。
數字的確會說話,但,許多時候數字說的其實是謊話。不!應該說,或許數字未必會說謊,但有人會利用數字來騙人。
十多年前,曾經參加一場大遊行,人數眾多,萬頭鑽動,好不熱鬧。遊行隊伍從臺大出發,緩緩且熱情地經過臺北中山橋,這時遊行總指揮在指揮車上,用著興奮且激昂的語調告訴群眾:「各位啊!咱的人數越來越多,咱已經走到中山橋,但是還有人才走到臺北車頭!」聽到總指揮高亢的語調,心裡也不自覺地激動了起來,不論是往前看,或往後看,還真的看不到人龍的頭跟尾。
這時,指揮車上興奮的語調又再度揚起:「各位啊!剛才收到國外的媒體消息,外國的媒體報導說,這次的遊行超過三十萬人啦!這是咱人民的大勝利啦!」這無疑是一劑超強興奮劑,群眾跟著歡呼,忘掉走了十公裏的疲累,精神抖擻,邁開大步繼續向前走。興奮過頭的群眾,沒有人懷疑在媒體不是那麼發達的年代,遊行總指揮怎麼會知道國外媒體的最新消息?
隔天的報紙紛紛報導遊行資訊,有趣的是,支持遊行的媒體一樣聲稱有三十萬人參加遊行,但反對遊行的,只剩下十 萬人,更妙的是警方也軋上一腳,不過警方統計的人數卻和大家都不一樣。
到底該相信誰呢?媒體是權威,警察是權威,遊行指揮是權威,我的眼睛也是權威,各自都有一套自己的統計方法,但我該相信誰呢?只是,就算疑惑到死,當天到底有多少人參加遊行,一樣仍然是個謎!
看來數字並不是這麼單純,權威也未必是這麼可信,因為權威便是一種權力,不僅可以操縱統計,甚至也會賦予數字截然不同的意義。不過,打破統計數字迷思的方法並不太難,就像最近幾年有心改革媒體的人士在各地開「媒體識讀」(media literacy)課程,無非是希望打破媒體權威的迷思,解讀媒介真實,做個耳聰目明的閱聽人;無獨有偶的,貝斯特出版的《統計數字:是事實,還是謊言?》可算是「統計識讀」(statistics literacy)的極佳入門教材,因為作者用輕鬆的筆調與鮮活的生活數字告訴我們:統計並不可怕,也不是什麼權威,可怕的是它背後的種種社會權力,以及我們對社會權威毫無防備的相信。
http://blog.roodo.com/benla/archives/5519811.html
統計>百度百科
人類對事物數量的認識形成的定義。漢語中的“統計”有合計、總計的意思。英語中的“統計”(statistics)詞源:德語 Statistik ,政治學;新拉丁語 statisticus ,國事;意大利語statista ,老練的政客;舊意大利語、拉丁語 status ,形勢,政體。
統計一詞有三方而含義:(1)統計工作。指搜集、整理和分析客觀事物總體數量方面資料的工作過程,是統計的基礎。(2)統計資料。統計工作所取得的各項數字資料及有關文字資料,一般反映在統計表、統計圖、統計手冊、統計年鑒、統計資料彙編和統計分析報告中。(3)統計科學。研究如何搜集、整理和分析統計資料的理論與方法。統計工作、統計資料、統計科學三者之間的關系是:統計工作的成果是統計資料,統計資料和統計科學的基礎是統計工作,統計科學既是統計工作經驗的理論概括,又是指導統計工作的原理、原則和方法。
常用統計方法:均值;中位數;衆數;正態分布;抽樣;標准差;概率論;t檢驗;方差分析;chi卡方檢驗;
◎ 統計
(1) [statistics;count;add up] 大量數據的收集、分析、解釋和表述
人口統計
(2) 亦指總括地計算
把全國報來的數據統計一下
(一)“統計”一詞的由來
“統計”一詞,英語爲statistics,用作複數名詞時,意思是統計資料,作單數名詞時,指的是統計學。一般來說,統計這個詞包括三個含義:統計工作、統計資料和統計學。這三者之間存在著密切的聯系,統計資料是統計工作的成果,統計學來源于統計工作。原始的統計工作即人們收集數據的原始形態已經有幾千年的曆史,而它作爲一門科學,還是從17世紀開始的。英語中統計學家和統計員是同一個(statistician),但統計學並不是直接産生于統計工作的經驗總結。每一門科學都有其建立、發展和客觀條件,統計科學則是統計工作經驗、社會經濟理論、計量經濟方法融合、提煉、發展而來的一種邊緣性學科。
1,關于單詞statistics
起源于國情調查,最早意爲國情學。
十 七世紀,在英格蘭人們對“政治算術”感興趣。1662年,John Graunt發表了他第一本也是唯一一本手稿,《natural and politics observations upon the bills of mortality》, 分析了生男孩和女孩的比例,發展了現在保險公司所用的那種類型的死亡率表。
英文的statistics大約在十八世紀中葉由德國學者 Gottfried Achenwall所創造,是由狀態status和德文的政治算術聯合推導得出的,第一次由John Sinclair所使用,即1797年出現在Encyclopaedia Britannica。(早期還有一個單詞publicitics和statistics競爭“統計”這一含義,如果得勝,現在就開始流行 publicitical learning了)。
2,關于高斯分布或正態分布
1733年,德-莫佛(De Moivre)在給友人分發的一篇文章中給出了正態曲線(這一曆史開始被人們忽略)
1783年,拉普拉斯建議正態曲線方程適合于表示誤差分布的概率。
1809年,高斯發表了他的關于天體運行論的偉大著作,在這一著作的第二卷第三節中,他導出正態曲線適宜于表示誤差規律,同時承認拉普拉斯較早的推導。
正態分布在十九世紀前葉因高斯的工作而加以推廣,所以通常稱作高斯分布。卡爾-皮爾遜指出德-莫佛是正態曲線的創始人,第一個稱它爲正態分布,但人們仍習慣稱之高斯分布。
3,關于最小二乘法
1805年,Legendre提出最小二乘法,Gauss聲稱自己在1794年用過,並在1809年基于誤差的高斯分布假設,給出了嚴格推導。
4,其它
在十九世紀中葉,三個不同領域産生的重要發展都是基于隨機性是自然界固有的這個前提上的。
阿道夫?凱特萊特(A. Quetlet,1869)利用概率性的概念來描述社會學和生物學現象(正態曲線從觀察誤差推廣到各種數據)
孟德爾(G.Mendel,1870)通過簡單的隨機性結構公式化了他的遺傳法則
玻爾茲曼(Boltzmann,1866)對理論物理中最重要的基本命題之一的熱力學第二定律給出了一個統計學的解釋。
1859 年,達爾文發表了《物種起源》,達爾文的工作對他的表兄弟高爾登爵士有深遠影響,高爾登比達爾文更有數學素養,他開始利用概率工具分析生物現象,對生物計 量學的基礎做出了重要貢獻(可以稱他爲生物信息學之父吧),高爾登爵士是第一個使用相關和回歸這兩個重要概念的人,他還是中位數和百分位數這種概念的創始 人。
受高爾登工作影響,在倫敦的大學學院工作的卡爾-皮爾遜開始把數學和概率論應用于達爾文進化論,從而開創了現代統計時代,贏得了統計之父的稱號,1901年Biometrika第一期出版(卡-皮爾遜是創始人之一)。
5,關于總體和樣本
在早期文獻中可找到由某個總體中抽樣的明確例子,然而從總體中只能取得樣本的認識常常是缺乏的。 ----K.皮爾遜時代
到十九世紀末,對樣本和總體的區別已普遍知道,然而這種區分並不一定總被堅持。----1910年Yule在自己的教科書中指出。
在 1900年代的早期,區分變的更清楚,並在1922年被Fisher特別強調。----Fisher在1922年發表的一篇重要論文中《On the mathematical foundation of theoretical statistics》,說明了總體和樣本的聯系和區別,以及其他概念,奠定了“理論統計學”的基礎。
6,期望、標准差和方差
期望是一個比概率更原始的概念,在十七世紀帕斯卡和費馬時代,期望概念已被公認了。K.皮爾遜最早定義了標准差的概念。1918年,Fisher引入方差的概念。
力學中的矩和統計學中的中數兩者之間的相似性已被概率領域的早期工作者注意到,而K.皮爾遜在1893年第一次在統計意義下使用“矩”。
7,卡方統計量
卡方統計量,是卡-皮爾遜提出用于檢驗已知數據是否來自某一特定的隨機模型,或已知數據是否與已給定的假設一致。卡方檢驗被譽爲自1900年以來在科學技術所有分支中20個尖端發明之一,甚至敵人Fisher都對此有極高評價。
8,矩估計與最大似然
卡-皮爾遜提出了使用矩來估計參數的方法。
Fisher則在1912年到1922年間提出了最大似然估計方法,基于直覺,提出了估計的一致性、有效性和充分性的概念。
9,概率的公理化
1933年,前蘇聯數學家柯爾莫格洛夫(Kolmogorov)發表了《概率論的基本概念》,奠定了概率論的嚴格數學基礎。
10,貝葉斯定理
貝葉斯對統計學幾乎沒有什麽貢獻,然而貝葉斯的一篇文章成爲貝葉斯學派統計學的思想模式的焦點,這一篇文章發表于1763年,由貝葉斯的朋友、著名人壽保險原理的開拓者Richard Price在貝葉斯死後提出來的----貝葉斯定理。
概 率思想的兩種方法,(1)作爲一個物理系統內在的一種物理特性,(2)對某一陳述相信程度的度量。 在1950年代後期止,多數統計學家采取第一種觀點,即概率的相對頻數解釋,這一時期貝葉斯定理僅應用在概率能在頻數框架內解釋的場合。貝葉斯統計學派著 作的一個浪潮始于1960年。自此,贊成和反對貝葉斯學派統計的兩方以皮爾遜和費舍爾所特有的激情和狂怒進行申辯和爭辯。
在1960年以前,幾乎所有的統計書刊都避免使用貝葉斯學派方法,Fisher堅持避免使用貝葉斯定理,並在他的最後一本書中再一次堅決的拒絕了它。卡爾-皮爾遜偶然使用,總的來說是避免的。奈曼和E.S.皮爾遜在他們有關假設檢驗的文章中堅決反對使用。
(二)近代統計學
近代統計學指的是18世紀末到19世紀末的描述統計學,其發展過程與概率論的廣泛研究和應用密切相關。目前在統計分析中經常使用的一些基本方法和術語都始于這一個時期,比如:最小平方法、正態分布曲線、誤差計算等等。
在近代統計發展的一百年中,也形成了許多學派,其中以數理統計學派和社會統計學派最爲著名。數理統計學派的原創始人是比利時的A•凱特靳,其最大的貢獻就是將法國的古典概率引入統計學,用純數學的方法對社會現象進行研究;社會統計學派的首倡者是德國的K•克尼斯,他認爲統計研究的對象是社會現象,研究方法爲大量觀察法。在近代統計學的發展過程中,這兩學派的矛盾是比較大的。
http://baike.baidu.com/view/8163.html?tp=0_11