[转帖]克韩：任何非科学的民调都是耍流氓

枪是老的辣 发表于 2014-12-4 09:52:00

[转帖]克韩：任何非科学的民调都是耍流氓由枪是老的辣发表在
克韩：任何非科学的民调都是耍流氓记得前两天不是有很多人讨论统计学吗？其实很想告诉大家准确的调查不是这么容易，但很难用短短几句说得很精准，于是作罢。转来的这篇文章可以看看，什么才叫做科学的调查。
作者：克韩
事情要从一周前的一条新闻说起。这条新闻的核心意思是：温格已经惹恼了大部分枪迷，87%的枪迷支持他下课。消息来源是英国的《每日星报》，国内网媒迅速转载，各种标题党蜂拥而上。比如，网易体育的标题是《温格陷四面楚歌？被指七成（原文误，应为至少八成）球迷盼下课》，新浪体育的标题是《地震！近9成枪迷跪求温格下课》，凤凰体育《阿森纳遭遇32年联赛最差开局，近9成球迷盼温格下课》。
在讨论这个问题前，我想先说下《每日星报》是一张什么报纸：这是一家小报，格调和新闻的严肃性方面，不能与《泰晤士报》、《卫报》、《独立报》、《每日电讯报》等传统大报相比；另一方面，在小报界它也只是阅读量较少的报纸，这一端占翘楚的基本是《太阳报》和《每日邮报》，2014年前者的发行量是221万份，后者的发行量是178万份，而《每日星报》虽谈不上是“小透明”，但发行量还不到50万份。
换句话说，它的新闻，可信度不高，严谨性也不够，以耸人听闻为主，偏偏在耸人听闻方面又干不过《太阳报》等，只好剑走偏锋。这条新闻，没有出现在《太阳报》和《每日邮报》上是有原因的。因为那两家报纸虽然是小报，其实也是有自己严格的新闻要求的（在足球新闻权威性方面其实并不比大报差），是“盗亦有道”的小报，只有《每日星报》这样的报纸才会为博眼球不惜孤注一掷。
但这不是我在这里要说的主要问题，我真正想讨论的问题是：我们真的了解民意调查吗？由于众所周知的原因，民意调查对于我国民众是一个比较新的概念，大部分人对民意测验的调查方法、调查手段、结果可信度、误差等名词其实都相当陌生，因此对于如何科学地阅读民意调查，也存在很多误区。就拿刚才所说的温格民调来看，除了《每日星报》的可信度问题之外，你看出什么问题了吗？
在这里，我先抄出《每日星报》原文的核心部分：“在阿森纳球迷网站AFC4LIFE.co.uk最近进行的一次民意调查中，枪迷被要求就法国人（温格）的去留投票。其结果令人震惊，调查显示87%的阿森纳球迷希望这名65岁（的教练）在赛季末离开俱乐部。”在详细讨论这一报道的问题前，我先给出我的结论，简单而有力：这是bull-shit（胡扯）新闻！任何这样的非科学抽样调查，都只是在耍流氓。

在详细讨论之前，我先问大家一个问题：在你看来，一个调查了10万人的民意测验，和一个调查了1000人的民意测验，哪个结果更可信？根据你对这个问题的回答，我可以判断出你对民意测验的了解程度。如果你答：那肯定是10万人的民意测验更可信吧？那我就可以确定地知道：你对民意测验知之甚少。
正确答案是：在不解释抽样方法前，这个问题没法回答；如果采取了错误的抽样方法，那10万人的民意测验，也可能无法反映正确的民意；而如果采取了科学抽样方法，1000人的抽样，就足以对中国13亿人口进行一个质量非常不错的民意测验了。当然，在这之前，我们恐怕先要解释：为何在判断民意时，要进行“抽样调查”，而不太可能是“普查”。
假使今天我们要想理解13亿人的民意，那最“正确”的方法应该是对13亿人普查。问题是这样的成本无疑是巨大的，13亿次的访问以目前的技术条件来说不可能瞬间同时举行，就算不需要瞬时，也要耗费巨额的费用（想一想为何无论是中国还是美国，人口普查都只能十年来一次）。所以，需要考虑的是，如何在成本-效果之间得到一个可靠的平衡：花费要不算很大，而得到的结果又足够反映民意，这就是为什么要进行抽样调查。
既然要抽样，就会产生和总体的偏差：问1000人的意见，可能会无法代表13亿人的想法。我们要做的，就是在成本范围内，尽量缩小这个误差，这就需要用到科学的抽样方法。那哪些是科学的抽样方法呢？我们可以先排除掉不科学的抽样，其中有一些是我们日常读新闻时经常能看到的。比如，类似那个所谓“终身阿森纳球迷”（AFC4LIFE的意思是Arsenal FC For Life）网站的调查，就几乎可以肯定是在耍流氓。

为什么呢？我们可以顺着以下几个问题思考：浏览这个网站的人员构成，能代表阿森纳球迷的总体人员构成吗？什么人会去浏览这个网站？又是什么样的人会去按下这个投票按钮？也许你现在已经发现问题所在：浏览这个网站的人，不能代表阿森纳的全部，甚至都不是阿森纳球迷群体的一个科学抽样样本；总共有1010人参与了这个网站的调查，但正如我们之前说过的，如果抽样不科学，那10万人的样本都不能说明问题。
其实这结论可以推到所有网站调查中：网站调查，最多只能反映浏览该网站的人员的意见倾向，那些不浏览该网站、没看到这条调查的人、看到也不愿意参加调查的人、甚至根本不上网的人（比如老人，没电脑、智能手机的人），意见就完全被忽略了；网站调查反映了一部分人的意见，但不能推论到全部，非科学样本不能取代总体，用部分阿森纳球迷来代指所有阿森纳球迷是概念偷换。但《每日星报》如果说参与“AFC4LIFE”网站调查的人中，87%支持温格下课，它大概又会嫌标题啰嗦而不劲爆了。
就算浏览该网站的人，也不一定个个有这样强烈的表达欲望去按下这个投票按钮，因为毕竟你在投票上花费的时间再少，也是时间成本，所以结果会更偏向于那些有强烈意见需要表达的人（极端爱与恨），这就是社会统计学里所谓的“自我选择偏见”。比如一些汽车网站的调查，通常会畸高地反映有车人的观点，而不能反映普通大众的观点。可以说：网络调查，通常都是在耍流氓。
同样的不科学抽样，还有所谓的街头调查，因为这种调查可能夸张了人群中健康人的数量，忽略了那些在家里不能出门的病人或者正在工作不在街头的人。还有工作日的家访电话调查，可能会夸大老年人的意见（因为他们不用上班，留守家中），而忽略了年轻人的意见。杂志附送调查问卷也只能代表那些比较有闲、愿意回答的人的意见，忽略了那些不愿回答的读者的意见。以上种种，就是不科学抽样的民意调查，当参考并非不可，但如果拿来当科学证据则通通都是在耍流氓。

那么，科学的抽样方法又是什么呢？这包括简单随机抽样、等距抽样、分层抽样、多级抽样等。由于具体的讨论需要一定的高数知识，在这里就不为难文科生了。这里提供一个网站http://www.surveysystem.com/sscalc.htm，可以查一个科学抽样的样本所需人数：大致来说，如果要了解中国13亿人口的民意，在95%的置信水平下，正负误差3%的一个调查，只需要抽取1067人就可以了。
我们还是要先解释一下概念。所谓正负误差，就是得出的结果如果是48%，那真实的民意可能在45%-51%之间。比如，假设你明年在美国总统大选中看到希拉里的支持度是48%，杰布·布什的支持度为51%，而正负误差是3%，那科学来说这两人就是难分胜负，因为希拉里就是在45%-51%的区间，而杰布·布什在48%到54%之间，存在希拉里赢杰布·布什的可能性。
所谓置信水平（Confidence Level），就是总体参数值落在样本统计值某一区内的概率。你也许不需要理解这是什么意思，只要记住：通常来说，95%就已经足够了，更保守的置信水平可以提高到99%。13亿人，就算99%的置信水平，正负误差3%的一个调查，也只要抽取1849人就可以了。是不是比我们想像的要少很多？
是的，科学抽样就是这么酷炫。他可以用较少的抽样人数，大致准确（当然不可能绝对）地衡量较大总体的民意。那么，我们可不可以抽取更多的样本呢？比如，2500人？当然可以，但如果我们用成本收益比去考量的话，会发现这是非常不划算的事情：比起1000人的样本调查来，2500人样本的调查成本是2.5倍，但其带来的精度提高却实在少得可怜；实际上在样本人数达到500人以上后，增加的精度都不成正比了。盖洛普等美国专业调查机构，多年来对美国的民意调查抽样一直在1000人到1500人之间，而美国的人口目前估计在3.19亿左右。
看到这里你是不是想回去重读高数了？其实，不用担心，你可以掌握一个简单判断的拇指法则：任何不交待清楚抽样方法和误差范围的民意调查，都有极大可能是在耍流氓；而一个科学抽样的调查，通常都会交代正负误差范围和抽样方法，比如路透社、法新社等国际通讯社报道民意测验时，发稿规范里都明确规定这是要披露的背景。

在这里，我们可以简要介绍一下盖洛普公司曾用过的具体抽样操作手法：首先采用一种叫做RDD（随机数字拨号）的方式罗列出全美的电话号码（之所以不用电话号码本是因为30%的美国家庭电话未列入号码本）；然后用电脑根据随机选择程序在这些号码中抽样出1000到1500个号码，并开始拨打；如果第一次忙音或无人接听，系统会记住这个号码，在几个小时后再拨打；如果接听电话的家庭有几个成年人，系统会再采取随机方式从中选出一个受访者（如生日最靠近采访当天的人）……当然，在手机普及之后，科学抽样方法也要与时俱进。
除了抽样方法可能带来的结果误差之外，还有其它很多方面会影响抽样调查的结果精度。比如，调查员的采访技巧，有很大可能影响抽样的结果——碍于情面，人们通常不会当面驳斥一个调查员，也会尽量顺着调查员的偏见去回答问题，有经验的调查员会避免这些误差。
再比如，如何科学地设计问卷问题，是社会统计学里一门专门的学问。有时候答案的不同，完全取决于你问问题的方式、具体措辞、问题顺序甚至是一个标点符号。在这里我们讲一个古老的段子就可以了：两个神甫在讨论能否一边抽烟一边祈祷，然后决定去找自己的主教咨询；第二天神甫又会面了，一个说自己的主教不允许抽烟祈祷，另外一个说“奇怪了，我的主教怎么说没问题”；于是一个神甫问另外一个：“你是怎么问的？”另外一个说：“我问他：祈祷时能否抽烟？”头一个神甫就说：“我明白为什么我们的答案不同了，因为我问的是：抽烟时能否祈祷？”
就拿那个阿森纳调查来说，调查本身的问题“温格是否该离开阿森纳”没有太大瑕疵，问题在于在提问之前，这个博客的主人先长篇大论写了一串对球队成绩的失望，然后再进行投票，这其实已经是在对投票者的倾向进行强烈的心理暗示，这样出来的调查结果，还可信吗？
民意测验对于很多国人来说，是个不太熟悉的东西。所以一些别（真）有（的）用（无）心（知）的媒体或人，常常可以借助国人对数目字的崇拜，把一些非科学抽样的民意测验包装成“很科学”的样子。了解了本文所提供的科普知识，你至少在碰到这些民意测验新闻不会轻易被骗，而会高贵冷艳地问以下几个问题：抽样是否科学？误差率多少？所使用的问题是什么？

Akicha 发表于 2014-12-4 09:57:00

太长不看，只说一句话，任何不经推敲的统计数字都是无意义的
但是这跟什么国人无关，国外老百姓一样只看数字

oasis1990s 发表于 2014-12-4 10:14:00

啥民调都是耍流氓。。太好忽悠了

加勒比小三 发表于 2014-12-4 10:16:00

新闻都是希望有噱头，才有人卖单。不过，如果以发行量来说明报纸的严谨性吗，我就呵呵了，我国发行量最大的日人民报、收视率最高的新闻联播。。。。

冬季转会窗 发表于 2014-12-4 10:29:00

社会研究方法。。。。

杰克在路上 发表于 2014-12-4 10:37:00

引用4楼 @加勒比小三发表的:
新闻都是希望有噱头，才有人卖单。不过，如果以发行量来说明报纸的严谨性吗，我就呵呵了，我国发行量最大的日人民报、收视率最高的新闻联播。。。。

坦白讲，就现在的国内新闻环境来讲，新闻联播还真是最严谨的。只不过有的事情它不说罢了

qsllxfx 发表于 2014-12-4 11:23:00

反正帝都的公共交通调价或者什么考虑实施单双号来治理雾霾的调查，都是在耍流氓。

silverlining 发表于 2014-12-4 11:46:00

科普了一下民调方法，挺不错的文章

GunnerTiti 发表于 2014-12-4 12:47:00

就像此论坛，赚流量呗

michaelrong 发表于 2014-12-4 12:49:00

作为一个外行看文章内容不错，不过观点“任何xxx都是xxx”这种说法本身是否已经是以偏概全有失科学严谨了呢？

oneroof 发表于 2014-12-4 13:11:00

小报编新闻还需要调查？太高估外国同行了吧？那么多传阿森纳和曝阿森纳怎么来的，当然是编的。新来的叫小编，资格老了叫老编，编得好了可以做总编，就酱紫。

红白公子 发表于 2014-12-4 13:38:00

引用4楼 @加勒比小三发表的:
新闻都是希望有噱头，才有人卖单。不过，如果以发行量来说明报纸的严谨性吗，我就呵呵了，我国发行量最大的日人民报、收视率最高的新闻联播。。。。

作为媒体人，哥可以很负责地告诉你，人民日报和新闻联播虽然倾向性明显，但绝对是严谨的…………

大帝雄薪 发表于 2014-12-4 16:14:00

是数理统计不是高数…
不过克韩的态度真的值得肯定，作为公众人物针对媒体存在的问题发起讨论是有必要的，否则会有很多人未经思考就盲从。

tabutabuga 发表于 2014-12-4 16:33:00

上期英超詹观里，阿森纳对西布朗赛前有个采访枪迷的短剪辑，有对温格难处表示理解的，有认为现在根本没有合适继承者的，大部分人都很理智。
我觉得这事情只要冷静下来，最简单的抉择想法，就是有没有合适继承人，个人认为关于换帅这事情，枪迷还是啥都别多想了。
前段时间输球特难受，这三场连胜，每天早上起来心里都美滋滋的，嘿嘿。

Robbin1024 发表于 2014-12-4 16:36:00

“有事情不说”vs“严谨的新闻节目”，“倾向性明显”vs“绝对严谨的”，被常年累月的“圆的方”式对立统一大法弄扭曲的你国特色表达式。

页: [1]

天下足球网's Archiver

[转帖]克韩：任何非科学的民调都是耍流氓