您的当前位置:鞭虫病 > 相关医院 > 有效统计实践的十项简明原则
有效统计实践的十项简明原则
本文来自统计之都(ID:CapStat),
科研圈获授权转载。
作者
RobertE.Kass(卡耐基梅隆大学统计系、机器学习系、认知神经基础中心)
BrianS.Caffo(约翰霍普金斯大学生物统计系、布隆伯格公共卫生学院)
MarieDavidian(北卡罗莱纳州立大学统计系)
XiaoliMeng孟晓犁(哈佛大学统计系)
BinYu郁彬(加州大学伯克利分校统计系、电子工程与计算机科学系)
NancyReid(多伦多大学统计科学系)
翻译
吕翔(XiangLv)
审稿
施涛(TaoShi)谢益辉(YihuiXie)
编辑
闫晗(HanYan)吕翔(XiangLv)
引言
数月前,广受好评的“十项简则”系列(“TenSimpleRules”series)的创始人和长期作者PhilBourne建议一些统计学家写一篇关于统计学“十项简则“的文章。(既然如何写好PLOS“十项简则”文章的原则之一就是请PhilBourne加入作者群[6],我们希望在这对Phil的热情赞美也能达到足够的效果。)
在如何写“十项简则”的指导方针[6]里暗含了一条原则:了解你的读者。因此,我们罗列在本文的这些原则,主要是针对符合这些条件的研究者:具有一定统计知识,并且有可能得到周围统计学家的帮助,或者有亲力亲为的态度并在电脑里已经安装了一些统计软件。本文提及的原则是我们从合作研究与教学经验,以及不止一次的令人沮丧的求助——“麻烦看一下我学生的毕业论文/我的基金申请/审稿人的意见:这需要再加点统计内容,但还要看上去简洁明了”——中总结出来的。
读者也可以找到一些更细致地解释本文观点的优秀文章:比如我们最欣赏的[4],[12],[15],[11],[17]和[21]。
统计学的每一篇文章一般都有一个防止被误解的声明。我们声明是:在本文中,“科学”一词代表了那些通过数据来解决感兴趣的问题的研究,这其中还包括了社会科学、工程学、数字化人文学科、金融等领域。当然统计学家也不会羞于提醒管理者统计科学对任何机构的几乎所有活动都有影响的事实。
原则1:统计方法应使得数据能够解决科学问题初级统计使用者和统计专家之间的巨大差别在他们思考如何利用手头的数据时就显露出来。尽管实验数据显然是为了解决科学问题而收集的,初级使用者往往潜意识里就已经默认数据和所研究的科学问题之间存在联系,然后直接考虑该用哪种方法对数据进行操作,而不是思考研究目标。例如,给定一张基因表达数据的表格,初级使用者往往会问“我该用什么方法去检验?”并寻找相应方法,而一个经验丰富的研究员则会先思考“表达有差异的基因是哪些?”,接着再思考能用数据解决研究问题的各种统计方法。
某个正式的统计检验可能非常有用,但是一些其他的方法也可以作为备选,例如热图或者聚类技术。与之类似,在神经影像学中,在不同的实验条件下理解大脑活动是首要目标,用好看的图像来展示这些活动则是次要目标。这种从统计方法到科学问题的观念转变会重塑一个人数据收集和分析的方式。在充分了解这些问题后,统计专家会和他们的合作者讨论数据如何能解决问题以及哪种方法是最有效的。与此同时,他们会确认各种变异性(variablility)的来源和哪些未考虑的情况会打破数据和统计推断之间联系的假设。在完成这些之后,他们才试着建立分析目标和策略。这就是为何与统计学家合作会对研究非常有帮助,以及越早合作,效果就越好的原因。详情请参考原则2。
原则2:信号与噪音共存刻画变异性是统计学的重要课题之一。变异性以各种形式存在。在某些情况下,变异性是有用的,因为我们需要预测变量由变异性带来的差异来解释结果中的差异。例如,当研究吸烟和肺癌是否相关时,我们需要吸烟习惯的差异;寻找和某种疾病相关的基因时,我们需要基因具有差异。但是在其他时候,变异性可能会让人非常头疼,比如当我们三次测量同一物体却取得三种不同数值时。这种变异性往往被叫做“噪音”,因为它既不能被解释也被认为与研究无关。统计分析的目标就是在存在噪音和无关的变异性的情况下,评估数据中的信号以及研究者感兴趣的变异性。
许多统计分析流程的起点就是进行数学上的抽象处理:统计一般采用概率分布来描述结果在被研究个体的集合内的差异,例如病人被诊断是否患有某种疾病或者诊断检验的得分。于是,数据直方图在理论分析时就会被概率分布代替,从而将研究的注意力从原始数据转到几个决定概率分布特点的数值参数上,例如分布形状、范围或者中心位置。概率分布被用于统计模型中,并通过模型来解释信号和噪音如何相互结合而产生我们观测到的或者想要观测到的数据。这一基本步骤使得统计推断变得可行。如果没有这一步的话,每一个数据取值都会被认为是独一无二的,从而使得我们忙于弄清楚所有可能导致仪器在多次相同测量时读数不同的具体工序。用概率分布来将统计模型中的信号和噪音进行概念化抽象被证明是一种非常有效的简化,这使我们能够抓住数据中的变异性并准确描述我们对感兴趣变量的变异性。这个步骤也能指引我们寻找可能的系统误差,例如偏差的来源。
大数据使得这些问题变得更加重要。一个很好的例子是谷歌流感趋势(GoogleFluTrends)在年初次登场时引起很大的轰动,但最后却高估了近50%的流感流行程度。这主要是由数据收集过程中产生的偏差导致的,具体请参考[10]。
原则:提前计划,越早越好当数据收集将花费大量精力时,统计议题往往不能被简单地概括为某个单独的问题,比如“样本量n该取多大?”。就像原则1中所说,那些拥有丰富统计分析经验的人不会只白癜风该如何治疗北京什么时候治疗白癜风好