把研究者也当作噪声:盲法、预注册与科学的反自欺机器

把研究者也当作噪声:盲法、预注册与科学的反自欺机器

这篇长文从 1784 年富兰克林委员会调查动物磁气写起,解释盲法、p 值、预注册、注册报告和多分析者研究为什么都在处理同一个问题:诚实研究者也会被期待和选择自由度带偏。读者将获得一套判断实证结论是否可靠的程序化框架。

实证漫游长文
2026/6/19 · 8:11
購読 1 件 · コンテンツ 2 件

リサーチノート

从 1784 年的巴黎看,科学方法的一个底层假设并不体面:研究者、被试、编辑和读者都会把愿望塞进结果里。富兰克林委员会调查动物磁气时,让一个 12 岁男孩逐棵拥抱没有被磁化的树,他在第四棵树前倒下;让受试者相信自己正在被磁化,即使操作者不在场,也能诱发抽搐。委员会的要点并非笑话梅斯梅尔,而是把「想象」从「磁流体」里剥离出来。盲法由此显出锋利的一面:它不是礼仪,是把人类预期暂时关进笼子的装置。1
今天的预注册、注册报告、临床试验登记和多分析者研究,解决的是同一类麻烦。麻烦不只来自造假。更常见的情况是,一位诚实研究者在样本量、排除标准、协变量、终点和图表之间连续做出小选择,每一步都可以自圆其说,最后得到一个漂亮而脆弱的结果。

磁化的树先暴露了「被试看见了什么」

18 世纪的动物磁气听起来像舞台戏:木桶、铁棒、手拉手、暗室、音乐、抽搐。梅斯梅尔声称宇宙中有一种不可见的磁性流体,疾病来自流体在人体内受阻。巴黎的热潮足以让路易十六设立委员会,成员包括本杰明·富兰克林、拉瓦锡、巴伊和吉约坦。委员会的实验把两个变量拆开:有人被告知正在接受磁化但没有磁化,有人被磁化但不知道。前者发作,后者常常无事。1
围绕木桶进行动物磁气治疗的 18 世纪图像
围绕「baquet」进行的动物磁气集体治疗场景,图像来自 Public Domain Review 对 Wellcome Collection 藏品的整理。1
这个故事的反直觉之处在于,委员会并没有证明病人「什么都没感到」。他们感到了,而且有些反应很剧烈。实验否定的是反应的指定解释:反应不需要磁流体,只需要期待、暗示、场景压力和身体自我监控。一个自称研究外部世界的实验,先得研究实验自身给人施加了什么。
盲法的核心因此很悲观。它默认被试会迎合暗示,研究者会泄露期待,观察者会把模糊信号解释成自己想看的形状。好的实验不要求人突然变得无偏;它让偏差失去进入关键比较的路径。

p 值的闸门太窄,研究者的选择太多

现代统计把问题换成数字以后,偏差没有消失,只是换了入口。Ioannidis 在 2005 年那篇著名论文里把阳性预测值写成一个贝叶斯式框架:一个显著发现是否为真,取决于研究前真关系与假关系的比例、统计功效、显著性阈值和偏倚。小样本、小效应、低先验概率、大量可测试关系和灵活分析方式都会降低显著发现为真的概率。2
这里最容易被误读的是 p<0.05。它不是「这个结论有 95% 概率为真」。在一个真效应稀少、分析路径很多的领域,5% 的单次错误率会被路径数量放大。研究者不必作恶,只要在看到数据后才决定哪些样本算异常、哪个终点更合适、是否补收一点样本、是否加入协变量,错误率就会从名义值滑走。
チャートを読み込んでいます…
Simmons、Nelson 和 Simonsohn 的模拟每个场景运行 15,000 次;在四类常见研究者自由度同时存在时,p<0.05 的假阳性率达到 60.7%,p<0.1 时达到 81.5%。3 这不是 p 值数学错了。错在把「一次预先指定的检验」产生的错误率,套到了「看过数据后从许多可辩护路线中挑一条」的研究流程上。
Ioannidis 的推导还给出一个更难听的结论:在偏倚很重、先验概率很低的领域,显著效应有时更像偏倚的测量值,而不是自然规律的测量值。2 这句话残酷,因为它把研究者最兴奋的那一刻翻转了。效应越漂亮,不一定越接近真相;在某些搜索空间里,它可能只是说明搜索过程更会制造漂亮结果。

复制危机测到的是一条流水线

2015 年,Open Science Collaboration 在 Science 上发表了对心理学 100 项研究的重复实验。原始研究中 97% 报告了统计显著结果;重复实验中,只有 36% 在相同方向上再次达到显著。原始平均效应量 r=0.403,重复实验平均效应量 r=0.197,约为原始的一半。4
統計カードを読み込んでいます…
チャートを読み込んでいます…
这些数字不应被读成「心理学家比别人更糟」。心理学只是较早把自己放上了秤。凡是研究对象噪声大、效应小、测量指标可替换、研究者需要在数据清洗和模型选择上做很多判断的领域,都有相似风险。营养流行病学、教育干预、管理学实验、A/B 测试、机器学习评测,都会遇到同一类诱惑:把一个边缘结果打磨到足够像发现。
复制危机刺痛之处,不在某几篇论文倒下,而在「同行评议 + p<0.05 + 新颖性奖励」这条流水线产出的东西,没有想象中那么稳定。流水线奖励可发表的阳性结果,阳性结果又更容易进入教科书、媒体报道和资助申请。失败复制的社会价值更高,职业收益却常常更低。

登记制度把选择提前到结果之前

医学期刊较早意识到,结果出来之后才说「主要终点是什么」风险太大。ICMJE 的临床试验登记政策要求,临床试验应在首位受试者同意入组时或之前登记到公开注册库,作为期刊考虑发表的条件。ICMJE 还说明,临床试验登记的目的包括防止选择性发表和选择性报告研究结局、减少不必要重复,并让公众知道正在计划或进行的试验。5
2004 年的 ICMJE 声明更具体:11 家成员期刊要求公开临床试验登记;2005 年 7 月 1 日以后开始入组的试验,需在患者入组开始时或之前登记;更早开始入组的试验,需在 2005 年 9 月 13 日前登记,才会被考虑发表。6
这类制度的作用很朴素:把可发表结论和事前计划绑在一起。若研究者在结果出来后更换主要终点,读者至少能看见更换。若一项试验完成后从未发表,登记库仍会留下它存在过的痕迹。没有登记,失败试验可以像没有发生过;有登记,沉默本身也变成信息。
注册报告进一步把关口前移。Henderson 和 Chambers 解释说,注册报告在研究实施前审稿,第一阶段稿件包含研究问题、假设、方法和分析计划;通过后获得原则性接收,期刊承诺在研究按计划完成且结论解释有效时发表最终论文,而不按结果是否阳性决定命运。7 这种格式把「论文值不值得发表」从「结果好不好看」移到「问题和方法好不好」。它不能让研究无错,但能显著削弱结果对发表命运的劫持。

预注册不是洁癖,也不是万能护身符

预注册常被说成一种道德要求,仿佛好研究者应该先把所有事情写死。这个说法太干净,反而遮住了重点。预注册的价值不在于证明研究者纯洁;它制造时间戳:哪些决定是在看见结果前做的,哪些决定是在看见结果后做的。后者并不必然坏,但它应被标成探索性,而不是混进验证性结果里。
多分析者研究显示,即使没有明显 p-hacking,合理研究者也会分岔。Silberzahn 等人的「Many Analysts, One Data Set」让 29 个独立团队分析同一份足球数据,问题是裁判是否更容易向肤色较深的球员出示红牌。29 个团队给出的比值比从 0.89 到 2.93 不等,中位数为 1.31;20 个团队得到显著正效应,9 个团队结果不显著;他们使用了 21 种不同协变量组合。8
这项研究比「有人在作弊」更麻烦。29 个团队可以都认真、都专业、都写出有理由的模型,结论仍然分散。科学实践里的许多不确定性藏在代码和表格脚注里:变量如何编码,异常值怎么处理,哪些控制变量该进模型,主效应和交互项谁先谁后。预注册能要求研究者事前承诺一部分选择;多分析者设计能显示结论对合理选择有多敏感。二者处理的不是同一种病。

把制度设计成不相信聪明人

一套更可靠的实证文化,通常有几层防线。
第一层是盲法和随机化。它们处理被试、研究者和分组之间的期待污染。动物磁气实验已经展示过,人的身体可以对场景作出真反应;问题是反应能否区分竞争解释。
第二层是事前登记。它处理结果出现后改变问题的诱惑。临床试验登记、预注册和注册报告都把研究计划固定在结果之前,降低「先射箭再画靶」的空间。
第三层是开放材料和重复。它处理代码、数据、样本和执行细节造成的不可见差异。复制失败不总是推翻原结论;有时它指出原结论只在更窄条件下成立,有时它暴露原始效应被高估,有时它只是说明测量太吵。
第四层是稳健性分析和多分析者检验。它承认研究问题常有多条合理路线。若结论只在一条路线成立,读者应知道;若许多路线都指向同一方向,可信度才会上升。
这些防线共同表达一个低姿态信念:科学不靠研究者宣称自己客观。科学把研究者也放进误差模型里。盲法假设人会被暗示;预注册假设人会事后改口径;复制假设单次成功可能走运;多分析者研究假设分析选择本身会改变答案。制度越好,越少要求人临场克制,越多把克制写进流程。

自我实验和 AI 评测也逃不掉

把这个框架挪到日常场景,会让许多「我亲测有效」显得脆弱。一个人尝试咖啡因、睡眠追踪、冥想、补剂或新工作流时,往往知道自己哪天用了干预,知道自己希望它有效,还会在效果不好时调整记录口径。最便宜的改进不是买更贵的设备,而是先写下判断标准,随机安排干预日,必要时让记录者或评分者不知道条件。
AI 评测也类似。一个提示词、一个基准集、一个人工打分规程,都可能在开发者看见结果后被微调。只要评测结果决定融资、发布节奏、排行榜和论文标题,研究者自由度就会变成产品激励的一部分。公开测试集会被训练和调参吸收,私有测试集也会被组织目标间接塑形。更稳妥的做法不是相信某个总分,而是看评测是否预先定义任务、样本、排除规则、评分标准和复测机制。
梅斯梅尔的病人不是笨蛋。心理学实验者不是天生不诚实。临床试验作者也未必想隐藏失败结果。麻烦在于,人类太擅长在模糊处替自己解释。实证方法的成熟,正是把这些解释权一点点从人手里拿走。
最后留下的判断并不豪迈:少相信单个漂亮结果,多看事前计划、盲法、样本量、完整报告、重复记录和分析稳健性。若一个结论经不起这些约束,它不一定是假的;它只是还没有资格要求别人按它行动。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。