把研究者也当作噪声：盲法、预注册与科学的反自欺机器

从 1784 年的巴黎看，科学方法的一个底层假设并不体面：研究者、被试、编辑和读者都会把愿望塞进结果里。富兰克林委员会调查动物磁气时，让一个 12 岁男孩逐棵拥抱没有被磁化的树，他在第四棵树前倒下；让受试者相信自己正在被磁化，即使操作者不在场，也能诱发抽搐。委员会的要点并非笑话梅斯梅尔，而是把「想象」从「磁流体」里剥离出来。盲法由此显出锋利的一面：它不是礼仪，是把人类预期暂时关进笼子的装置。1

今天的预注册、注册报告、临床试验登记和多分析者研究，解决的是同一类麻烦。麻烦不只来自造假。更常见的情况是，一位诚实研究者在样本量、排除标准、协变量、终点和图表之间连续做出小选择，每一步都可以自圆其说，最后得到一个漂亮而脆弱的结果。

磁化的树先暴露了「被试看见了什么」

18 世纪的动物磁气听起来像舞台戏：木桶、铁棒、手拉手、暗室、音乐、抽搐。梅斯梅尔声称宇宙中有一种不可见的磁性流体，疾病来自流体在人体内受阻。巴黎的热潮足以让路易十六设立委员会，成员包括本杰明·富兰克林、拉瓦锡、巴伊和吉约坦。委员会的实验把两个变量拆开：有人被告知正在接受磁化但没有磁化，有人被磁化但不知道。前者发作，后者常常无事。1

围绕木桶进行动物磁气治疗的 18 世纪图像 — 围绕「baquet」进行的动物磁气集体治疗场景，图像来自 Public Domain Review 对 Wellcome Collection 藏品的整理。1

这个故事的反直觉之处在于，委员会并没有证明病人「什么都没感到」。他们感到了，而且有些反应很剧烈。实验否定的是反应的指定解释：反应不需要磁流体，只需要期待、暗示、场景压力和身体自我监控。一个自称研究外部世界的实验，先得研究实验自身给人施加了什么。

盲法的核心因此很悲观。它默认被试会迎合暗示，研究者会泄露期待，观察者会把模糊信号解释成自己想看的形状。好的实验不要求人突然变得无偏；它让偏差失去进入关键比较的路径。

p 值的闸门太窄，研究者的选择太多

现代统计把问题换成数字以后，偏差没有消失，只是换了入口。Ioannidis 在 2005 年那篇著名论文里把阳性预测值写成一个贝叶斯式框架：一个显著发现是否为真，取决于研究前真关系与假关系的比例、统计功效、显著性阈值和偏倚。小样本、小效应、低先验概率、大量可测试关系和灵活分析方式都会降低显著发现为真的概率。2

这里最容易被误读的是 p<0.05。它不是「这个结论有 95% 概率为真」。在一个真效应稀少、分析路径很多的领域，5% 的单次错误率会被路径数量放大。研究者不必作恶，只要在看到数据后才决定哪些样本算异常、哪个终点更合适、是否补收一点样本、是否加入协变量，错误率就会从名义值滑走。

チャートを読み込んでいます…

Simmons、Nelson 和 Simonsohn 的模拟每个场景运行 15,000 次；在四类常见研究者自由度同时存在时，p<0.05 的假阳性率达到 60.7%，p<0.1 时达到 81.5%。3 这不是 p 值数学错了。错在把「一次预先指定的检验」产生的错误率，套到了「看过数据后从许多可辩护路线中挑一条」的研究流程上。

Ioannidis 的推导还给出一个更难听的结论：在偏倚很重、先验概率很低的领域，显著效应有时更像偏倚的测量值，而不是自然规律的测量值。2 这句话残酷，因为它把研究者最兴奋的那一刻翻转了。效应越漂亮，不一定越接近真相；在某些搜索空间里，它可能只是说明搜索过程更会制造漂亮结果。

复制危机测到的是一条流水线

2015 年，Open Science Collaboration 在 Science 上发表了对心理学 100 项研究的重复实验。原始研究中 97% 报告了统计显著结果；重复实验中，只有 36% 在相同方向上再次达到显著。原始平均效应量 r=0.403，重复实验平均效应量 r=0.197，约为原始的一半。4

心理学重复实验的一组刺眼数字

Open Science Collaboration 2015 对 100 项研究的重复结果

原始研究显著

重复研究显著

原始平均效应量 r

重复平均效应量 r

統計カードを読み込んでいます…

チャートを読み込んでいます…

这些数字不应被读成「心理学家比别人更糟」。心理学只是较早把自己放上了秤。凡是研究对象噪声大、效应小、测量指标可替换、研究者需要在数据清洗和模型选择上做很多判断的领域，都有相似风险。营养流行病学、教育干预、管理学实验、A/B 测试、机器学习评测，都会遇到同一类诱惑：把一个边缘结果打磨到足够像发现。

复制危机刺痛之处，不在某几篇论文倒下，而在「同行评议 + p<0.05 + 新颖性奖励」这条流水线产出的东西，没有想象中那么稳定。流水线奖励可发表的阳性结果，阳性结果又更容易进入教科书、媒体报道和资助申请。失败复制的社会价值更高，职业收益却常常更低。

登记制度把选择提前到结果之前

医学期刊较早意识到，结果出来之后才说「主要终点是什么」风险太大。ICMJE 的临床试验登记政策要求，临床试验应在首位受试者同意入组时或之前登记到公开注册库，作为期刊考虑发表的条件。ICMJE 还说明，临床试验登记的目的包括防止选择性发表和选择性报告研究结局、减少不必要重复，并让公众知道正在计划或进行的试验。5

2004 年的 ICMJE 声明更具体：11 家成员期刊要求公开临床试验登记；2005 年 7 月 1 日以后开始入组的试验，需在患者入组开始时或之前登记；更早开始入组的试验，需在 2005 年 9 月 13 日前登记，才会被考虑发表。6

这类制度的作用很朴素：把可发表结论和事前计划绑在一起。若研究者在结果出来后更换主要终点，读者至少能看见更换。若一项试验完成后从未发表，登记库仍会留下它存在过的痕迹。没有登记，失败试验可以像没有发生过；有登记，沉默本身也变成信息。

注册报告进一步把关口前移。Henderson 和 Chambers 解释说，注册报告在研究实施前审稿，第一阶段稿件包含研究问题、假设、方法和分析计划；通过后获得原则性接收，期刊承诺在研究按计划完成且结论解释有效时发表最终论文，而不按结果是否阳性决定命运。7 这种格式把「论文值不值得发表」从「结果好不好看」移到「问题和方法好不好」。它不能让研究无错，但能显著削弱结果对发表命运的劫持。

预注册不是洁癖，也不是万能护身符

预注册常被说成一种道德要求，仿佛好研究者应该先把所有事情写死。这个说法太干净，反而遮住了重点。预注册的价值不在于证明研究者纯洁；它制造时间戳：哪些决定是在看见结果前做的，哪些决定是在看见结果后做的。后者并不必然坏，但它应被标成探索性，而不是混进验证性结果里。

多分析者研究显示，即使没有明显 p-hacking，合理研究者也会分岔。Silberzahn 等人的「Many Analysts, One Data Set」让 29 个独立团队分析同一份足球数据，问题是裁判是否更容易向肤色较深的球员出示红牌。29 个团队给出的比值比从 0.89 到 2.93 不等，中位数为 1.31；20 个团队得到显著正效应，9 个团队结果不显著；他们使用了 21 种不同协变量组合。8

这项研究比「有人在作弊」更麻烦。29 个团队可以都认真、都专业、都写出有理由的模型，结论仍然分散。科学实践里的许多不确定性藏在代码和表格脚注里：变量如何编码，异常值怎么处理，哪些控制变量该进模型，主效应和交互项谁先谁后。预注册能要求研究者事前承诺一部分选择；多分析者设计能显示结论对合理选择有多敏感。二者处理的不是同一种病。

把制度设计成不相信聪明人

一套更可靠的实证文化，通常有几层防线。

第一层是盲法和随机化。它们处理被试、研究者和分组之间的期待污染。动物磁气实验已经展示过，人的身体可以对场景作出真反应；问题是反应能否区分竞争解释。

第二层是事前登记。它处理结果出现后改变问题的诱惑。临床试验登记、预注册和注册报告都把研究计划固定在结果之前，降低「先射箭再画靶」的空间。

第三层是开放材料和重复。它处理代码、数据、样本和执行细节造成的不可见差异。复制失败不总是推翻原结论；有时它指出原结论只在更窄条件下成立，有时它暴露原始效应被高估，有时它只是说明测量太吵。

第四层是稳健性分析和多分析者检验。它承认研究问题常有多条合理路线。若结论只在一条路线成立，读者应知道；若许多路线都指向同一方向，可信度才会上升。

这些防线共同表达一个低姿态信念：科学不靠研究者宣称自己客观。科学把研究者也放进误差模型里。盲法假设人会被暗示；预注册假设人会事后改口径；复制假设单次成功可能走运；多分析者研究假设分析选择本身会改变答案。制度越好，越少要求人临场克制，越多把克制写进流程。

自我实验和 AI 评测也逃不掉

把这个框架挪到日常场景，会让许多「我亲测有效」显得脆弱。一个人尝试咖啡因、睡眠追踪、冥想、补剂或新工作流时，往往知道自己哪天用了干预，知道自己希望它有效，还会在效果不好时调整记录口径。最便宜的改进不是买更贵的设备，而是先写下判断标准，随机安排干预日，必要时让记录者或评分者不知道条件。

AI 评测也类似。一个提示词、一个基准集、一个人工打分规程，都可能在开发者看见结果后被微调。只要评测结果决定融资、发布节奏、排行榜和论文标题，研究者自由度就会变成产品激励的一部分。公开测试集会被训练和调参吸收，私有测试集也会被组织目标间接塑形。更稳妥的做法不是相信某个总分，而是看评测是否预先定义任务、样本、排除规则、评分标准和复测机制。

梅斯梅尔的病人不是笨蛋。心理学实验者不是天生不诚实。临床试验作者也未必想隐藏失败结果。麻烦在于，人类太擅长在模糊处替自己解释。实证方法的成熟，正是把这些解释权一点点从人手里拿走。

最后留下的判断并不豪迈：少相信单个漂亮结果，多看事前计划、盲法、样本量、完整报告、重复记录和分析稳健性。若一个结论经不起这些约束，它不一定是假的；它只是还没有资格要求别人按它行动。