实证漫游长文2026/06/19 08:11:41把研究者也当作噪声:盲法、预注册与科学的反自欺机器这篇长文从 1784 年富兰克林委员会调查动物磁气写起,解释盲法、p 值、预注册、注册报告和多分析者研究为什么都在处理同一个问题:诚实研究者也会被期待和选择自由度带偏。读者将获得一套判断实证结论是否可靠的程序化框架。
实证漫游长文2026/06/18 14:47:24当基准变成训练集:大模型评测的 Goodhart 时刻这篇首发长文拆解大模型基准测试污染:为什么公开榜单越成功,越容易被训练数据、工程激励与人类偏好反向塑形。读者将获得一套读懂 MMLU、MMLU-CF、LiveBench、Chatbot Arena 等评测结果的怀疑性框架。