谈方韩之争中引发的统计推断问题

方舟子质疑韩寒有代笔主要基于文本分析,发现韩寒少年时创作的“天才”作品不仅文笔老到、引经据典、有中年人经历的特殊的时代烙印,而且和后来韩寒(以及他父亲)关于创作过程的说法存在许多矛盾,对这些矛盾韩寒缺乏合理的解释。有网友试图比较词频找出韩寒和他父亲的文章间超出和其他文学作品的相似性,从而“科学”地研究如何寻找代笔嫌疑人,其用到的统计和聚类方法被破破的桥指出存在严重缺陷。破破的桥进而认为,方舟子和其他质疑韩寒的人所列举的疑点只能算韩寒有代笔的弱证据或忽悠,即使出现再多的弱证据,也不足以“断定”韩寒有代笔,所以想确定《书店》或《求医》并非韩寒所写基本没有可能(原文)

此文一出,立刻被虚逐子反驳,认为即使单个疑点的代笔推断可能只是弱证据或忽悠,只要疑点足够多而它们间又在统计上条件独立,那么汇总起来也足以使得代笔指控的证据链足够强大(原文)。接下来“被打飞”登场指出,如果这些疑点是从大量韩寒的文本中精心挑选出来的,那么机遇条件独立假设的计算就不能成立,而这常常被用来作为阴谋论的统计基础忽悠外行(原文)

我个人认为,方舟子想说的是韩寒不是所有署名韩寒作品的原创作者,具体什么人帮他出谋划策润色修改,并不需要质疑方出示强证据,甚至若证据也不需要。而虚逐子从统计推断的角度解释了,即使单个疑点的似然比很弱——比如P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|有代笔)/P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)在有些人看来也许只有不到2,你要非说超过10我也没法反驳——可所有疑点叠加起来如果用似然比相乘就很可观了。不论先验概率P(没代笔)多大,只要先验概率P(有代笔)大于零,其后验概率就不能忽视。要是大量弱证据是从韩寒所有作品里精心挑选的疑点是否会改变似然比的计算呢?我认为,如果条件独立的假定成立,那么证据的来源并不改变统计推断的计算。问题是条件独立的假设不好验证,如果全部质疑都来自方舟子,那么疑点间条件独立就有点可疑,如果分别来自多个阅读韩寒作品有文学鉴赏能力而无与方韩厉害冲突的网友,那么疑点间条件独立的假设就可信一些。我看了张非常对部分疑点的归纳,觉得其中至少一半疑点的似然比超过2,套用《非常了得》里姜振羽老师的话,非让我判断的话“有代笔”的推断偏真)。对我来说,不论韩寒如何反击,P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|有代笔)接近1基本不会变。如果韩寒一直讲真话有诚信,而他也能合理地说明自己装老成、写没有经历过的事情有其创作基础,P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)可能由0.4变到0.9。问题是方舟子给出了韩寒说话前后矛盾的许多证据,而且引自韩寒(还有他父亲)发表的公开作品和访谈视频,所以这也就几乎堵住了我提升P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)的依据。以前《新语丝》讨论天气预报的概率计算时,我曾写道,“对靠直觉草率判断的人来说,还是要记住:写清所有假设然后再开始做推断”。我不知道所谓“样本总体很大”的假定在方韩之争中如何描述清晰,但我相信似然比的计算不需要所谓古典概率在频率意义下的解释。

Leave a comment