-
Recent Posts
Recent Comments
Skysurfer on 我所知道的赵南元教授 Leo Huang on 我所看过的最酷的小说开头 ZHAOCHW on 我所知道的赵南元教授 李洪圖 on PHM’10 Data Challenge Huimin Chen on 开源与创新——有关Ninesigma的运作模式 Archives
- July 2023
- March 2022
- January 2021
- February 2020
- June 2014
- May 2014
- January 2014
- August 2013
- July 2013
- June 2013
- May 2013
- April 2013
- March 2013
- February 2013
- January 2013
- December 2012
- November 2012
- October 2012
- September 2012
- July 2012
- June 2012
- May 2012
- April 2012
- March 2012
- February 2012
- January 2012
- December 2011
- November 2011
- October 2011
- September 2011
- August 2011
- July 2011
- June 2011
- May 2011
- April 2011
- March 2011
- February 2011
- January 2011
- December 2010
- November 2010
- October 2010
- September 2010
- August 2010
- July 2010
- June 2010
- May 2010
- April 2010
- March 2010
- February 2010
- January 2010
- December 2009
- November 2009
- October 2009
- September 2009
- August 2009
- July 2009
- June 2009
- May 2009
- April 2009
- March 2009
- February 2009
- January 2009
- December 2008
- November 2008
- October 2008
- September 2008
- August 2008
- July 2008
- June 2008
- May 2008
- April 2008
- March 2008
- February 2008
- January 2008
- December 2007
- November 2007
- October 2007
- September 2007
- August 2007
- July 2007
- June 2007
- May 2007
- April 2007
- March 2007
- February 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
- December 2005
Categories
Meta
Monthly Archives: February 2012
谈方韩之争中引发的统计推断问题
方舟子质疑韩寒有代笔主要基于文本分析,发现韩寒少年时创作的“天才”作品不仅文笔老到、引经据典、有中年人经历的特殊的时代烙印,而且和后来韩寒(以及他父亲)关于创作过程的说法存在许多矛盾,对这些矛盾韩寒缺乏合理的解释。有网友试图比较词频找出韩寒和他父亲的文章间超出和其他文学作品的相似性,从而“科学”地研究如何寻找代笔嫌疑人,其用到的统计和聚类方法被破破的桥指出存在严重缺陷。破破的桥进而认为,方舟子和其他质疑韩寒的人所列举的疑点只能算韩寒有代笔的弱证据或忽悠,即使出现再多的弱证据,也不足以“断定”韩寒有代笔,所以想确定《书店》或《求医》并非韩寒所写基本没有可能(原文)。 此文一出,立刻被虚逐子反驳,认为即使单个疑点的代笔推断可能只是弱证据或忽悠,只要疑点足够多而它们间又在统计上条件独立,那么汇总起来也足以使得代笔指控的证据链足够强大(原文)。接下来“被打飞”登场指出,如果这些疑点是从大量韩寒的文本中精心挑选出来的,那么基于条件独立假设的计算就不能成立,而这常常被用来作为阴谋论的统计基础忽悠外行(原文)。 我个人认为,方舟子想说的是韩寒不是所有署名韩寒作品的原创作者,具体什么人帮他出谋划策润色修改,并不需要质疑方出示强证据,甚至弱证据也不需要。而虚逐子从统计推断的角度解释了,即使单个疑点的似然比很弱——比如P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|有代笔)/P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)在有些人看来也许只有不到2,你要非说超过10我也没法反驳——可所有疑点叠加起来如果用似然比相乘就很可观了。不论先验概率P(没代笔)多大,只要先验概率P(有代笔)大于零,其后验概率就不能忽视。要是大量弱证据是从韩寒所有作品里精心挑选的疑点是否会改变似然比的计算呢?我认为,如果条件独立的假定成立,那么证据的来源并不改变统计推断的计算。问题是条件独立的假设不好验证,如果全部质疑都来自方舟子,那么疑点间条件独立就有点可疑,如果分别来自多个阅读韩寒作品有文学鉴赏能力而无与方韩厉害冲突的网友,那么疑点间条件独立的假设就可信一些。我看了张非常对部分疑点的归纳,觉得其中至少一半疑点的似然比超过2,套用《非常了得》里姜振羽老师的话,非让我判断的话“有代笔”的推断偏真。对我来说,不论韩寒如何反击,P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|有代笔)接近1基本不会变。如果韩寒一直讲真话有诚信,而他也能合理地说明自己装老成、写没有经历过的事情有其创作基础,P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)可能由0.4变到0.9。问题是方舟子给出了韩寒说话前后矛盾的许多证据,而且引自韩寒(还有他父亲)发表的公开作品和访谈视频,所以这也就几乎堵住了我提升P(《求医》写九十年代看疖疮经历出现描写八十年代或更早的医院场景|没代笔)的依据。以前《新语丝》讨论天气预报的概率计算时,我曾写道,“对靠直觉草率判断的人来说,还是要记住:写清所有假设然后再开始做推断”。我不知道所谓“样本总体很大”的假定在方韩之争中如何描述清晰,但我相信似然比的计算不需要所谓古典概率在频率意义下的解释。
Posted in 新闻与政治
3 Comments