Monthly Archives: July 2011

从机器学习到信息融合(1)

在人工智能领域,有一个重要的分支就是研究如何让计算机通过“学习”而具有类似人所拥有的某种“智能”。例如,我们给计算机提供一些正常人和癌症患者的病理切片图像,希望计算机能通过学习自动对新的病理切片图像进行分类。又比如,我们在读取电子邮件时把一些垃圾邮件标记出来,希望邮件服务器能够通过学习自动标识并过滤垃圾邮件。更有挑战性的例子包括,通过学习股票交易的历史数据希望能对股票的未来价格进行预测;通过学习某个人上网购物的历史数据,对其感兴趣的产品进行预测,从而提供更个性化的产品推荐等等。很多机器学习的问题可以抽象为,给定一些训练样本,如何让计算机自动设计出一个分类器或者预测器,从而对新的输入样本进行分类或者预测。如果计算机的分类或者预测精度达到或超过一个正常人通过学习所能达到的水平,我们就会觉得计算机具有了某种意义上的智能。 在设计分类器时,有人认为应该找到输入数据中对分类真正有帮助的信息,所以很多分类问题又被称为模式识别。这里的模式可能是垃圾邮件里特定的广告词,网上购物时用户进行价格、功能、品牌比较的点击记录等等。经过模式或特征的提取,计算机最终得到的分类器其实不过是某种算法程序,它能够把任意的输入映射到分类空间中的某个特定类别。为了分析和比较分类器的性能,人们通常假定训练和测试分类器的样本都来自同一个未知的统计分布,而最好的分类器就是从统计意义上讲,能够让分类错误期望最小的算法。现实的问题中,我们无法验证训练和测试的样本是否服从同一统计分布,只能希望当训练样本足够多时,能使分类错误在训练样本中最小的算法同样能对测试样本做出足够好的分类。事实上,有限的训练样本只能从具有某种性质的分类器集合中筛选出最好的分类器,而候选的分类器集合必须和训练样本数量相关,才能保证对训练样本分类错误最小的算法对测试样本分类错误也足够小。在上一世纪六十年代末,前苏联数学和统计学家Vapnik与Chervonenkis共同创立了统计学习理论,给出了在训练样本足够多时,能够通过让某种训练误差最小化而使分类器最终收敛到最佳贝叶丝分类器的方法,并且证明在有限训练样本时,对测试样本的分类错误取决于候选分类器集合的VC维数。这一理论在很长时间内被忽视,直到上个世纪九十年代Vapnik及其合作者构造出了支撑向量机,使得分类边界到不同类别样本间的距离最大化——这一基于统计学习理论设计出的分类器比其它已有的分类器性能只好不差——VC理论才正式成为机器学习领域最具影响力的方法。与此同时,核函数的使用使得支撑向量机的方法能够适用于不同的特征空间,从而在有效控制分类器集合的VC维数的同时,无需进行人为的特征提取。自此以后,自动机器分类方法中支撑向量机与核方法占据了显著位置。Vapnik理论的优美之处在于,它避开了试图通过训练样本估计其分布的传统统计方法(由于信息不完全,通过有限样本估计分布函数是一个病态问题,解不唯一,需要额外加限制条件),而直接对测试样本与分类器间的关系进行刻划,找到了控制模型复杂度的直接途径。 对统计学习理论持保留态度的学者,主要包括热爱贝叶斯统计方法的——相信在有样本统计分布先验知识的情况下,贝叶斯决策理论可以做得更好;相信可运行的计算机代码多过理论分析的——认为统计学习理论给出最差情况下的性能估计不具代表性,实际用户的感受更接近平均意义下的分类性能测试。这里边不少人喜欢简单的决策树多过支撑向量机,而且怀疑分类器性能的好坏取决于在设计之初是否对VC维数直接进行控制。不管怎样,随着计算机性能的提高和云计算的兴起,大规模大数据量的机器学习问题层出不穷,很多训练样本没有办法一一给出类别,有些先验知识没有办法用训练样本表示,新的问题呼唤新的理论与方法。机器学习逐渐从重点关注有教师学习转向无教师学习,强化学习等多个新方向。在新世纪里,Vapnik又提出有隐藏信息情况下的机器学习框架,并试图对某些训练过程中的隐藏信息加以刻划,证明同样基于支撑向量机的分类器学习,使用特殊的信息后期望性能的收敛速度比没有教师提供特殊信息时要快(原先需要100000个训练样本才能达到的分类精度在“有教师帮助”的情况下只需要320个左右的样本)。今年信息融合年会的特邀报告中,Vapnik专门提到训练样本以外的隐藏信息普遍存在,有些信息甚至无法以科学/统计模型描述。他举例说,东方药物(比如中药)有可能对西药治疗提供隐藏信息——机器学习需要拓展另类模型,动物的“智能”可能对人类智能研究提供隐藏信息——认知科学和人工智能的理论基础需要拓宽视野。与会听众中不少人认为,Vapnik的“新理论”中科学成份不足,目前很难看出它有统计学习理论的深邃和支撑向量机方法的实用。而机器学习领域里新兴起的主动学习方法,看上去比寻找Vapnik所描述的(训练样本之外的)特殊知识更靠谱。

Posted in science and engineering | Leave a comment

Casey Anthony自由了

Casey Anthony终于被放出来了,在她的律师Jose Baez陪伴下走出佛州监狱,重见天日。那些认为她谋杀了自己亲生女儿的愤怒民众,没有人知道她的去向。年纪轻轻的她,又将继续享受控方在法庭上展示的“美好”生活了。佛州明媚的阳光,白沙逶迤的沙滩,微带腥气的海风,对了,还有众多的帅哥,也许她一出监狱门就陶醉了。这么一个美好的世界,年仅25岁的她还有大把的时光去重新规划人生。只不过,那个父母的家是再不能回去了。她母亲在这个长达三年的案件中饱受煎熬——她报警时一定认为是女儿杀害了外孙女,但是在关键的法庭询问中,她的关于电脑记录的证词几乎救了她女儿一命。没人能够理解,一个小生命悄悄地从这个拥挤的世界消失了有近一个月,她的母亲竟然不理不问,还用谎话阻碍警方的搜查工作。可惜说谎不能成为谋杀指控的证据,辩方巧妙地转移陪审团的关注点,认为Casey从小饱受父母打击,成长在这样一个问题家庭所以才说谎成性。她父亲也被辩护律师攻击得斯文扫地,被指责说曾经猥亵过女儿,给她心理和生理上都造成了巨大创伤,不过Casey拒绝了对其生父的指证。为了求证小女孩的生父是谁,她父兄和前未婚夫都去做了DNA鉴定,虽然最后被排除,但不少人都相信小女孩的不幸不能只由一个单亲妈妈来承担责任,而小女孩的生父是谁可能和她的死因一样成了永远的谜。那个被诬陷绑架孩子的保姆,已经准备起诉她,但Casey有那么能干的律师,大风大浪都过来了,小河小沟还不靠钱就搞定?至于想讨回搜寻费的组织,恐怕想出风头比赢回纳税人的钱更靠谱,陪审团都说谋杀罪名不成立,民事诉讼还能怎么难为Casey?CNN的分析员说,她可能会得到背地里的合同,收入会超过百万。也有新闻说,由于媒体轰炸和民众对她的敌意,她为了自身安全,正考虑整容的可能性。以前以为只有象辛普森这样的明星有钱有势,才能请得起豪华律师团,把陪审团搞得对各种可能的指控证据都不那么确信,不敢对谋杀指控轻易定罪。现在发现一个没正式工作的未婚妈妈,在媒体的全面覆盖下有三分之二的民众相信她谋杀了亲生女儿,可十二名陪审团成员不这么认为,甚至连过失杀人和虐待儿童的罪名都不成立,这让人不得不佩服Jose Baez的辩护手段高明,也让人怀疑他究竟是为还Casey以清白还是为自己出名上位。不管怎么样,Casey的新闻效应会逐渐淡化,也许将来的某天,你到佛州来旅游,在沙滩看到一个正晒太阳的美女,说不定正是她呢。

Posted in News and politics | Leave a comment

在芝加哥古德曼剧院看舞台剧

第一次去剧院看舞台剧,除了芝加哥剧场的美女和野兽,就只有古德曼剧场能买当天的票了。也算我运气奇好,在周末还能买到折价票,卖票的女士一再告诫我在楼上侧翼小包间看不到英文字幕,不过她知道我懂中英文后,说这个话剧Chinglish(关系)很像Lost in Translation,颇有喜剧效果。晚上不到八点,剧院里已经基本满座,拿到剧情和演员介绍,我就大概猜出主要的笑点估计和中文指示牌“硬译”的英文有关,不过之后看Daniel Cavanaugh去贵阳淘金的一系列遭遇,发现真正的喜感还是由东西方文化差异引申出的各种误会,有些很难说只是因为故意的翻译错误。还好,故事里的中国领导干部并不太腐败,男女主人公的关系也不是简单地谈生意谈上床,结局倒也没怎么丑化中国的地方官员。布景里的中国家具,食品,书法,工艺品摆设还是很具匠心的,那个能讲澳洲口音英语和的道的普通话的演员很不简单。

Posted in Entertainment | 2 Comments

REU site close to the conclusion

This year we had completely new themes for REU students — no continuation from the past REU projects. Four teams spent their 8+ weeks working on fish classification based on underwater video camera, image filtering implementation using FPGA, trellis coded … Continue reading

Posted in News and politics | Leave a comment

The Signing Event of Louisiana House Bill 537

The signing of this legislation is the first step in the process as UNO begins the initial steps to transfer from the Louisiana State University System to the University of Louisiana System.  There will be a transition period of several … Continue reading

Posted in News and politics | Leave a comment

Fermat’s Room

Several intriguing puzzles from Fermat’s room: 1. A candy merchant receives 3 opaque boxes. One box contains mint candies, another  contains anise candies, and the last box contains a mixture of mint and anise. The boxes are labeled Mint, Anise, … Continue reading

Posted in Uncategorized | Leave a comment

刚从芝加哥国际信息融合年会回来

这次会议的三个特邀报告都很有意思。第一天探讨信息融合该自下而上还是自上而下,重点在于引入认知科学的一些结果来对有人参与决策的数据融合问题进行分析。第二天统计学习理论的创始人之一讲他新发展的有特殊知识情况下的机器学习方法,从理论上证明和传统的统计学习方法比,新的学习方法所需训练样本数量可以显著减少。第三天的主题是如何用搏弈论和随机控制等方法处理多个代理交互,从而达到某种全局优化的目的。如果暑假结束前有时间的话,我会尽量把我听完三个报告后产生的一点想法和疑问写下来,与对信息融合和机器学习领域感兴趣的同行交流。 住芝加哥的凯悦酒店26层,可以看到芝加哥河两岸的高楼,不过为了能免费上网我还被迫加入了凯悦金通行证。我估计自己在今后几年能再住凯悦酒店的概率不会高于百分之十。

Posted in Uncategorized | Leave a comment