Monthly Archives: August 2011

缘缘玩搭高塔

缘缘早上玩搭高塔,六层一次成功!

Posted in family related | Leave a comment

Yuan can walk now

陈哲缘小朋友终于自己摇摇摆摆走了个虎虎生风。

Posted in family related, Uncategorized | Leave a comment

从机器学习到信息融合(2)

如果说要想让机器学会运用复杂的概念进行分类和预测必须对训练样本和概念集合/模型有所要求,那么最终机器学会的并不是我们通常所想象的智能,而是按照统计学习理论刻划的最佳分类/预测器。机器的训练过程和人的学习过程也不近相同,因为它没有自己创造的评价函数和优化方法,而是完全根据训练样本,按照人为设定的程序,找到某种输入-输出之间的映射。我们评价机器学习的成果也是基于它对测试样本分类或预测的精确度,而不是什么抽象的学习能力或者自我修正评价函数的算法。然而,从另一个角度来看,计算机的数据处理速度要远强于人脑,只要机器学习算法的复杂性不随问题规模增长太快,机器在模式识别和聚类方面完全可以比人做得更好。可以说,机器学习的理论基础和应用范围越来越偏离人工智能最初的构想,而逐渐变成人脑进行大规模数据处理的辅助工具。 当我们获得数据/信息的渠道越来越多,成本越来越低,对大量原始数据进行处理变成了机器学习里非常重要的环节。把不同数据所代表的关键信息融合起来,我们不只可以训练机器进行模式识别和预测,还能让它作为辅助决策工具,帮助人参与投资管理、资源调度、战略形势评估等等复杂的社会行为。信息融合作为一个新兴领域,想系统解决的正是如何有效地获取和处理大量相关数据,从而把某些估计、分类、预测等传统的机器学习问题拓展到更广阔的应用中去。常言道,三个臭皮匠,顶个诸葛亮,在机器学习问题上可以理解为,多个不同的、性能一般的分类/预测器可以通过某种信息融合方法变成一个性能非常好的分类/预测器。R. Schapire和Y. Freund提出一种提升分类器性能的方法,简单来说就是如果多个不同分类器分别犯不同的错误,那么通过多数原则是有可能修正每个分类器所犯的绝大多数错误的。这一思想也适用于分布式计算,可以设想,每个“智能代理”个体都只有有限的数据采集和处理能力,而信息融合所带来的价值正是由于不同代理间可能提供互补的信息,通过有效的数据融合算法,我们期望能纠正个体所犯的一些分类错误或减小最终的估计/预测误差。 尽管信息融合看上去很有前途,但是它不象机器学习那样有很漂亮的统计学习理论作基础,而更多的是先有实际问题需要解决,人们试了各种估计、分类、预测器的融合算法,再想办法解释为什么这么做——其中有些做了不太合理的假设以期套用经典理论,有些凭借工程直觉却缺乏理论支持其更广的应用范围。最致命的是,每个智能代理个体的理性决策未必能保证信息融合的整体最优。V. Krishnamurthy在今年信息融合年会报告上举了个例子,如果有一群人想挑选一家最好的餐馆,假定每个人都有同样的偏好,他们都希望根据观察别人的选择做出对自己最有利的决策,那么每个人都会选择就座率最高的餐馆。然而,由于缺乏先验知识,最初的选择有很大的偶然性,而由于从众原则,很可能大多数人的“理性”决策最终并没有选对最好的餐馆。当然了,如果这个选餐馆的游戏能重复进行,那么每个人在最开始的阶段都应该尽可能随机地去试任何一家餐馆,等到了一定阶段,再根据就座率(和自己的以往经验)决定哪家是最好的餐馆。在强化学习当中,这相当于每个个体都要先通过探索获得必要的知识,之后才能利用别人的信息进行有效的数据融合。找到如何合理切换随机探索与利用探索成果的方案在有限次的试验中并不容易。即使能够设计出数据获取(随机探索)与数据融合(多数原则)间转换的最优策略,我们也无法保证每个个体都足够“理性”——能在起始阶段牺牲一定的个人收益而为将来大家的共同收益做应有的贡献。这有点象经济学领域里常举的囚徒悖论,因为信息不完备,理性的个体所做的最优决策从全局角度讲可能很糟糕,而绝大多数信息融合问题无法绕开各种复杂的搏弈场景,要想在理论上找到有效的信息融合机制设计,其难度与经济学理论里的制度设计问题基本相当。

Posted in science and engineering, Uncategorized | 1 Comment