Category Archives: science and engineering

刚看了李晓榕老师的博客

和李老师共事十多年,得益于他的指点和提携,才勉强成为一个不太合格的教书匠和科研工作者,我却没想到对互联网持抗拒态度的他也开博宣讲他的科研和治学经验了。也许是科学网的推荐力度不够,我居然是从一个自称“隔壁家的二傻子”的博主更新页点击看到根据李老师座谈记录整理出的多篇博文。我对李老师讲述的科研选题、研究策略、学习门径、科研输出、道德规范等内容多少都有所了解,有些自己学不来,但是颇受启发,同读何教授的博客感觉不同,因为毕竟可以通过工作接触对李老师一些想法的形成和演变了解更多,也因此使得我的以下评论多少有些挑剔。 我不知道二傻为何又讨厌李老师又佩服他为牛人,我个人只对李老师探讨科学思维的弊端持保留态度。我倾向于批评中医的所谓整体思维,基本同意方舟子在《科学成就健康》中所阐述的中医的非/伪科学性及危害,相信通过科学方法建立起来的现代医学是目前最可靠的健康保障和疾病治疗体系,建议李老师调整关于科学未必正确中提到中医适用于系统性治疗慢性病的例子。 更进一步地,我认为以科学精神为代表的西方思维比传统的中国式思维(包括根据中医理论乱诊治疑难杂症)在解决复杂工程乃至社会问题时有无可比拟的优势,在中国宣扬科学精神比宣扬“科学的并不一定是正确可行的,正确可行的也不一定是科学的”更为紧迫和重要。因为李老师和我在学术成就方面的不对等性,我不期待自己的声音能有足够的影响,但是仍希望表达我和我所敬重的同事、朋友间观点的不同。

Posted in science and engineering | Leave a comment

On Model Order Selection and Bayesian Model Averaging

Consider a set of hypotheses describing the observation by linear models . The hypothesis leads to the maximum likelihood estimate of the unknown parameter and the variance (assuming ) . It is important to choose the appropriate model order by … Continue reading

Posted in science and engineering | 1 Comment

ENEE 3572: Comments about Problem 7.2 (b)

Note that is non-stationary so the power spectrum of is time varying. However, the time averaged power spectrum  is identical to that of 7.2 (a) owing to . The power spectrum of a non-stationary random process should be written as … Continue reading

Posted in science and engineering | Leave a comment

Conformal prediction to bridge the gap between Bayesian and frequentist?

I am reading Frasian Inference by Larry Wasserman who pointed out the possible discrepancy between Bayesian probability distribution and confidence level from frequentist interpretation. A possible way to bridge the gap is to apply conformal prediction (CP) method in constructing the … Continue reading

Posted in science and engineering | Leave a comment

从机器学习到信息融合(2)

如果说要想让机器学会运用复杂的概念进行分类和预测必须对训练样本和概念集合/模型有所要求,那么最终机器学会的并不是我们通常所想象的智能,而是按照统计学习理论刻划的最佳分类/预测器。机器的训练过程和人的学习过程也不近相同,因为它没有自己创造的评价函数和优化方法,而是完全根据训练样本,按照人为设定的程序,找到某种输入-输出之间的映射。我们评价机器学习的成果也是基于它对测试样本分类或预测的精确度,而不是什么抽象的学习能力或者自我修正评价函数的算法。然而,从另一个角度来看,计算机的数据处理速度要远强于人脑,只要机器学习算法的复杂性不随问题规模增长太快,机器在模式识别和聚类方面完全可以比人做得更好。可以说,机器学习的理论基础和应用范围越来越偏离人工智能最初的构想,而逐渐变成人脑进行大规模数据处理的辅助工具。 当我们获得数据/信息的渠道越来越多,成本越来越低,对大量原始数据进行处理变成了机器学习里非常重要的环节。把不同数据所代表的关键信息融合起来,我们不只可以训练机器进行模式识别和预测,还能让它作为辅助决策工具,帮助人参与投资管理、资源调度、战略形势评估等等复杂的社会行为。信息融合作为一个新兴领域,想系统解决的正是如何有效地获取和处理大量相关数据,从而把某些估计、分类、预测等传统的机器学习问题拓展到更广阔的应用中去。常言道,三个臭皮匠,顶个诸葛亮,在机器学习问题上可以理解为,多个不同的、性能一般的分类/预测器可以通过某种信息融合方法变成一个性能非常好的分类/预测器。R. Schapire和Y. Freund提出一种提升分类器性能的方法,简单来说就是如果多个不同分类器分别犯不同的错误,那么通过多数原则是有可能修正每个分类器所犯的绝大多数错误的。这一思想也适用于分布式计算,可以设想,每个“智能代理”个体都只有有限的数据采集和处理能力,而信息融合所带来的价值正是由于不同代理间可能提供互补的信息,通过有效的数据融合算法,我们期望能纠正个体所犯的一些分类错误或减小最终的估计/预测误差。 尽管信息融合看上去很有前途,但是它不象机器学习那样有很漂亮的统计学习理论作基础,而更多的是先有实际问题需要解决,人们试了各种估计、分类、预测器的融合算法,再想办法解释为什么这么做——其中有些做了不太合理的假设以期套用经典理论,有些凭借工程直觉却缺乏理论支持其更广的应用范围。最致命的是,每个智能代理个体的理性决策未必能保证信息融合的整体最优。V. Krishnamurthy在今年信息融合年会报告上举了个例子,如果有一群人想挑选一家最好的餐馆,假定每个人都有同样的偏好,他们都希望根据观察别人的选择做出对自己最有利的决策,那么每个人都会选择就座率最高的餐馆。然而,由于缺乏先验知识,最初的选择有很大的偶然性,而由于从众原则,很可能大多数人的“理性”决策最终并没有选对最好的餐馆。当然了,如果这个选餐馆的游戏能重复进行,那么每个人在最开始的阶段都应该尽可能随机地去试任何一家餐馆,等到了一定阶段,再根据就座率(和自己的以往经验)决定哪家是最好的餐馆。在强化学习当中,这相当于每个个体都要先通过探索获得必要的知识,之后才能利用别人的信息进行有效的数据融合。找到如何合理切换随机探索与利用探索成果的方案在有限次的试验中并不容易。即使能够设计出数据获取(随机探索)与数据融合(多数原则)间转换的最优策略,我们也无法保证每个个体都足够“理性”——能在起始阶段牺牲一定的个人收益而为将来大家的共同收益做应有的贡献。这有点象经济学领域里常举的囚徒悖论,因为信息不完备,理性的个体所做的最优决策从全局角度讲可能很糟糕,而绝大多数信息融合问题无法绕开各种复杂的搏弈场景,要想在理论上找到有效的信息融合机制设计,其难度与经济学理论里的制度设计问题基本相当。

Posted in science and engineering, Uncategorized | 1 Comment

从机器学习到信息融合(1)

在人工智能领域,有一个重要的分支就是研究如何让计算机通过“学习”而具有类似人所拥有的某种“智能”。例如,我们给计算机提供一些正常人和癌症患者的病理切片图像,希望计算机能通过学习自动对新的病理切片图像进行分类。又比如,我们在读取电子邮件时把一些垃圾邮件标记出来,希望邮件服务器能够通过学习自动标识并过滤垃圾邮件。更有挑战性的例子包括,通过学习股票交易的历史数据希望能对股票的未来价格进行预测;通过学习某个人上网购物的历史数据,对其感兴趣的产品进行预测,从而提供更个性化的产品推荐等等。很多机器学习的问题可以抽象为,给定一些训练样本,如何让计算机自动设计出一个分类器或者预测器,从而对新的输入样本进行分类或者预测。如果计算机的分类或者预测精度达到或超过一个正常人通过学习所能达到的水平,我们就会觉得计算机具有了某种意义上的智能。 在设计分类器时,有人认为应该找到输入数据中对分类真正有帮助的信息,所以很多分类问题又被称为模式识别。这里的模式可能是垃圾邮件里特定的广告词,网上购物时用户进行价格、功能、品牌比较的点击记录等等。经过模式或特征的提取,计算机最终得到的分类器其实不过是某种算法程序,它能够把任意的输入映射到分类空间中的某个特定类别。为了分析和比较分类器的性能,人们通常假定训练和测试分类器的样本都来自同一个未知的统计分布,而最好的分类器就是从统计意义上讲,能够让分类错误期望最小的算法。现实的问题中,我们无法验证训练和测试的样本是否服从同一统计分布,只能希望当训练样本足够多时,能使分类错误在训练样本中最小的算法同样能对测试样本做出足够好的分类。事实上,有限的训练样本只能从具有某种性质的分类器集合中筛选出最好的分类器,而候选的分类器集合必须和训练样本数量相关,才能保证对训练样本分类错误最小的算法对测试样本分类错误也足够小。在上一世纪六十年代末,前苏联数学和统计学家Vapnik与Chervonenkis共同创立了统计学习理论,给出了在训练样本足够多时,能够通过让某种训练误差最小化而使分类器最终收敛到最佳贝叶丝分类器的方法,并且证明在有限训练样本时,对测试样本的分类错误取决于候选分类器集合的VC维数。这一理论在很长时间内被忽视,直到上个世纪九十年代Vapnik及其合作者构造出了支撑向量机,使得分类边界到不同类别样本间的距离最大化——这一基于统计学习理论设计出的分类器比其它已有的分类器性能只好不差——VC理论才正式成为机器学习领域最具影响力的方法。与此同时,核函数的使用使得支撑向量机的方法能够适用于不同的特征空间,从而在有效控制分类器集合的VC维数的同时,无需进行人为的特征提取。自此以后,自动机器分类方法中支撑向量机与核方法占据了显著位置。Vapnik理论的优美之处在于,它避开了试图通过训练样本估计其分布的传统统计方法(由于信息不完全,通过有限样本估计分布函数是一个病态问题,解不唯一,需要额外加限制条件),而直接对测试样本与分类器间的关系进行刻划,找到了控制模型复杂度的直接途径。 对统计学习理论持保留态度的学者,主要包括热爱贝叶斯统计方法的——相信在有样本统计分布先验知识的情况下,贝叶斯决策理论可以做得更好;相信可运行的计算机代码多过理论分析的——认为统计学习理论给出最差情况下的性能估计不具代表性,实际用户的感受更接近平均意义下的分类性能测试。这里边不少人喜欢简单的决策树多过支撑向量机,而且怀疑分类器性能的好坏取决于在设计之初是否对VC维数直接进行控制。不管怎样,随着计算机性能的提高和云计算的兴起,大规模大数据量的机器学习问题层出不穷,很多训练样本没有办法一一给出类别,有些先验知识没有办法用训练样本表示,新的问题呼唤新的理论与方法。机器学习逐渐从重点关注有教师学习转向无教师学习,强化学习等多个新方向。在新世纪里,Vapnik又提出有隐藏信息情况下的机器学习框架,并试图对某些训练过程中的隐藏信息加以刻划,证明同样基于支撑向量机的分类器学习,使用特殊的信息后期望性能的收敛速度比没有教师提供特殊信息时要快(原先需要100000个训练样本才能达到的分类精度在“有教师帮助”的情况下只需要320个左右的样本)。今年信息融合年会的特邀报告中,Vapnik专门提到训练样本以外的隐藏信息普遍存在,有些信息甚至无法以科学/统计模型描述。他举例说,东方药物(比如中药)有可能对西药治疗提供隐藏信息——机器学习需要拓展另类模型,动物的“智能”可能对人类智能研究提供隐藏信息——认知科学和人工智能的理论基础需要拓宽视野。与会听众中不少人认为,Vapnik的“新理论”中科学成份不足,目前很难看出它有统计学习理论的深邃和支撑向量机方法的实用。而机器学习领域里新兴起的主动学习方法,看上去比寻找Vapnik所描述的(训练样本之外的)特殊知识更靠谱。

Posted in science and engineering | Leave a comment

A recent experience of Ph.D. oral defense

As one of the committee members, I feel obligated to share some of my personal thinking after participating in a recent Ph.D. oral defense by one of Rong’s talented students, who, in my opinion, has rare capability in theoretical thinking … Continue reading

Posted in science and engineering | Leave a comment

AI vs. 机器学习 (by自如 with my comments)

AI要是穷举就能搞定的话,俺们早已失业,转行内蒙古学送外卖去了。 (ENEE6570 Engineering Optimization Course 101: Most engineering problems do not have well formulated objective function and constraints, occasionally not even well chosen decision variables to begin with.) CS101:现实世界里大部分的问题都是NP-hard或#P-hard的。译成中文就是说计算量随着问题size指数增长(除非你相信P=NP,P for polynomial)。(There are problems provable to be PSPACE-complete, some of which … Continue reading

Posted in science and engineering | 3 Comments

你的预报有多准?

在新语丝上关于天气预报的概率计算讨论得非常热烈,起因是在一篇科普文章里,作者就天气预报准确率为80%发表评论,说如果预报有雨,在降雨概率低的地方,你大可不必带伞。这里涉及到有关统计推断的几个重要概念:   1 什么是预报准确率?如果80%准确率指十次下雨天里气象预报有八次提前预报有雨,那么我只要天天预报有雨,准确率岂不是100%?如果80%指十天里有八天气象预报正确,那么我们仍关心其中有多少比例是雨天预报有雨,晴天报晴正确。假设两者都是准确率为80%,这是否说明气象预报比随机瞎猜更有效呢?这个问题成了新语丝上讨论的焦点之一。   2 先验概率是否影响对预报准确率的评价?如果一天为晴或雨的概率各50%,且每天的气象预报均统计独立,那么80%的晴天报晴雨天报雨准确率自然比随机瞎猜要强。可是,如果该地的降雨概率只有10%,那么一直报晴的错误率只有10%,尽管这对雨天的预报来说错误率为100%。现在我们知道,单看预报准确率无法区分两类错误:晴天报雨和雨天报晴。你可以要求在雨天报雨准确率不低于80%的条件下尽可能增大晴天报晴的概率,但是总体预测准确率不能保证仍是80%。   3 如果按照P(准确率)=P(晴天报晴)P(晴天)+P(雨天报雨)P(雨天)来评价天气预报水平是否有意义?我们以某地降雨概率为10%来评价以下预报机制:一直报晴的准确率为90%,而80%的晴天报晴雨天报雨其总体准确率也只有80%!实际上,我们更关心相对于晴天和雨天的先验概率分布,预报能够带给我们多少新的信息。一直报晴并不增加任何新的信息,所以该预报没有价值。   4 预报有雨且已知该预报80%晴天报晴雨天报雨准确率的情况下需要带伞吗?如果不麻烦,干嘛不?根据预报信息,降雨从先验概率0.1增长到后验概率0.31,似乎雨和晴仍是三七开,晴的可能性大,预报并不影响带伞与否的决策。如果你考虑先验晴雨比为9:1而后验晴雨比为9:4,这变化完全归功于80%的预报准确率。即使90%的预报准确率也不过让后验雨和晴的比率变为五五开罢了。换句话说,气象预报提供的信息不足以改变你对天气的先验判断。   5 统计推断一定基于频率意义上的概率分布吗?如果你是贝叶斯学派的,那么你会说先验概率分布完全是人为假定的一种对不确定性的刻划,和频率无关,我们并不关心每天的气象预测是否对应相同条件下的独立实验,而是人为假定基于已有知识(除了天气预报),未来某一天的晴雨比为9:1。天气预报所提供的信息必须以给定晴天或雨天后,预报结果的似然函数形式给出。似然函数不必服从概率分布。在某些特定情况下,先验分布也可以不服从常规的概率分布。   6 目前的争论对预报准确性的理解有帮助吗?对熟悉贝叶斯理论的人来说,以上结果没什么好惊讶的,但是对靠直觉草率判断的人来说,还是要记住:写清所有假设然后再开始做推断。举个例子:两个人在犯罪现场留下他们的血迹,根据化验结果,一为O型(在当地人群中约占60%),一为AB型(在当地人群中约占1%)。疑犯甲血型为O,与罪案现场血型之一相符。请问:此一证据是否增加该疑犯甲在罪案现场的指控?

Posted in science and engineering | 1 Comment

Iterative Reweighted Algorithms for Sparse Signal Recovery

I am curious about $ell_p$ minimization for $p<1$ especially for the case $p=0$ which seems to be NP hard. However, the non-convex optimization via iterative reweighted least squares can offer a viable suboptimal solution with reasonable computational cost. The regularization … Continue reading

Posted in science and engineering | Leave a comment