浅谈机器学习发展史

(整期优先)网络出版时间:2019-03-13
/ 1

浅谈机器学习发展史

马可意

山东省广饶县第一中学16级257300

摘要:麦肯锡公司对人工智能和机器学习领域的现状及未来进行分析,得到如下结论:包括百度和谷歌在内的科技巨头,2017年在人工智能上的投入达200亿至300亿美元。机器学习作为人工智能的重要方向,一直是人们的研究热点。本文便以简述机器学习发展史为目的,以供了解。

关键词:机器学习人工智能发展史

一、机器学习概念

机器学习是指让计算机具有像人一样的学习能力的技术,进而在数据中挖掘有效的信息。

二、机器学习发展史

科学家们都希望追随BlaisePascal和VonLeibniz两位数学家的步伐,建造一台拥有与人类相同智能的机器。一些作家也在他们的著作中畅想类人机器。

标志着机器学习领域迈出的第一步的是1949年由DonaldHebb提出的赫布理论,它研究的是循环神经网络中各节点之间的相关性。其可以理解为反射活动的持续与重复会提升神经元稳定性的持久性,当一神经元被另一轴突与它相距十分近的神经元重复持续刺激时某些生长过程或代谢的变化会在其中一个或二者中发生,这样便提高了A对刺激B的效率。

1952年,IBM的ArthurSamuel研发了一款西洋跳棋程序,它能通过观察棋子的走位来构建新的模型,用以对以后的情况做出更好的判断。Samuel和程序进行多场对弈后发现,程序的棋艺随着时间的推移得到了提升。这驳斥了以往“机器无法超越人类,不能像人一样写代码和学习”的传统认识。他对此定义了“机器学习”:不需要确定性编程就可以使机器拥有某项技能的研究领域。

1957年,Rosenblatt提出了第二个以神经科学为背景的模型感知器(Perceptron),感知机的感知器可以表现出智能系统的基本属性,而不针对于个别或未知情况。

Widrow则提出了差量学习规则(“最小平方”问题),它与感知器结合时创建出了更精准的线性分类器。但在1969年,Minsky提出的异或问题和感知器无法处理线性不可分问题致使神经网络研究陷入了长达十多年的停滞中。

著名的ML算法决策树即ID3算法,是由Quinlan于1986年提出的,它是机器学习领域的主流分支之一。另外,它的应用更多体现在解决生活实际问题上,这使它区分于“黑盒派”的神经网络模型。自ID3算法提出以来被做出了不少优化改进(如ID4、回归树、CART等)。至今,它依旧是机器学习领域的活跃者。

1995年,支持向量机(SVM)由Vapnik和Cortes在坚实的理论基础和出色的实验结果的支持下提出,自此机器学习便形成了神经网络和支持向量机两大流派。不过,自2000年新版SVM被提出后,其具有的凸优化、大边际理论、核函数方面知识基础加速了它在不同领域汲取知识以获发展,致使神经网络在这场竞争中逐渐处于下风。

1997年,Freund和Schapire提出了另外一个机器学习模型Adaboost。它的核心思想是,将同一训练集训练的不同弱分类器集合起来,构建出强分类器。至今Adaboost依旧被面部识别和检测等领域采用,同时它也是可能近似正确学习(PAC)理论的实践模型之一。总体上,Adaboost就是把多个不同的决策树用一种非随机方式组合的提升树。他们解释Adaboost为在一般决策场景下对已充分了解的预测模型进行大范围而抽象的扩展。

随机森林是由LeoBreiman在2001年提出的一种分类算法,其实质是对决策树算法的一种改进,将多个决策树合并在一起,每棵树的建立依赖于独立抽取的样本。单棵树的分类能力可能很小,但经随机产生大量的决策树后,一个测试样本可以通过每一棵树的分类结果经统计后选择最可能的分类。

三、相关理论

感知机,是二类分类的线性分类模型,其输入为样本的特征向量,输出为样本的类别,取+1和-1二值。其能够解决的问题要求特征空间是线性可分的且是二类分类,即将样本分为(+1,-1)两类。由输入空间到输出空间的函数f(z)=sign(wx+b)称为感知机,其中w和b为感知机参数,w为权值,b为偏置。sign(x)=+1,x≥0-1,x<0。

四、现状及展望

机器学习被用于工商业领域以提升收入和降低成本,如预防欺诈(PayPal)、内容推荐、选择电子广告的目标客户、瞄准最好的潜在市场等。机器学习虽在实际应用上取得了进步,但目前主流的机器学习计算成本高,急需轻量级机器学习算法的发明。

五、浅谈看法

通过这段时间的学习,我对机器学习有了一点了解。对于机器学习,我认为这是一个前景光明、潜力巨大的领域,但我们不可盲目追随热点,而应脚踏实地地投身算法的研究和实践。