浅谈机器学习

2021-11-30 04:27高灵宝杜银学陆江波马永军杜海平

铸造设备与工艺 2021年6期

高灵宝，杜银学，陆江波，马永军，杜海平，虎鑫

（共享智能铸造产业创新中心有限公司，宁夏银川 750021）

1 什么是机器学习

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能核心，是使计算机具有智能的根本途径。

机器学习介于多门理论学科之间，对于数学、统计学、概率论、计算机科学等学科均有较高要求。要想对机器学习的相关算法以及工作原理有深入理解，则需要对以上学科融会贯通，这也是机器学习的难点之一。

2 机器学习的发展历程

机器学习并不是一个新生儿，其成长过程已经经历了几十年，大体可以分为三个阶段：

第一阶段是20 世纪40年代至60年代的萌芽期，这一时期产生了最早的人工神经网络，赫布学习规则，图灵测试等一系列标志性事件，也标志着机器学习这一概念的诞生；

第二阶段是20 世纪60年代至80年代的探索期，这一时期机器学习的理论研究相对超前，产生了KNN 最邻近算法（the Nearest Neighbor Algorithm），决策树算法，BP 和MLP 神经网络算法等，但相比理论研究，计算机硬件的发展则相对缓慢，不能很好地将理论研究转化为实际应用，在一定程度上限制了机器学习的发展；

第三阶段是20 世纪90年代至今的高速发展期，随着计算机硬件性能的飞速发展，计算机运算速度在集成电路不断发展的助推下，有了质的飞跃。互联网产业的崛起则为机器学习插上了新的翅膀，大量的数据为机器学习的分析研究提供了理论基础。这一时期，涌现了Boosting 算法、SVM 向量机算法、随机森林算法、深度学习（Deep Leaning）等，而深蓝人机国际象棋大赛和AlphaGo 人机围棋大战的出现，使得人们对机器学习有了更加清晰的认识，机器学习自此走出了瓶颈期，迈上了新的发展阶段。

3 机器学习的分类

目前，主流的机器学习算法可以归类为：监督学习、无监督学习和强化学习。

3.1 监督学习

监督学习（有导师学习）：输入数据中有导师信号，以概率函数、代数函数或人工神经网络为基函数模型，采用迭代计算方法，学习结果为函数[1]。

监督学习主要包括分类和回归。当输出被限制为有限的一组值（离散数值）时使用分类算法；当输出可以具有范围内的任何数值（连续数值）时使用回归算法。相似度学习是与分类和回归都密切相关的一类监督机器学习，它的目标是使用相似性函数从样本中学习，这个函数可以度量两个对象之间的相似度或关联度。它在排名、推荐系统、视觉识别跟踪、人脸识别等方面有很好的应用场景。

3.2 无监督学习

无监督学习（无导师学习）：输入数据中无导师信号，采用聚类方法，学习结果为类别。典型的无导师学习有发现学习、聚类、竞争学习等[1]。

在无监督学习中给定的数据是和监督学习中给定的数据是不一样的，数据点没有相关的标签。相反，无监督学习算法的目标是以某种方式组织数据，然后找出数据中存在的内在结构。这包括将数据进行聚类，或者找到更简单的方式处理复杂数据，使复杂数据看起来更简单。

3.3 强化学习

强化学习（增强学习）：以环境反惯（奖/ 惩信号）作为输入，以统计和动态规划技术为指导的一种学习方法[1]。

强化学习的主要特点是通过试错来发现最优行为策略，将没有带标签的数据作为训练数据，但这并不意味着根本没有监督信息。系统根据强化学习程序运行，在获得所需结果时给出称为奖励的信号。例如，在机器人的步行控制中，可以走的距离就是奖励。在围棋的比赛程序中，赢或输的结果就是奖励。失败时的奖励是负值，也称为惩罚。

4 几种主流的机器学习算法

机器学习是建立在理论算法之上的，机器学习算法为机器学习的不断发展提供了理论基础。

4.1 线性回归

线性回归所表示的是描述一条直线的方程Y=A+BX,通过输入变量的特定权重系数（B）来找出输入变量（x）和输出变量（y）之间最适合的映射关系。

例如：给定输入，可以预测出输出变量（y）的值。线性回归学习算法的目标是找到系数（B）和（A）的值,有一个（x）的观测值，就可得到一个（y）的估计值。

找出数据的线性回归模型有多种不同的技巧，例如将线性代数解用于普通最小二乘法和梯度下降优化问题。在机器学习领域，线性回归可能是最简单，最容易理解的算法之一。

4.2 逻辑回归

逻辑回归来自统计学领域，是一种可以用在二元分类问题上的方法。逻辑回归，和线性回归相似，都是要找出输入值的系数权重。不同的地方在于，对输出值的预测改成了逻辑函数。逻辑函数看起来像字母S，输出值的范围是0 到1.把逻辑函数的输出值加一个处理规则，就能得到分类结果，非0 即1.比方说，可以规定输入值小于0.5，那么输出值就是1.

这个算法还可以用来预测数据分布的概率，适用于需要更多数据论证支撑的预测。和线性回归相似，如果把和输出不相干的因子或者相近的因子剔除掉的话，逻辑回归算法的表现会更好。对于二元分类问题，逻辑回归是个可快速上手又有效的算法。

4.3 决策树算法

决策树算法最早产生于20 世纪60年代，是一种最逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳的算法生成可读的规则和决策树，然后使用决策树对数据进行分析[2]。在决策树算法中，训练模型是通过学习树表示的决策规则来学习和预测目标变量值的，而树是由具有相应属性的节点组成的，本质上决策树是通过一系列规则对数据进行分类的过程。

4.4 朴素贝叶斯

朴素贝叶斯算法是基于贝叶斯定理的一类算法，贝叶斯定理是关于随机事件A 和B 的条件概率（或边缘概率）的一则定理。其表述是：其中P（A|B）是在B 发生的情况下A 发生的可能性。比如，要预测下个月商场雨伞大卖的可能性，你可能想知道下个月的天气情况。

朴素贝叶斯分类器算法假设两个事件是彼此独立的，这在很大程度上简化了计算。然而，特征并不总是独立的，这通常被视为朴素贝叶斯算法的缺点。简而言之，朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类。最初，朴素贝叶斯定理只是想被用于进行学术研究，但现在看来，它在现实世界中也表现出色。

4.5 KNN 最近邻算法

KNN 最近邻算法，是机器学习当中最简单的方法之一，其设计思想与中国成语“人以类聚，物以群分”类似，KNN 最近邻算法的核心思想是，如果一个样本在特征空间中的k 个最相邻的样本中的大多数属于某一个类别，则改样本也属于这一类别[2]。k的选择很关键，k 太小可能导致结果噪声太大、准确性降低，而太大的k 值又是不可行的。KNN 算法常用于分类，同时也适用于回归问题。

4.6 SVM 支持向量机

SVM 支持向量机是优秀的二分类机器学习算法之一，是通过某种事先选择好的非线性映射将输入向量a 映射到一个高维特定空间Z，在这个高维空间中构建分类超平面，找到一个特殊的超平面，使正例和反例样本之间的分离界限达到最大，从而得到最优超平面。在最优超平面的两侧建立两个相互平行的超平面，最优超平面使得两个平行超平面的间距最大，平行超平面的间的间距越大，则分类器的误差就越小。支持向量机是目前最强大的分类容器之一，在实际应用过程中，人们采用一种优化算法来寻找间隔最大化的系数。

4.7 随机森林法

随机森林是一种非常流行的集成机器学习算法。这个算法的基本思想是，通过投票机制产生结果，通过征集多数人的意见得到更加准确的结果。在随机森林法中，我们使用了决策树集成。为了对新对象进行分类，我们从每个决策树中进行投票，并结合结果，然后根据多数投票做出最终决定。也就是说，在数据中取出大量的样本，计算均值，然后对每次取样计算出的均值再取平均，从而得到对所有数据的真实均值更好的估计。

在训练过程中，每个决策树都是基于训练集的引导样本来构建的。在分类过程中，输入实例的决定是根据多数投票做出的。

4.8 Boosting 和AdaBoost

Boosting 是一种提高任意给定学习算法准确度的方法，其思想源于Valiant 提出的PAC（Probably Approximately Correct）学习模型。不需构造高精度的回归分析，只需一个粗糙的基础算法即可，再反复调整基础算法就可以得到较好的组合回归模型。它可以将弱学习算法提高为强学习算法，可以应用到其它基础回归算法，如线性回归、神经网络等，来提高精度[3]。

AdaBoost 算法是Boosting 算法的一种，是其最成功的代表，AdaBoost 是一种迭代算法，其核心思想是针对训练集训练不同的弱分类器，然后将这些弱分类器集合起来，构成一个强分类器。AdaBoost主要用来解决分类问题，同时也可以用于解决回归问题。

4.9 人工神经网络算法

人工神经网络（ANN）可以处理大型复杂的机器学习任务。神经网络本质上是一组带有权值的边和节点组成的相互连接的层，称为神经元。在输入层和输出层之间，我们可以插入多个隐藏层。人工神经网络使用了两个隐藏层。除此之外，还需要处理深度学习。

人工神经网络的工作原理与大脑的结构类似。一组神经元被赋予一个随机权重，以确定神经元如何处理输入数据。通过对输入数据训练神经网络来学习输入和输出之间的关系。在训练阶段，系统可以访问正确的答案。如果网络不能准确识别输入，系统就会调整权重。经过充分的训练后，它将始终如一地识别出正确的模式。

5 结束语

本文针对机器学习的基本概念、发展历程、分类和部分主流算法进行了相关介绍。机器学习是一项门槛较高的科学技术，要想在机器学习领域取得较好发展，则需要有全面的知识储备和综合应用能力。

目前，机器学习的发展刚刚起步，由于理论研究和硬件基础的限制仍处于弱人工智能阶段。未来随着科技的不断发展，机器学习必将引领新的技术革命。推动机器学习的不断发展，正确应用机器学习技术才能使其更好地造福人类，为我们向往的美好生活创造新的价值。