< 常见的机器学习算法你知道几个?_华体育app官网_华体育app官网登录|华体会手机版

  诞生于1956年的人工智能,由于受到智能算法、计算速度、存储水平等因素的影响,在六十多年的发展过程中经历了多次高潮和低谷。最近几年,得益于数据量的上涨、运算力的提升,特别是机器学习新算法的出现,人工智能迎来了大爆发的时代。

  提到机器学习这个词时,有些人首先想到的可能是科幻电影里的机器人。事实上,机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机如何模拟或实现人类的学习行为,利用数据或以往的经验,以此优化计算机程序的性能标准。

  根据学习任务的不同,我们大家可以将机器学习分为监督学习、非监督学习、强化学习三种类型,而每种类型又对应着一些算法。

  接下来就粗略地介绍几种常用的机器学习算法及其应用场景,通过本篇文章你们可以对机器学习的常用算法有个常识性的认识。

  (1)支持向量机(SupportVectorMachine,SVM):是一类按监督学习方式对数据来进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面。例如,在纸上有两类线性可分的点,支持向量机会寻找一条直线将这两类点区分开来,并且与这些点的距离都尽可能远。

  缺点:对大规模训练样本难以实施,解决多分类问题存在困难,对参数调节和核函数的选择敏感。

  (2)决策树(DecisionTree):是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。下图是如何在决策树中建模的简单示例:

  优点:易于理解和解释,可以可视化分析,容易提取出规则;可处理不相关的特征。

  优点:在数据较少的情况下仍然有效,能处理多类别问题。

  (4)k-近邻算法(K-NearestNeighbor,KNN):是一种基于实例的学习,采用测量不同特征值之间的距离办法来进行分类。其基本思路是:给定一个训练样本集,然后输入没标签的新数据,将新数据的每个特征与样本集中数据对应的特征作比较,找到最邻近的k个(通常是不大于20的整数)实例,这k个实例的多数属于某个类,就把该输入实例分类到这个类中。

  优点:简单、易于理解、易于实现,无需估计参数。此外,与朴素贝叶斯之类的算法比,无数据输入假定、准确度高、对异常数据值不敏感。

  缺点:对于训练数据依赖程度比较大,并且缺少训练阶段,无法应对多样本。

  (1)主成分分析(PrincipalComponentAnalysis,PCA):是一种统计方法。其主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。

  缺点:主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强;有可能损失有用的信息。

  (3)K-均值聚类(K-Means):是一种迭代求解的聚类分析算法,采用距离作为相似性指标。其工作流程是随机确定K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。

  缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢。

  Q-learning:是一个基于值的强化学习算法,它根据动作值函数评估应选择哪个动作,这个函数决定了处于某一个特定状态和在该状态下采取特定动作的奖励期望值。

  以上就是文章的全部内容,相信我们大家对常用的机器学习算法应该有了大致的了解。

  现如今,我们慢慢的变多地看到机器学习算法为人类带来的实际价值,如它们提供了关键的洞察力和信息来报告战略决策。能确定的是,随着机器学习越来越流行,未来还将出现慢慢的变多能很好地处理任务的算法。

CONTACT US
欢迎随时与我们联系