数据挖掘、机器学习和深度学习之间有什么区别？_新闻中心

2023-12-25 新闻中心

，有时也称为计算智能，近年来已经突破了一些技术障碍，并在机器人、机器翻译、社交网络、电子商务，甚至医药和医疗保健等领域取得了重大进展。是人工智能的一个领域，其目标是开发学习计算技术和构建能自动获取知识的系统。

学习系统是一种计算机程序，它通过成功解决过去的问题积累的经验做出决策。尽管应用时间不长，但是有许多不同的学习算法，该领域是计算领域最热门的领域之一，并且定期发布一些新的技术和算法。

许多人认为机器学习和人工智能的含义是一样的，但这并不十分准确。AI有几种定义，这其中包含机器学习的广泛概念。一个被广泛接受的定义是，人工智能由依赖人类行为来处理问题的计算机制组成。换句话说，技术使计算机就像人类一样“思考”来执行任务。

人类能够分析数据，发现其中的模式或趋势，从中进行更明智的分析，然后使用结论做出决策。在某一种意义上，人工智能也遵循同样的原则。通常，人们达成目标越多，就越熟练。这是具有学习能力的结果。经常重复或执行相关程序对人们来说是一种培训。在AI系统中也会发生类似的事情：公开获取或记录在专用平台上的数据用作AI算法的培训。

那么培训是如何完成的?为此目的有几种算法。这一切都取决于应用程序以及它们背后的组织或人员。在这里，最重要的是知道在这一点上机器学习是有意义的。

机器学习也是一个有多种定义的概念，但在其核心，机器学习是一个能够准确的通过自身经验自主修改其行为的系统，其人为干扰很小。这种行为修改基本上包括建立逻辑规则，目的是提高任务的性能，或者根据应用程序做出最适合场景的决策。这些规则是根据分析数据中的模式识别生成的。

例如，如果一个人在搜索引擎中键入“勇敢”这个词，该服务需要分析一系列参数来决定是不是显示类似于激怒或勇敢的结果，这可能有两种含义。在众多可用参数中有用户搜索历史：例如，如果在寻找“勇敢”之前几分钟，则最大有可能出现第二种意义。这是一个格外的简单的例子，但它说明了机器学习的一些重要方面。

重要的是，系统必须根据大量数据来进行分析，这是搜索者必须放弃的一个标准，因为他们接收了数百万次访问，因此这是一个培训标准。

另一个方面是持续的数据输入，有利于识别新标准。假设“勇敢”这个词成为与文化运动相关的俚语，通过机器学习，搜索引擎将能够识别指向该术语的新含义的模式，并且在一段时间以后，将能够在搜索出来的结果中考虑它。

机器学习有几种方法。众所周知的一种方法称之为“深度学习”，其中大量数据来自多层人工神经网络，这些算法受到解决复杂问题的大脑神经元结构的启发，例如图像中的物体识别。

机器学习的使用正在演变成各种各样的应用，人们当今拥有的许多技术资源都基于AI和机器学习。

自治数据库 - 借助机器学习，自治数据库处理以前由管理人员(DBA)执行的若干任务，允许这些专业人员处理其他活动，从而降低因为人为错误导致的应用程序不可用的风险。

打击支付系统中的欺诈行为 - 每秒都会产生各种信用卡欺诈和其他支付方式的尝试。机器学习允许反欺诈系统在成功之前识别其中的大部分。

文本翻译——翻译必须考虑场景、区域表达式和其他参数。由于采用机器学习，自动翻译越来越精确。

内容推荐——视频和音频流平台使用机器学习来分析用户查看或拒绝的内容的历史记录，以便为他们提供符合其意愿的建议。

营销和销售——根据以前的购买推荐产品和服务的网站使用机器学习来分析购买历史，并推广客户可能感兴趣的其他项目。这种捕获数据、分析数据并使用它来定制购物体验的能力或实施营销活动是零售业的未来。

运输——分析数据以识别模式和趋势对于运输行业至关重要，这取决于开发更有效的路线，并预测潜在问题以提高可靠性和盈利能力。机器学习数据建模和分析方面是运输厂商、公共交通和业内其他组织的重要工具。

石油和天然气 - 机器学习有助于发现新的能源，分析土壤中的矿物质，预测炼油厂传感器的故障，加速石油的分配，使其更加高效和经济。在这个行业中，机器学习应用程序的数量是巨大的，并且持续增长。

医疗保健 - 由于可穿戴设备和传感器的出现，使医疗保健专业人员能够实时访问患者数据，因此机器学习是医疗保健领域不断发展的趋势。该技术还可以帮助医学专家分析数据，以识别趋势或警报，从而改善诊断和治疗。

两种最广泛采用的机器学习方法是监督学习和无监督学习，但它们并不是唯一的方法。

通过标记示例训练监督学习算法，作为已知所需输出的输入。例如，设备可能具有标记为“F”(失败)或“E”(执行)的数据点。学习算法接收一组输入以及相应的正确输出，并通过将实际输出与正确输出进行比较来学习以发现错误。然后它修改结算模型。通过分类、回归和梯度增强等方法，监督学习使用标准来预测附加的非标记数据中的标签值。监督学习通常用于历史数据预测可能的未来事件的应用中。例如，它可以预测信用卡交易何时可能是欺诈性的，或者哪些投保人倾向于要求其政策。

非监督学习用于针对没有历史标签的数据。“正确答案”未向系统报告。算法必须找出所显示的内容。目标是探索数据并在其中找到一些结构。无监督学习适用于交易数据。例如，它可以识别具有相似属性的客户群，然后可以在营销活动中对其进行类似处理;或者它可以找到分隔不同客户群的关键属性。常用的技术包括自组织映射、邻近映射、k-均值分组和分解为奇异值。这些算法还用于分割文本主题、推荐项目和识别数据中的差异点。

半监督学习用于与监督学习相同的应用程序，但处理有标签和无标签的数据进行培训——通常是用大量无标签数据标记的少量数据(因为没有标签的数据更便宜，并且需要花费更少的精力来获取)。这类学习可用于分类、回归和预测等方法。当与标签相关的成本太高而无法实现完全标记的培训过程时，半监督学习非常有用。其典型例子包括在网络摄像头上识别人脸。

强化学习通常用于机器人、游戏和导航。有了它，算法通过尝试和错误发现，哪些行为会带来更大的回报。这种类型的学习有三个主要组成部分：代理(学习者或决策者)、环境(代理与之交互的所有内容)和行动(代理可以做什么)。目标是让代理选择在给定时间段内最大化预期回报的行动。如果代理遵循一个好的政策，可以更快地实现目标。因此，强化学习的重点是找出最佳策略。

虽然所有这些方法都有相同的目标，提取可用于决策的见解、模式和关系，但它们具有不同的方法和功能。

数据挖掘可以被视为从数据中提取洞察力的许多不同方法的超集。它可能涉及传统的统计方法和机器学习。数据挖掘应用来自多个区域的方法来识别数据中先前未知的模式。这可能包括统计算法、机器学习、文本分析、时间序列分析和其他分析领域。数据挖掘还包括数据存储和操作的研究和实践。

通过机器学习，目的是了解数据的结构。因此，统计模型背后有一个理论是经过数学证明的，但这要求数据也满足某些假设。机器学习是从使用计算机检查数据结构的能力发展而来的，即使人们不知道这种结构是什么样子的。机器学习模型的测试是新数据中的验证错误，而不是证明空假设的理论测试。由于机器学习通常使用迭代的方法从数据中学习，因此可以轻松地自动学习。这些步骤通过数据执行，直到找到一个可靠的标准。

深度学习结合了计算能力的进步和特殊类型的神经网络，以学习大量数据中的复杂模式。深度学习技术是当今最先进的技术，用于识别图片中的对象和语音中的单词。研究人员正在尝试将模式识别方面的成功应用于更复杂的任务，例如机器翻译、医疗诊断以及许多其他社会和企业问题。

尽管AI和机器学习的概念早已出现，但它们开始成为主流应用的一部分。但是，现在仍处于起步阶段。如果人工智能和机器学习有用并且令人印象深刻，当得到更好的训练和改进时，其实施将会更加有效。

[上一篇] 机器学习周刊第3期：怎么学习深度？

[下一篇] 职坐标：未来高薪行业中的A与深度学习的崛起