两种最广泛采用的机器学习方法是监督学习和无监督学习,但它们并不是唯一的方法。
通过标记示例训练监督学习算法,作为已知所需输出的输入。例如,设备可能具有标记为“F”(失败)或“E”(执行)的数据点。学习算法接收一组输入及相应的正确输出,并通过将实际输出与正确输出进行比较来学习以发现错误。然后它修改结算模型。通过分类、回归和梯度增强等方法,监督学习使用标准来预测附加的非标记数据中的标签值。监督学习通常用于历史数据预测可能的未来事件的应用中。例如,它可以预测信用卡交易何时可能是欺诈性的,或者哪些投保人倾向于要求其政策。
非监督学习用于针对没有历史标签的数据。“正确答案”未向系统报告。算法必须找出所显示的内容。目标是探索数据并在其中找到一些结构。无监督学习适用于交易数据。例如,它可以识别具有相似属性的客户群,然后可以在营销活动中对其进行类似处理;或者它能够找到分隔不同客户群的关键属性。常用的技术包括自组织映射、邻近映射、k-均值分组和分解为奇异值。这些算法还用于分割文本主题、推荐项目和识别数据中的差异点。
半监督学习用于与监督学习相同的应用程序,但处理有标签和无标签的数据来进行培训——通常是用大量无标签数据标记的少量数据(因没有标签的数据更便宜,并且要消耗更少的精力来获取)。这类学习可用于分类、回归和预测等方法。当与标签相关的成本过高而没办法实现完全标记的培训过程时,半监督学习非常有用。其典型例子包括在网络摄像头上识别人脸。
强化学习通常用于机器人、游戏和导航。有了它,算法通过尝试和错误发现,哪些行为会带来更大的回报。这种类型的学习有三个主要组成部分:代理(学习者或决策者)、环境(代理与之交互的所有内容)和行动(代理可以做什么)。目标是让代理选择在给定时间段内最大化预期回报的行动。如果代理遵循一个好的政策,可以更快地实现目标。因此,强化学习的重点是找出最佳策略。
虽然所有这一些方法都有相同的目标,提取可用于决策的见解、模式和关系,但它们具有不一样的方法和功能。
数据挖掘可以被视为从数据中提取洞察力的许多不同方法的超集。它可能涉及传统的统计方法和机器学习。数据挖掘应用来自多个区域的方法来识别数据中先前未知的模式。这可能包括统计算法、机器学习、文本分析、时间序列分析和其他分析领域。数据挖掘还包括数据存储和操作的研究和实践。
通过机器学习,目的是了解数据的结构。因此,统计模型背后有一个理论是经过数学证明的,但这要求数据也满足某些假设。机器学习是从使用计算机检查数据结构的能力发展而来的,即使人们不知道这种结构是啥样子的。机器学习模型的测试是新数据中的验证错误,而不是证明空假设的理论测试。由于机器学习通常使用迭代的方法从数据中学习,因此能轻松地自动学习。这些步骤通过数据执行,直到找到一个可靠的标准。
深度学习结合了计算能力的进步和特殊类型的神经网络,以学习大量数据中的复杂模式。深度学习技术是当今最先进的技术,用于识别图片中的对象和语音中的单词。研究人员正在尝试将模式识别方面的成功应用于更复杂的任务,例如机器翻译、医疗诊断以及许多其他社会和企业问题。
尽管AI和机器学习的概念早已出现,但它们开始成为主流应用的一部分。但是,现在仍处于起步阶段。如果AI和机器学习有用并且令人印象非常深刻,当得到更优秀的训练和改进时,其实施将会更加有效。