您正在使用IE低版浏览器,为了您的FUTUREAI账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
FUTUREAI 智能新品
发私信给FUTUREAI
发送

人工智能机器学习工程师需要知道的10种算法

本文作者:FUTUREAI 2018-07-18 16:23
导语:毫无疑问,机器学习/人工智能的子领域在过去几年中越来越受欢迎。 由于大数据是目前科技行业最热门的趋势,因此机器学习非常强大,可以根据大量数据进行预测或计算建议。 机器

毫无疑问,机器学习/人工智能的子领域在过去几年中越来越受欢迎。 由于大数据是目前科技行业最热门的趋势,因此机器学习非常强大,可以根据大量数据进行预测或计算建议。 机器学习的一些最常见的例子是Netflix的算法,用于根据您过去观看的电影制作电影建议,或亚马逊的算法,根据您之前购买的书籍推荐书籍。

因此,如果您想了解有关机器学习的更多信息,您将如何开始? 对我来说,我的第一次介绍就是我在哥本哈根留学期间参加人工智能课程。 我的讲师是丹麦技术大学的全职应用数学和CS教授,他的研究领域是逻辑和人工,主要侧重于使用逻辑来模拟人类的计划,推理和解决问题。 该课程是对理论/核心概念和动手解决问题的讨论的混合。 我们使用的教科书是AI经典之一: Peter Norvig的人工智能 - 现代方法 ,其中我们涵盖了主要的主题,包括智能代理,搜索解决问题,对抗性搜索,概率论,多智能体系统,社交AI人工智能的哲学/道德/未来。 在课程结束时,在3人团队中,我们实施了简单的基于搜索的代理,将虚拟环境中的运输任务作为编程项目。

由于该课程,我学到了大量的知识,并决定继续学习这个专业的主题。 在过去的几周里,我在旧金山进行了多次关于深度学习,神经网络,数据架构的技术会谈 - 以及与该领域许多知名专业人士的机器学习会议。 最重要的是,我参加了Udacity的机器学习简介   六月初的在线课程,几天前刚刚完成。 在这篇文章中,我想分享一些我从课程中学到的最常见的机器学习算法。

机器学习算法可以分为3大类 - 监督学习,无监督学习和强化学习。监督学习对于特定数据集( 训练集 )可用属性( 标签 )但缺少并且需要的情况很有用。可以预测其他情况。 在挑战是发现给定未标记数据集中的隐式关系(项目未预先分配)的情况下,无监督学习非常有用。 强化学习介于这两个极端之间 - 每个预测步骤或操作都有某种形式的反馈,但没有精确的标签或错误信息。 由于这是一个介绍课程,我没有学习强化学习,但我希望有关监督和无监督学习的10种算法足以让你感兴趣。

监督学习


1.决策树 :决策树是一种决策支持工具,它使用树状图或决策模型及其可能的后果,包括机会事件结果,资源成本和效用。 看一下图像,了解它的外观。


决策树


从业务决策的角度来看,决策树是一个人必须要求的最小数量的是/否问题,以评估在大多数情况下做出正确决策的可能性。 作为一种方法,它允许您以结构化和系统化的方式处理问题,以得出合乎逻辑的结论。

2.朴素贝叶斯分类 :朴素贝叶斯分类器是一类简单概率分类器,它基于应用贝叶斯定理,在特征之间具有强(天真)独立假设。 特征图像是等式 - P(A | B)是后验概率,P(B | A)是似然,P(A)是类先验概率,P(B)是预测先验概率。


朴素贝叶斯分类


一些现实世界的例子是:

  • 将电子邮件标记为垃圾邮件或非垃圾邮件

  • 对有关技术,政治或体育的新闻文章进行分类

  • 检查一段表达积极情绪或负面情绪的文字?

  • 用于人脸识别软件。

3.普通最小二乘回归 :如果你知道统计数据,你可能以前听说过线性回归。 最小二乘法是一种执行线性回归的方法。 您可以将线性回归视为通过一组点拟合直线的任务。 有多种可能的策略可以做到这一点,“普通最小二乘”策略是这样的 - 你可以绘制一条线,然后为每个数据点测量点和线之间的垂直距离,并添加它们; 拟合线将是这个距离总和尽可能小的线。


普通最小二乘回归


线性是指您用来拟合数据的模型,而最小二乘是指您最小化的误差度量。

4. Logistic回归 :Logistic回归是一种使用一个或多个解释变量对二项式结果建模的强大统计方法。 它通过使用逻辑函数(累积逻辑分布)估计概率来测量分类因变量与一个或多个自变量之间的关系。


Logistic回归


通常,回归可用于实际应用,例如:

  • 信用评分

  • 衡量营销活动的成功率

  • 预测某种产品的收入

  • 某一天会发生地震吗?

5.支持向量机 :SVM是二元分类算法。 给定N维位置中的2种类型的点集,SVM生成(N-1)维超平面以将这些点分成2组。 假设您在纸张中有两种类型的点可线性分离。 SVM将找到一条直线,将这些点分成两种类型,并尽可能远离所有这些点。


支持向量机


在规模方面,使用SVM(具有适当修改的实现)解决的一些最大问题是显示广告,人体拼接站点识别,基于图像的性别检测,大规模图像分类

6.集合方法 :集合方法是学习算法,其构造一组分类器,然后通过对其预测进行加权投票来对新数据点进行分类。 最初的集成方法是贝叶斯平均,但最近的算法包括纠错输出编码,装袋和增强。


集成学习算法


那么整体方法如何运作?为什么它们优于单个模型?

  • 他们平均偏见:如果你把一堆民主倾向的民意调查和共和党倾向的民意调查放在一起,那么你将得到一个平均的东西。

  • 它们减少了方差:一组模型的总体意见比其中一个模型的单一意见噪音小。 在金融领域,这被称为多样化 - 许多股票的混合投资组合变化远不如仅仅一只股票。 这就是为什么你的模型会有更多的数据点而不是更少的数据点。

  • 它们不太可能过度拟合:如果您有单独的模型没有过度拟合,并且您正在以简单的方式(平均,加权平均,逻辑回归)组合每个模型的预测,那么就没有空间可以结束-配件。

无监督学习


7.聚类算法 :聚类是对一组对象进行分组的任务,使得同一组( 聚类 )中的对象彼此更相似,而不是与其他组中的对象相似。


聚类算法


每个聚类算法都不同,这里有几个:

  • 基于质心的算法

  • 基于连接的算法

  • 基于密度的算法

  • 概率

  • 维度降低

  • 神经网络/深度学习

8.主成分分析 :PCA是一种统计程序,它使用正交变换将可能相关变量的一组观察值转换为一组称为主成分的线性不相关变量值。


主成分分析


PCA的一些应用包括压缩,简化数据以便于学习和可视化。 请注意,在选择是否继续使用PCA时,领域知识非常重要。 它不适用于数据有噪声的情况(PCA的所有组件都有很高的变化)。

9.奇异值分解 :在线性代数中,SVD是真实复杂矩阵的分解。 对于给定的m * n矩阵M,存在分解使得M =UΣV,其中U和V是酉矩阵并且Σ是对角矩阵。


奇异值分解


PCA实际上是SVD的简单应用。 在计算机视觉中,第一个人脸识别算法使用PCA和SVD来表示人脸作为“特征脸”的线性组合,进行降维,然后通过简单的方法将人脸与身份相匹配; 虽然现代方法要复杂得多,但许多仍然依赖于类似的技术。

10.独立分量分析 :ICA是一种统计技术,用于揭示隐藏因素,这些因素构成随机变量,测量或信号的基础。ICA定义了观察到的多变量数据的生成模型,该模型通常作为大型样本数据库给出。 在该模型中,假设数据变量是一些未知潜在变量的线性混合,并且混合系统也是未知的。 假设潜在变量是非高斯的并且相互独立,并且它们被称为观察数据的独立分量。


独立成分分析


ICA与PCA有关,但它是一种更强大的技术,能够在这些经典方法完全失败时找到源的潜在因素。 其应用包括数字图像,文档数据库,经济指标和心理测量。

现在,您将了解算法,以创建机器学习应用程序,为各地的人们提供更好的体验。


声明:景智AI网尊重行业规范,任何转载稿件皆标注作者和来源;景智AI网的原创文章,请转载时务必注明文章作者和"来源:景智AI网", 不尊重原创的行为将受到景智AI网的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至:mailto:813501038@qq.com

分享:
相关文章
最新文章