机器学习基础
Peng's Blog 只记录和技术相关的东西

机器学习基础


机器学习本质上属于应用统计学,更多地是关注与如何用计算机统计地估计复杂函数,不太关注为这些函数提供置信区间。

统计学中的两种主要的方法:

  1. 频率派估计
  2. 贝叶斯推断

一、学习算法

机器学习算法是一种能够从数据中学习的算法。

对于学习的定义:对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能会有所提升。

关于任务T:

机器学习任务定义为机器学习系统中应该如何处理样本(example)。样本是指我们从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。

机器学习可以解决很多类型的任务,一些非常常见的机器学习任务列举:

  1. 分类:在这类任务中,计算机程序需要指定默写输入属于k类中的哪一类。
  2. 输入缺失分类:当输入向量的每个度量不被保证时,分类问题将会变得更有挑战性。
  3. 回归:在这类任务中,计算机程序需要对给定输入预测数值。应用场景的话,比如预测证券未来的价格。
  4. 转录:在这类任务中,机器学习系统预测一些相对非结构化表示的数据,并转录信息为离散的文本形式。
  5. 机器翻译:输入的是一种语言的符号序列,计算机必须将其转换为另外一种语言的符号序列。
  6. 结构化输出:输出的是向量或者其它包含多个值的数据结构,并且构成输出的是这些不同元素间具有重要关系。
  7. 异常检测:在这类任务中,计算机程序在一组时间或对象中筛选,并标记不正常或非典型的个体。异常检测任务的一个示例是信用卡欺诈检测。
  8. 合成和采样:在这类任务中,机器学习程序生成一些和训练数据相似的新样本。可以省去人们的一些乏味费时的手工操作。
  9. 缺失值填补:在这类任务中,机器学习算法给定一个新样本 x∈R^n,x中某些元素xi缺失,算法必须填补这些缺失值。
  10. 去燥:在这类任务中,机器学习算法的输入是,干净样本经过为止损坏过程后得到的损坏样本。算法根据损坏后的样本,预测干净的样本。或者更一般地预测条件概率分布。
  11. 密度估计或概率质量函数估计:算法必须知道什么情况下样本聚集出现,什么情况下不太可能出现。

关于性能度量P:

主要是为了评估机器学习算法的能力。通常性能度量P是特定于系统执行的任务T而言的。

经验E:

根据学习过程中的不同经验,机器学习算法可以大致分类为:

无监督(unsupervised)算法 和 监督(supervised)算法

大部分学习算法可以被理解成在整个数据集上获取经验。数据集是指很多样本组成的集合。有时我们也将样本称为数据点。

无监督学习算法:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。在深度学习中,我们通常要学习生成数据集的整个概率分布,显式地,比如密度估计,或是隐式地,比如合成或去燥还有一些其它类型的无监督学习任务,例如聚类,将数据集分成相似样本的集合。

监督学习算法:训练含有很多特征的数据集,不过数据集中的样本都有一个标签(label)或目标(target)。

术语监督学习(supervised learning):源于这样一个视角,教员或者老师提供目标 y 给机器学习系统,直到其一个做什么。在无监督学习中,没有教员或者老师,算法必须学会在没有指导的情况下理解数据。


上一篇 Java内存泄漏

Comments

评论功能暂停使用,如需跟作者讨论请联系底部的GitHub