机器学习手记（1）

机器学习，研究如何通过计算的手段，利用经验来改善系统自身的性能。

研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）。有关于在计算机上从学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的情况时（例如看到一个没抛开的西瓜），模型会给我们提供相应的判断（例如好瓜），如果说计算机科学是研究关于“算法”的学问，那么类似的，可以说机器学习是研究关于“学习算法”的学问。

机器学习的目标是使得学得的模型能够很好地适用于“新样本”。

机器学习术语

机器学习的数据记录的集合，称之为“数据集”。

其中每条记录是关于一个事件或对象的描述，称为一个“示例”或“样本”。

反应事件或对象在某个方面的表现或性质的事项，称为“属性”或“特征”；属性上的取值，称为“属性值”。

属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。

例子

把西瓜的属性“色泽” “根茎” “敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置，由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”。

假设一个西瓜示例一共有3个属性，那么3为西瓜示例的“维数”

从数据中学得的模型的过程称为“学习”或“训练”、这个过程通过执行某个学习算法来学习算法来完成。训练过程中使用的数据称为“训练数据",其中每个样本称为一个”训练样本“，训练样本组成的集合称为“训练集”。

学得模型对应了关于数据的某种潜在的规律，英寸亦称“假设”；这种潜在规律自身，则称为“真相”或“真实”，学习过程就是为了找出或逼近真相。

为了通过样本来习得一个模型，仅有样本的属性是不够的，还需要有训练样本的“结果”信息。将样本结果的信息称之为“标记”。拥有了标记信息的示例，称为“样例”。一般地，用 $ ({x}_{i},{y}_{i}) $ 来表示第 i 个样例，其中 $ {y}_{i}\in Y $ x是示例 $ {x}_{i} $ 的标记， $ Y $ 是所有标记的集合，称为“标记空间”或“输出空间”。

若我们欲预测的是离散值，此类学习任务称为“分类”；若预测的是连续值，此类学习任务称为“回归”。

对于只涉及两个类别的“二分类”任务，通常称其中一个为“正类”，另一个为“反类”；涉及到多类别，称为“多分离”任务。

学得模型后，使用其进行预测的过程称为“测试”，被测试的样本称为“测试样本”。

我们还可以对西瓜做“聚类”，即将训练集中的西瓜分成若干组，每组成为一个“簇”；这些自动形成的簇可能对应一些潜在的概念划分。

根据训练数据是否拥有标记信息，学习任务可以分成两大类：“监督学习”和无监督学习“，分类和回归是前者的代表，而聚类是后者的代表。

机器学习术语

See Also

最近文章

分类

标签

友情链接

其它