机器学习,研究如何通过计算的手段,利用经验来改善系统自身的性能。

研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有关于在计算机上从学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没抛开的西瓜),模型会给我们提供相应的判断(例如好瓜),如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。

机器学习的目标是使得学得的模型能够很好地适用于“新样本”。

机器学习术语

机器学习的数据记录的集合,称之为“数据集”。

其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。

反应事件或对象在某个方面的表现或性质的事项,称为“属性”或“特征”;属性上的取值,称为“属性值”。

属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。

例子

把西瓜的属性“色泽” “根茎” “敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”。

假设一个西瓜示例一共有3个属性,那么3为西瓜示例的“维数”

从数据中学得的模型的过程称为“学习”或“训练”、这个过程通过执行某个学习算法来学习算法来完成。训练过程中使用的数据称为“训练数据",其中每个样本称为一个”训练样本“,训练样本组成的集合称为“训练集”。

学得模型对应了关于数据的某种潜在的规律,英寸亦称“假设”;这种潜在规律自身,则称为“真相”或“真实”,学习过程就是为了找出或逼近真相。

为了通过样本来习得一个模型,仅有样本的属性是不够的,还需要有训练样本的“结果”信息。将样本结果的信息称之为“标记”。拥有了标记信息的示例,称为“样例”。 一般地,用 $ ({x}_{i},{y}_{i}) $来表示第 i 个样例,其中$ {y}_{i}\in Y $x是示例$ {x}_{i} $的标记,$ Y $是所有标记的集合,称为“标记空间”或“输出空间”。

若我们欲预测的是离散值,此类学习任务称为“分类”;若预测的是连续值,此类学习任务称为“回归”。

对于只涉及两个类别的“二分类”任务,通常称其中一个为“正类”,另一个为“反类”;涉及到多类别,称为“多分离”任务。

学得模型后,使用其进行预测的过程称为“测试”,被测试的样本称为“测试样本”。

我们还可以对西瓜做“聚类”,即将训练集中的西瓜分成若干组,每组成为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分。

根据训练数据是否拥有标记信息,学习任务可以分成两大类:“监督学习”和无监督学习“,分类和回归是前者的代表,而聚类是后者的代表。