机器学习（一）---初识

什么是机器学习？

在没有明确设置的情况下，使得计算机具有学习能力的研究领域。
----Arthur Samuel
一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且仅当，有了经验E，经过P评判，程序在处理T时的性能有所提升。
----Tom Mitchell

什么是监督学习？

给算法一个数据集，该数据集内包含有正确的答案，让算法给出更多的准确答案。

属性（特征）

一般来说，一个学习问题通常会考虑一系列 n 个样本数据，然后尝试预测未知数据的属性。如果每个样本是多个属性的数据（比如说是一个多维记录），就说它有许多“属性”，或称 features(特征) 。

回归问题

回归指的是，我们在试着推测出一系列的连续值属性。
回归问题的一个例子是预测鲑鱼的长度是其年龄和体重的函数。

分类问题

分类指的是，样本属于两个或更多个类，我们想从已经标记的数据中学习如何预测未标记数据的类别。
分类问题的一个例子是手写数字识别，其目的是将每个输入向量分配给有限数目的离散类别之一。我们通常把分类视作监督学习的一个离散形式（区别于连续形式），从有限的类别中，给每个样本贴上正确的标签。

什么是无监督学习？

给算法一个数据集，让算法自动的将该数据集分成n类。（与监督学习不同，数据集没有任何的标签：或者有相同的标签；或者没有标签）。
其中训练数据由没有任何相应目标值的一组输入向量x组成。这种问题的目标可能是在数据中发现彼此类似的示例所聚成的组，这种问题称为聚类 , 或者，确定输入空间内的数据分布，称为密度估计，又或从高维数据投影数据空间缩小到二维或三维以进行可视化。

无监督学习的应用领域

社交网络分析、细分市场、天文数据分析、组织大型计算机集群等

什么是加速比

一个程序的串行版本的运行时间和他的并行版本的运行时间的比值。