什么是机器学习?
- 在没有明确设置的情况下,使得计算机具有学习能力的研究领域。 ----Arthur Samuel
- 一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E,经过P评判,程序在处理T时的性能有所提升。 ----Tom Mitchell
什么是监督学习?
给算法一个数据集,该数据集内包含有正确的答案,让算法给出更多的准确答案。
属性(特征)
一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。
回归问题
回归指的是,我们在试着推测出一系列的连续值属性。
回归问题的一个例子是预测鲑鱼的长度是其年龄和体重的函数。
分类问题
分类指的是,样本属于两个或更多个类,我们想从已经标记的数据中学习如何预测未标记数据的类别。
分类问题的一个例子是手写数字识别,其目的是将每个输入向量分配给有限数目的离散类别之一。 我们通常把分类视作监督学习的一个离散形式(区别于连续形式),从有限的类别中,给每个样本贴上正确的标签。
什么是无监督学习?
给算法一个数据集,让算法自动的将该数据集分成n类。(与监督学习不同,数据集没有任何的标签:或者有相同的标签;或者没有标签)。
其中训练数据由没有任何相应目标值的一组输入向量x组成。这种问题的目标可能是在数据中发现彼此类似的示例所聚成的组,这种问题称为 聚类 , 或者,确定输入空间内的数据分布,称为 密度估计 ,又或从高维数据投影数据空间缩小到二维或三维以进行 可视化。
无监督学习的应用领域
社交网络分析、细分市场、天文数据分析、组织大型计算机集群等
什么是加速比
一个程序的串行版本的运行时间和他的并行版本的运行时间的比值。