掘金 阅读 ( ) • 2021-09-21 15:18
对于包含$m$个实例的数据集$D$,每个实例$\pmb{x}i=(x{i1},...,x_{id})$有$d$个特征描述,每个实例是$d$维样本空间$\mathcal{X}$中的一个向量,即$\pmb{x}_i \in \mathcal{X}$,$d$则称为样本$\pmb{x}_i$的维数。
对于一个训练集${(\pmb{x}_1,y_1),...,\pmb{x}_m,y_m)}$,学习目标是建立一个样本空间到标记空间的映射,即$\mathcal{X} \mapsto \mathcal{Y}$,对于二分类任务,$\mathcal{Y}={-1,+1}\ or\ {0,1} $。
机器学习算法在学习过程中对某种类型假设的偏好,如下图所示,训练集中有几个样本点,学得与训练集分布一致的模型即找到一条能够穿过所有样本点的曲线并用找到一个函数来表示这条曲线,对于这几个样本点可能有无数条曲线可以同时穿过它们,因此必须令学习算法有某种“偏好”才能选出一条最“正确”的曲线: ... 阅读全文