ML/Deep Learning Note3-数据集

数据集的分类

1、训练数据集:负责拿来训练模型参数的(W b等等)

2、验证数据集(通常从训练数据集中取没有用过的数据集):用于选择模型超参数

3、测试数据集:全新的、可能没有任何标签的数据集,用于测试模型的水平

warning:训练数据集和验证数据集不要混在一起用

k则交叉验证数据集

img

上图为K=3的例子

图中将数据集均分为3部分,每一次取其中1/3作为验证数据集,重复三次,取K个验证数据集的误差的平均

tips:通常 K=5 或 K=10

K则数据集只用于数据量少的情况,不用于数据量大的数据集