原文:https://www.bookbookmark.ds100.org/ch/12/prob_and_gen.html
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/12'))
我们介绍了一系列使用数据集创建模型的步骤:
- 选择一个模型。
- 选择损失函数。
- 通过最小化数据集上的损失来适应模型。
到目前为止,我们引入了常数模型(1)、一组损失函数(2)和梯度下降作为最小化损失(3)的一般方法。遵循这些步骤通常会生成一个模型,对它所训练的数据集进行精确预测。
不幸的是,一个只在训练数据上表现良好的模型几乎没有实际的实用性。我们关心模型对归纳的能力。我们的模型应该对人口做出准确的预测,而不仅仅是训练数据。这个问题似乎很难回答我们如何解释尚未看到的数据?
这里我们来看看统计的推论能力。我们首先介绍一些数学工具:随机变量、期望和方差。使用这些工具,我们可以根据我们的人口数据,甚至是我们没有用来训练模型的数据,得出关于模型长期性能的结论!