原文: https://machinelearningmastery.com/clever-application-of-a-predictive-model/
如果您可以使用预测模型来查找数据中不存在但可能有价值的新属性组合,该怎么办?
在 Applied Predictive Modeling 的第 10 章中,Kuhn 和 Johnson 提供了一个案例研究。这是一个如何使用预测模型的迷人和创造性的例子。
在这篇文章中,我们将发现这种不太明显的预测模型的使用以及它所属的实验设计的类型。
湿混凝土 摄影:美国海军官方网页,保留一些权利
案例研究中模拟的问题是不同混凝土混合物的抗压强度。数据中的每条记录都由混凝土混合物的成分含量来描述,例如:
- 水泥
- 飞灰
- 高炉渣
- 水
- 减水剂
- 粗骨料
- 细骨料
所得混合物所关注的性质是混凝土的抗压强度。需要具有较少或较便宜成分的强混凝土。
请参阅 Applied Predictive Modeling 的第 10 章,以深入了解该问题。
许多复杂的机器学习方法都会在这个回归问题上进行现场检查,例如:
- 线性回归
- 径向偏置函数支持向量机(SVM)
- 神经网络
- 火星
- 回归树(CART 和条件推理树)
- Bagged 和 Boosted 决策树
根据预测的 RMSE 和 R ^ 2 考虑模型准确率。一些表现更好的方法是神经网络,Boosted 决策树,立体主义和随机森林。
这是案例研究的聪明部分。
在创建和选择精确模型(神经网络和立体模型)之后,使用模型来定位新的混合物量,从而提高混凝土压缩强度。
这涉及使用称为 Nelder Mead 算法的直接搜索方法(也称为模式搜索)来搜索参数空间中的混合量的组合,当传递给预测模型时,预测具体压缩强度大于数据集中的任何压缩强度。
发现了许多新的混合物,并在相对于提供的数据的投影域中绘制。这些新混合物代表了可以进行实际商业实验的基础,以便找到改进的混凝土混合物。
该方法与称为响应面方法(RSM)的特定类型的实验设计有关。
当您想要开发,改进或优化新产品或现有产品的流程时,可以使用 RSM。它通常用于工业设置。它用于输入和输出之间的关系不能很好理解并需要估计的问题。
执行设计的实验以收集输入和响应变量或变量的示例。输入变量可以是过程中的数量或时间,输出或响应变量是强度或质量等结果所需的。
构造统计模型以近似自变量和因变量之间的关系,最后优化过程探索输入的新组合以最大化输出变量。
在执行设计实验之前的关键步骤是将变量的数量减少到仅已知影响响应变量的那些因素。这是一种特征选择形式,我们对机器学习非常熟悉。
简单模型用于模拟函数关系,例如一阶或二阶多项式。该方法称为响应面,因为许多问题的响应面的连续性以及如何将其绘制为二维表面。
代理建模是指使用 RSM 构建的模型代替问题的模拟。例如,在航空领域,您可以设计和制造飞机机翼,在软件中进行设计并在模拟器中进行测试,并对实验结果或模拟结果进行建模,并估算要测试的新设计。
模型可以更精细地捕获输入和响应变量之间的复杂非线性关系。例如,可以使用支持向量机和神经网络。另外,可以使用更强大的直接搜索方法,其使用随机过程,例如模拟退火或进化算法。
整个过程可能是这样的
- 减少涉及的变量数量
- 设计实验并按顺序执行它们以收集源数据到模型
- 根据实验数据构建代理模型
- 使用代理模型将搜索方法应用于变量
- 基于替代模型的优化预测顺序执行实验
- 迭代步骤 3 到 5,直到满足停止条件
在这篇文章中,您发现了一种使用预测模型的巧妙方法。
在案例研究中,您了解了使用机器学习算法对混凝土混合物实验结果进行建模的示例,搜索具有最佳抗压强度的混合器的参数空间,可以作为进一步实验的基础。
您了解到这种类型的实验设计称为响应面方法,用于工业问题领域,如混凝土混合物实例。您还了解到,预测模型是本案例研究称为代理模型。
这是一种功能强大的方法,您可以在其他具有大量计算开销的域中使用这些方法来执行模拟。
以下是您可能希望了解的一些书籍,以了解有关此实验设计和优化方法的更多信息。