标准建模流程之模型选择 2011-10-04

由于训练数据既包含输入-输出之间的规律,也包含噪声,所以建模时会同时匹配出上述两种情况,如果模型太复杂,就会将噪声也包含在其中。好的模型足够对输入-输出之间的规律建模,又不够对噪声建模(当然,前提是噪声较信号为弱)。首先定义两个名词:

训练误差:是在训练样本上的平均损失,亦称经验风险。

测试误差:是在与训练数据独立同分布的测试数据上的平均损失,亦称期望风险;

估计不同模型的性能,选择出能使测试误差最小的模型m,这个过程就是所谓模型选择。但测试误差通常是很难提前计算的(比如预测问题),因此主要方法就是用训练误差去估计,而训练误差是测试误差的欠估计(有偏)。因此在模型选择复杂度时,存在偏差-方差的平衡,也就是说要预防过拟合的出现。


在所谓的模型选择中,有时候指的是选择模型类别\cheta,如所有2个高斯分布的混合模型与所有3个高斯分布的混合模型。有时也指在某类别模型中的一员,比如高斯分布的参数\theta的值为{\miu,\sigma},就是说类别是固定时考虑的是不同的参数值。在实际应用中,必须同时考虑上述两种情况,也就是说模型空间M={cheta,theta}。

单模型选择讨论参数\theta,我们的应用比如在时间序列分析中根据AIC来确定对某个序列拟合ARIMA模型中(p,d,q)这三个参数;多模型选择讨论参数\theta,我们的应用比如在投票模型中根据方差倒数来确定模型的权重。最后,在模型选择方面应注意遵守以下原则:

简约性:奥卡姆原则,如非必要,勿增实体;

稳定性:比如输入稍微不同时,输出的差别应在可接受的范围内;

可识别性:模型参数的估计唯一,没有模棱两可的模型;

理论一致性:模型参数应该与理论或者常识一致,避免公式正确但结论荒谬,比如得到某些不可能为负的预测值(应用上,如时间序列模型预测消费时会弃掉负值);

拟合优度高:理解为模型在训练集上的表现,但这不是必要的。

预测效力高:即模型在测试集上的表现,这是衡量模型最重要的标准。



Powered by Jekyll on GitHub | ©2016 Meroa | Last modified: 2018-02-03