使用随机森林研究排名因素
随机森林算法由 Leo Breiman 和 Adele Cutler 于 20 世纪 90 年代中期开发。从那时起它就没有经历过任何重大的修改,这证明了它的高质量和通用性:它用于分类、回归、聚类、特征选择和其他任务。
尽管随机森林算法并不为公众所熟知,但我们选择它的原因如下:
它是最流行的机器学习算法之一,具有无与伦比的准确性。它的第一个也是主要的应用是根据变量的重要性对变量进行排序(它的性质非常适合这项任务——我们将会回到这一点);所以这似乎是一个显而易见的选择。
随机子空间方法为每个学习者提供随机的特征样本,而不是全部。这确保学习者不会过度关注预先定义的特征集,也不会对样本外的数据集做出有偏见的决策。
bagging(或引导聚合)方法也提高了准确性。它的主要优点是它为学卢森堡电子邮件列表习者提供的不是整个数据集,而是随机样本。
我们知道,我们拥有的不是一棵决策树,而是一整片由数百棵树组成的森林,因此我们可以确保每个特征和每对域都会被分析相同的次数。因此,决策树森林方法是稳定的并且错误最少。
成对方法:输入数据的预处理
我们决定根据来自全球数据库(美国、西班牙、法国、意大利、德国等)的 600,000 个关键词、前 20 个搜索结果的 URL 位置数据以及假定排名因素列表来进行研究。由于我们不打算使用相关性分析,因此我们必须在应用机器学习算法之前执行二元分类。这项任务是使用成对方法进行的:这是最流行的机器学习排名方法之一,微软在其研究项目中也使用了该方法。