韩永生, 齐志泉, 田英杰
比例标签学习(LLP)是一个弱标签学习问题,其中实例级标签信息以袋子的形式抽象,即只有每个袋子的标签比例可用.因此,LLP可以被归类为"学习袋社区",即由实例组成的"学习袋"是相互关联的.与典型的分类法类似,我们的目标不仅是学习一个分类器来极大地恢复训练数据中的实例级标签,而且还要将这种标签预测泛化到未见过的数据中.然而,由于统计估计的模糊性或近似性以及标签噪声的存在,这种学习框架更现实的情况是容易设想一种区间比例信息,而不是LLP中的实值比例.因此,对于这些通用场景,标准的LLP方法无法提供令人满意的标签预测器.文章提出了一种名为区间标签比例(bounded label proportions,BLP)的新学习框架来解决这个令人困扰的问题.此外,还提出了一种基于随机森林(RF)的BLP鲁棒算法:BLP-Forest算法,它能够较好地处理多类高维问题.为了便于比较,将实验分为两部分.首先,将BLP-Forest退化为标准LLP问题,以验证这两个相似学习问题之间的演变.结果表明,即使在配备实值比例信息的情况下,BLP-Forest也具有天然优势,这主要得益于RF算法的应用.在第二部分中,选择了具有多类和更高维度的大型数据集.同时,还特意为每个数据包中的比例信息添加了适当的噪声.所有实验都表明,BLP-Forest在大多数情况下都能获得最佳精度.最后,得出结论,在处理多类和高维度问题时,文章提出的方法性能最佳.