网站首页 > 技术文章 正文
摘要:
在众包问答服务中,工人推荐(WR)是最为重要的部分之一,具体来说,考虑到要解决的一系列的任务,工人推荐建议每一个任务由一组特定的工作人员完成,他们应当能及时的给出高质量的答案。为了解决工人推荐问题,最近的研究介绍了许多不同的推荐方法,这些方法利用了工人们对不同类型任务的专业知识或者偏好。然而,如果不彻底的考虑工人这个角色,这样的方法将导致执行任务不足,或者答案的质量低劣。在这项工作中。我们提出了三重因素感知工人推荐框架,该框架同时考虑到工人的专业知识、偏好和主动性,以最大限度的提高高质量答案的总体产量。我们构造了潜在的层次分解模型,它能够从历史数据中推断出任务的基础类别和工人的潜在特征,我们提出了一种新的参数推理方法,它只需要处理积极实例,从而产生更高的时间效率和更好的推理质量。此外,我们开发了基于抽样的推荐算法,使得可以针对所呈现的一批任务生成近乎最佳的工作者推荐,同时显着减少时间消耗。本文使用真实和合成数据集进行了综合实验,其结果验证了我们提出的方法的有效性和效率。
介绍:
最近,大量的众包问答应用程序应运而生,比如Stack Exchange,Yahoo Answer和Quora,作为结果,使用群体的智慧变得越来越便利。随着人群参与的快速增长,工人建议是管理众包问答平台问答服务的一个核心问题,即为已发布的任务寻找合适的工人并积极询问他们的解决方案。以Quora为例,当人们要发布他们的任务时,平台提供了一些应当回给出满意反馈的候选工作者,并且允许要求这些工人们给出答案。
工人推荐的问题引起的广泛的关注。根本上来说大多数现有的方法都是将工人推荐视为“发现专家”问题,这里涉及到两个操作,首先根据特定标准对任务进行分类,其次,根据工人们的历史回答答案,将他们对各种分类的专业知识进行排名。这样我们给定一个新任务的时候,我们可以对任务识别分类并推荐这个类别最高专业知识的工人进行回答。
尽管现在工作有所进展,但是工人的推荐问题不能仅仅考虑到工人的专长,为了更好更方便及时的收获高质量的答案,工人推荐应该联系考虑下面三个因素:专业知识、偏好和积极性。结合这三个因素的原因如下:首先,人群在不同的领域拥有不同的技能,要做到确保获得的答案是可靠的,所建议的工人必须在特定任务的相关领域具备足够的专业知识;其次,人群对不同类型任务的偏好是不一致的,对于有些人来说可能更喜欢数学问题而不是古典文学问题,如果两个类别的任务是可选的,他们可能会优先选择数学问题,因此我们应该考虑那些对所提出任务类型有偏好的人。最后,人们的活跃度各不相同:有干劲的积极的工人能够在短时间内解决大量的问题,而消极的工人只能解决很少的问题。为了及时的获得反馈,我们希望工人在回答的时候是积极的。在这项工作中,我们提出了三重因素感知工人推荐框架(简称TriRec),在TriRec中构建了潜在的层次分解模型(简称LHFM),它根据内容对任务进行分类,并根据专业知识、偏好性和积极性对工人进行描述。
最优工人推荐:
最大加权二分分配问题,是可以解决最优工人建议的传统方法,例如匈牙利或连续最短路径,然而这一方法的时间复杂度可能和 O(|T |2|W2|).一样高,这对于大规模问题来说是不切实际的。即使我们使用简单的贪心算法来加速计算并提出与其近似的结果,这仍然需要O(|T |2|W |)的运行时间,在本文中,我们使用工人的特征索引设计了一种基于样本的推荐算法。简单的说,工人用一个| K | * | W |矩阵索引记录工人对每种任务类型的推荐程度,即效用表,当一批任务出现时,我们将连续抽样它们的基础类别(基于其潜在的语义向量)和候选工作者(基于效用表)。 从抽样候选人中,我们通过对候选人的实用程序进行抽样来递归地生成推荐结果,直到所有任务都被推荐为具有所需数量的工作人员,这种方式仅使用O(| T |)运行时间。
实验:
我们用实验来评估方法的三个方面:
1. 具有三重因素感知的工人推荐效果
2,仅考虑正实例的参数推断效果(简称仅正面推断)
3,使用基于抽样算法对工人推荐的影响。
(1)三因素评估
我们总计选择了100个任务进行评估,其中每个人物使用具有top-K实用程序的工作人员,Tri,Pre,Exp,Act分别代表Top-K EFP、首选项、专业知识和积极性。累计答案得分(ACC),获得答案总数(#Ans)和平均得分(Score)。获得的实验结果如图2所示,三因素感知工人推荐的优势反映在图2a中,其中三因素评估在每个测试组中产生最高的累积答案评分,关于他的优势的原因是非常直接的,因为工作人员不仅可能按时完成给定的任务,而且能够正确的解决他们,而所有的基线方法都只是强调一种工人的特征,通过以下观察可以进一步验证这种解释:
图1b所示,三因素感知方法获得了最多的获得答案,虽然首选度方法也接近最大限度地获得答案(通过向那些具有最高偏好的工人推荐任务),但是他忽略了活跃因素从而导致获得的答案总数偏低,专业知识和活跃度的答案总数显著降低,因为他们完全忽略了工人对不同类型任务的偏好程度,更重要的是,三因素的平均分数和专业知识(推荐具有最高专业知识的工人)相当,并且远远高于偏好度和活跃度,(图1c所示)这样的发现意味着三因素推荐算法排除了那些不太可能产生高质量答案的低专业技术工人。
(2) 仅考虑正实例的推理评估
和传统的BCF(二元级协同过滤技术)的比较,我们策略总共1000个随机选择的任务,并记录所有比较方法的工人特征的时间消耗,Recall@K是一种广泛使用的对推荐系统推理质量的度量,Recall@K值越大意味着大部分推荐工作人员将对所提出的任务给出答案,从而反映出更好的工作偏好、积极性和推理质量。其结果如图2所示。
可以观察到Pos(仅考虑正相关的推理) 产生最大的Recall@K值并产生相对较低的时间成本(仅大于Bcf -0.5)。也就是说,Pos可以获得最佳的推理质量,同时保持较高的运行效率。此外,适度减少δ可以在一定程度上改善Bcf的推理质量(因为Bcf得到最高的Recall@K时δ为0.02)。这是因为较小的值将包含更多的训练样本。然而,δ的减少不可避免地导致两个副作用:1)随着需要处理更多的训练实例,时间消耗将大大增加; 2)伪否定实例可能是错误的,这阻止了Bcf进一步改善推理质量(如Bcf - 0.02的Recall@K仍远低于Pos的值)。
(3)基于样本的推荐评估:
这些实验是通过以下方式进行的:(1)不同的任务规模(200至2000)和数量庞大的工人(2000);(2)工人的变异规模(200到2000)和任务数量(200)。使用真实和合成的数据集。结果在图3中报告,时间成本显示在图4中,其中可以观察到以下有趣的现象。
首先,近似的表现明显高于理论下界(贪婪的1/2和样本的1/4)。最糟糕的贪婪案例和样本案例的一个必要条件是所有任务共享一组类似的有利工作者,在初始阶段推荐的任务可能会影响后续工作。然而,这种情况几乎不可能在实际或合成环境中保持不变:在实际环境中,由于语义向量的差异,任务的推荐实用程序在工作者中大大多样化;而在合成环境中,由于独立生成,任务的EFP也和工人有着显着不同。
其次,样本的性能接近于贪婪和真实的最佳结果(图3(a),(b))和伯努利合成(图3(e),(f))数据。无论是真实的还是伯努利合成的数据集,任务的总推荐(在整个工人中)都集中在一小群“有利的工人”身上。 (这样“集中”属性在实践中很常见,因为很可能只有极少数工人非常适合推荐用于特定任务)因此,我们可以选择具有更高概率的工人,这样可以减少样本和贪婪之间的性能差距。
第三,样本和贪婪之间的性能比随着任务规模的增加而变小(图3(a),(c),(e))。同时,Sample的时间成本远低于基线(如图4(a)(b)所示);由于样本仅需要O(|T|)时间的轮采样操作,并且每个采样都可以在O(1)的时间内采用Alias方法完成。此外,Sample的时间成本和任务规模呈线性关系(图4(c)),而与工人的规模无关(图4d)。
实验结果:
实验研究的主要研究结果可归纳为以下几点:
- 三重因素感知方法将给定的任务提供给那些不仅能够大概率能及时给出答案、并且还能解决高质量任务的工人,因此在所有比较方法的总EFP最高。
- 仅正实例的有着最好的推理质量,同时保持高运行效率。
- 基于采样的方法能够在现实世界设置下进行接近最优的推荐,并且时间成本大大降低。 此外,基于抽样的方法显示出令人满意的时间可扩展性,因为其运行时间与任务规模呈线性关系,并且与工人规模无关。
总结与展望:
在这项工作中,我们提出了三重因素意识工作者推荐框架,该框架全面考虑了工人的专业知识,偏好和主动性,以最大限度地提高高质量答案的产生。在此框架中,构建LHFM以准确估计任务的基础类别并推断工人的潜在角色。由于采用了仅积极推理,模型的参数可以更高效更高质量的学习。此外,提出基于采样的算法以极大加速和时间可缩放的方式生成近似最优工作者推荐。对真实和合成数据集进行了广泛的实验研究,其结果验证了我们提出的方法的有效性和效率。在未来的工作中,我们将考虑三因素意识的适应性,以更好地适应用户的个性化请求,这将使系统更具互动性和用户友好性。
致谢
由南京大学2019硕士生李文龙翻译转述。
猜你喜欢
- 2024-10-02 如何构建一个推荐系统的验证框架 推荐系统如何设计
- 2024-10-02 谷歌、南加州发布:从视频中自监督学习,研究机器人行为
- 2024-10-02 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决
- 2024-10-02 酷睿Ultra 9 285K跑分超锐龙9950,微软确认Recall功能不可卸载
- 2024-10-02 麦吉尔大学马辰博士:Top-K推荐中的自适应概率度量学习
- 2024-10-02 推荐系统和TensorRec入门 推荐系统好做吗
- 2024-10-02 信息检索中的度量指标全解析 信息检索效率的评价指标是查全率和查准率
- 2024-10-02 深度度量学习的这十三年,难道是错付了吗?
- 2024-10-02 RAG技术:RAG中用来评估信息检索准确性的7个指标
- 2024-10-02 PlugIR:开源还不用微调,即插即用的多轮对话图文检索 | ACL 2024
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)