网站首页 > 技术文章 正文
论文链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf
- abstract
点击特征在长尾query上的稀疏性问题
基础相关性三大技术:排序函数,语义匹配特征,query改写
- introduction
问题:
1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’;
2)大量的长尾query使得点击模型失效;
3)用户视搜索引擎为智能问答系统,希望一键找到答案。
综合相关性:
时效性query:‘safest cars’
地域性query:‘walmart’,‘restaurant’
本文重点:
1)排序函数设计:learning to rank,考虑上下文的rerank
2)三种语义匹配特征,将头部query的点击特征迁移至长尾query:点击相似度(click similarity),深度语义匹配(deep semantic matching),转译文本匹配(translated text matching)
3)query改写:针对长尾query
4)时效性,地域性排序
- background
——overview of architecture
按doc分片索引,并行召回,打分,去重,基础排序(core ranking)
——ranking features
网络拓扑(web graph):通过网页拓扑连接关系决定doc质量或热度。pagerank;与已知优劣网页的距离
doc statistics:网页各域(field)的词数
doc classifier:spam/adult/langrage/main topic/quality/type(navigational,informational)
query features:包含词数;query频次;各词词频(tf);有点比(ctr)
text match:各域文本匹配特征(title, body, abstract, keywords, anchor text, url),可以是计数或更复杂(例如BM25);query各词邻近度(proximity),在doc正文中词之间越近越好
topical matching:主题相似度
click:click,first click,last click,long dwell time click,only click
time:新鲜度(freshness);inlink和outlink的新鲜度
——evaluation of search relevance
dcg@1,3,5;置信度:wilcoxon t-test方法给出p-value
三个query集合:高频(top),低频(torso),长尾(tail)。本文重点关注低频和长尾query的效果。
- machine learned ranking
基础排序(core ranking)使用GBDT model,logistic loss:LogisticRank
使用perfect,excellent,good信息放大梯度信息有更大提升
——core ranking
perfect/excellent/good对应scale:3/2/1
LogisticRank >> GBRank, LambdaMart尤其在高频query上
GBRank(混合了pairwise loss和pointwise loss) > LambdaMart(listwise loss,只学习doc的相对顺序)
长尾query上:GBRank接近LogisticRank,LogisticRank在去除bad结果效果明显
在LTR challenge data set上DCG@5:LambdaMart > GBRank > LogisticRank,原因是商用搜索引擎数据中有明显更多的bad query-doc pair
定义基线为‘background’部分所述特征+LogisticRank。
——contextual reranking
在少量数十个top results上提取上下文特征:
rank:对url的rank增序排列,实际中使用rank值效果比直接使用core ranking的分数好,因为索引更新时分数会漂移
mean:top30 url的特征值均值
variance:top30 url的特征值方差
normalized feature:使用均值和方差将特征归一化
topic model feature:聚合top30 url的主题向量作为query的主题向量,分别算query-url的主题相似度
rerank的目的在于区分perfect/excellent/good,core ranking目的在于去除bad results
——implementation and deployment
core ranking部署在index节点上,rerank在汇集节点上
- semantic matching features
长尾query上有点击稀疏性问题,相关doc的锚文本也稀少,另外有query-doc在词汇上的不匹配(比如‘how much’和‘price’),所以从点击日志中提取三种重要的语义匹配特征:点击相似度(click similarity),深度语义匹配(deep semantic matching),转译文本匹配(translated text matching)
——click similarity,CS
VSM具有词汇不匹配的问题。因此从点击二部图(bipartite click graph)中提取query和doc的向量表示,都使用query的词典为各维度含义。具体方法:
使用点击数作为点击二部图中边的权重,提取doc的co-click query作为doc的表示,参考query的co-click doc向量表示将doc vector中的terms传递给query,轮流迭代。
每轮迭代只保留top-k个term,在数轮迭代后qv(query vector)和dv(doc vector)可收敛。
用qv和dv的內积作为click similarity。
每月更新,qv保存在汇集节点,dv保存在正排索引中。
——translated text matching,TTM
click similarity不能计算点击日志之外的query和doc。统计机器翻译(statistical machine translation,SMT)将query和doc互译可作为启发,用户解决词汇差异。
使用clicked query-title pair做一个翻译模型(translation model)。用此模型将q翻译成k个alternate q,在title词典上表示。对于每个alternate q,都和d算一个cosine similarity值,最后将k个值取max/avg/median作为最终query-doc的相似度。
试验取k=10,将k个值max是实测中最好的,即EXT_Q_TLM1特征;另外有一个AGG_Q_TLM特征,使用title LM下的rewritten queries和query LM下的rewritten titles计算。
为了控制延时实际服务中使用cache,对于cache miss的使用裁剪过的translation model进行在线计算
——deep semantic matching,DSM
CS和TTM都在word级别,deep model可以提取语义和上下文信息,泛化到低频和长尾query上。
使用DSSM模型。使用一年的数据,用简单规则去除spamming queries,拼session后去掉abandon(即无任何点击)的session。使用10-slot窗口从上往下滑动,first slot作为d+,其余9个是d-。doc的输入特征除了title还要考虑site名称(比如wiki, weather, imdb),按照DSSM的做法,3-letter shingling BOW,将embedding的內积作为特征。
实际部署中,正排中存储预算好的title和site的embedding,在线预估query的embedding,然后算相似度。
- query rewriting
为了性能,大型搜索引擎会在recall阶段将包含所有query terms的doc预筛选出来。词汇差异导致相关doc不通过筛选。rewriting可用来改善这一问题。
——methodology
分两个阶段learning phase和decoding phase。
learning phase,从query-doc中学习phrase级别的翻译:
co-click query-title pairs作为平行语料,按照典型的SMT过程:词对齐(word alignment),phrase提取,phrase打分。由于title长于query,需要控制null-word alignment
decoding phase,为query生成候选:
为每个feature function算出candidate q(即qc)和q的打分,然后对所有feature functions打分加权求和(权重可拍可学),找出分最高的qc作为rewritten query(即qw)。
常用的feature function:
1)learning phase学到的:q的LM分数, word panalty,phrase penalty, distortion
2)query/rewrite query feature functions:词数,停用词数,LM分数,query频次,包含词的平均长度,分别作用在query/rewrite query上
3)pair feature functions:二部图上q和qc共现url的Jaccard similarity,q和qc频次上的差异,词级别q和qc的cosine similarity,q和qc词数上的差异,q和qc共有的词,q和qc在LM分数上的差异,q和qc在停用词数上的差异,q和qc在包含词的平均长度的差异
——ranking strategy
将q和qw召回的docs合并,重复的doc取两者的最高分。使用线上搜索效果评估。
- comprehensive experiments
baseline,+3features,+rewrite
- recency-sensitive ranking
结合大量无时效性标注数据和少量时效性标注数据训练。用一个分类器判定query-doc pair时效性高低,如果是,训练数据标注增加时效性得分。训练GBDT ranker时先训练相关性,补充更多树学习时效性分数。
- location-sensitive ranking
从query和用户定位提取query的地理位置,从click queries和doc内容提取doc的地理位置写入正排,计算query-doc pair的距离特征。特征权重参数使用pairwise方式训练。用一个分类器判定query地理位置敏感,如果是,排序时增加地理位置得分。
- conclusion
高效、实用,对垂直搜索引擎也合适。
猜你喜欢
- 2024-10-12 美团搜索粗排优化的探索与实践 美团排名优化
- 2024-10-12 Tf-ranking: 一个用于排序的可扩展TensorFlow 库
- 2024-10-12 SIGIR2021 | 基于图自监督学习的推荐系统
- 2024-10-12 谷歌开源TF-Ranking:一个可扩展的用于排名学习的TensorFlow
- 2024-10-12 「算法」重新审视搜索推荐粗排算法 - 阿里淘宝 KDD23
- 2024-10-12 LLMs Finetune系列(七)—RLHF 替代算法 DPO
- 2024-10-12 KDD'23 | 阿里淘宝:重新审视搜索粗排
- 2024-10-12 IJCAI2019 | VR-GCN:用于多关系网络对齐的关系向量化图卷积网络
- 2024-10-12 NeurIPS19 | 基于Co-Attention和Co-Excitation的少样本目标检测
- 2024-10-12 如何用深度学习做检索:度量学习中关于排序损失函数的综述(1)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)