计算机系统应用教程网站

网站首页 > 技术文章 正文

超赞0.65分!视频点击预测大赛开源baseline分享

btikc 2024-10-12 11:36:34 技术文章 3 ℃ 0 评论

图灵联邦视频点击大赛仍在火热进行中,近日有位小哥哥开源了自己0.65分的baseline,当日排名top5哦~如此给力,大家赶紧来学习一下吧,争取早日拿到第一!


背 景


移动互联网的快速发展,催生了海量视频数据的产生,也为用户提供了类型丰富的视频数据类型。


面对如何从海量视频数据类型中选择用户喜欢的类型的这一难题,作为一家拥有海量视频素材和用户行为的数据公司,希望通过用户行为数据,用户特征,以及视频特征,可以在充足数据基础上精准的推荐给用户喜欢的视频类型。


本次竞赛的目的是以用户的视频行为数据为基础,构建推荐模型,参赛队伍则需要搭建个性化推荐模型。


希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐用户感兴趣的内容,提高用户在数据集上的点击行为。


赛题分析


赛题一共给出四个数据集



其中train和test中包含有大量的类别特征,且其中三个是sparse id feature而在app和user数据集中亦有三个weighted/unweighted sequence feature,故我采用了deepfm模型来处理该数据。


将ts时间截转化成年月日十分秒后,可知


train集是 (2019, 11, 7, 15, 59, 59) - (2019, 11, 10, 15, 59, 59) 的数据集

test集是 (2019, 11, 10, 15, 59, 59) - (2019, 11, 11, 15, 59, 59) 的数据集


test中有许多新的deviceid和newsid


ID特征:deviceid,guid,newsid

标签特征:applist,tag,outertag


该数据集应该能挖掘出很强的时序特征。

数据处理


  • 转化ts时间特征,log处理,构造二值特征,标签长度特征
  • 将标签特征由字符串转化成列表,再转化成可供deepfm训练的数据结构
  • 根据广告曝光相隔时间简单构造了时序特征


此外还可构造统计特征,时序特征...


该baseline未考虑“时间穿越”问题


实际上,train中仅使用过去标签来生成时序统计特征大概就能达到0.4以上的分数:

(历史点击次数+14)/ (131+历史曝光次数)


模 型

构造训练集,构造deepfm模型,运行,取前概率12%的数据为1,余下为0。


模型用的是浅梦开源的项目:DeepCTR


具体细节请查看代码链接


baseline分数:0.65

问 答

为什么改target?


仅个人猜测:同一天同一个用户同一个广告,如果前面用户已经点击,后面用户无论是否点击官方都会标注为1,而我认为真实来说没点击的可能性要更大,故标记为0。


同理,这里有个后处理操作(我还没试过),test也会出现这种同一个同一天同一个用户同一个广告,你将前面标记为1,后面却标记为0,假如官方前面标记为1的话,后面的也将标记为1(哪怕真实值是0),这样即使你的模型更真实但分数却有所下降,而你如果进行后处理将后面的标记标为1则上升。


DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

https://arxiv.org/abs/1703.04247

DeepCTR

https://github.com/shenweichen/DeepCTR

代码连接

http://www.turingtopia.com/models/details/notebook/b698f36b82f846e087cc349f91d0eba0


视频点击预测大赛火热进行中

3万元奖金、证书、实习、就业机会已准备就位,快叫上小伙伴一起来组队参赛吧。

赛题:希望参赛者通过已有的用户信息、视频信息以及他们是否观看过某些视频,来预测我们推荐给这些用户的视频对方是否会观看。

个人、高等院校、科研单位、互联网企业、创业团队、学生社团等人员均可报名。

报名及组队时间:即日起至2020年2月1日


报名入口:


http://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表