网站首页 > 技术文章 正文
图灵联邦视频点击大赛仍在火热进行中,近日有位小哥哥开源了自己0.65分的baseline,当日排名top5哦~如此给力,大家赶紧来学习一下吧,争取早日拿到第一!
背 景
移动互联网的快速发展,催生了海量视频数据的产生,也为用户提供了类型丰富的视频数据类型。
面对如何从海量视频数据类型中选择用户喜欢的类型的这一难题,作为一家拥有海量视频素材和用户行为的数据公司,希望通过用户行为数据,用户特征,以及视频特征,可以在充足数据基础上精准的推荐给用户喜欢的视频类型。
本次竞赛的目的是以用户的视频行为数据为基础,构建推荐模型,参赛队伍则需要搭建个性化推荐模型。
希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐用户感兴趣的内容,提高用户在数据集上的点击行为。
赛题分析
赛题一共给出四个数据集
其中train和test中包含有大量的类别特征,且其中三个是sparse id feature而在app和user数据集中亦有三个weighted/unweighted sequence feature,故我采用了deepfm模型来处理该数据。
将ts时间截转化成年月日十分秒后,可知
train集是 (2019, 11, 7, 15, 59, 59) - (2019, 11, 10, 15, 59, 59) 的数据集
test集是 (2019, 11, 10, 15, 59, 59) - (2019, 11, 11, 15, 59, 59) 的数据集
test中有许多新的deviceid和newsid
ID特征:deviceid,guid,newsid
标签特征:applist,tag,outertag
该数据集应该能挖掘出很强的时序特征。
数据处理
- 转化ts时间特征,log处理,构造二值特征,标签长度特征
- 将标签特征由字符串转化成列表,再转化成可供deepfm训练的数据结构
- 根据广告曝光相隔时间简单构造了时序特征
此外还可构造统计特征,时序特征...
该baseline未考虑“时间穿越”问题
实际上,train中仅使用过去标签来生成时序统计特征大概就能达到0.4以上的分数:
(历史点击次数+14)/ (131+历史曝光次数)
模 型
构造训练集,构造deepfm模型,运行,取前概率12%的数据为1,余下为0。
模型用的是浅梦开源的项目:DeepCTR
具体细节请查看代码链接
baseline分数:0.65
问 答
为什么改target?
仅个人猜测:同一天同一个用户同一个广告,如果前面用户已经点击,后面用户无论是否点击官方都会标注为1,而我认为真实来说没点击的可能性要更大,故标记为0。
同理,这里有个后处理操作(我还没试过),test也会出现这种同一个同一天同一个用户同一个广告,你将前面标记为1,后面却标记为0,假如官方前面标记为1的话,后面的也将标记为1(哪怕真实值是0),这样即使你的模型更真实但分数却有所下降,而你如果进行后处理将后面的标记标为1则上升。
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
https://arxiv.org/abs/1703.04247
DeepCTR
https://github.com/shenweichen/DeepCTR
代码连接
http://www.turingtopia.com/models/details/notebook/b698f36b82f846e087cc349f91d0eba0
视频点击预测大赛火热进行中
3万元奖金、证书、实习、就业机会已准备就位,快叫上小伙伴一起来组队参赛吧。
赛题:希望参赛者通过已有的用户信息、视频信息以及他们是否观看过某些视频,来预测我们推荐给这些用户的视频对方是否会观看。
个人、高等院校、科研单位、互联网企业、创业团队、学生社团等人员均可报名。
报名及组队时间:即日起至2020年2月1日
报名入口:
http://www.turingtopia.com/competitionnew/detail/e4880352b6ef4f9f8f28e8f98498dbc4/sketch
- 上一篇: 全新的深度模型在推荐系统中的应用
- 下一篇: 深度学习在美团配送ETA预估中的探索与实践
猜你喜欢
- 2024-10-12 CIKM2022 IntTower:超越单塔的双塔模型
- 2024-10-12 赤子城刘春河:流量运营3.0时代,SoloMath深入布局基于AI的程序化广告
- 2024-10-12 相比于 SVM,FM 模型如何学习交叉特征?其如何优化?
- 2024-10-12 深度CTR之AFM:基于Attention网络的FM模型
- 2024-10-12 个性化推送的机器学习算法实践 个性化推荐算法
- 2024-10-12 基于FM+GBM排序模型的短视频千人千面实战与分析
- 2024-10-12 深度学习在美团配送ETA预估中的探索与实践
- 2024-10-12 全新的深度模型在推荐系统中的应用
- 2024-10-12 如何使用深度学习技术,准确预计外卖的送达时间?
- 2024-10-12 python实现的推荐系统源码,用lda,lightfm,deepctr主流推荐模型
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)