网站首页 > 技术文章 正文
推荐系统之隐含语义模型LFM(1)给出了LFM计算用户-物品偏好度的公式,但有两个问题没有解决,第一个就是LFM的训练集——用户-物品关系数据集如何获取。
这个数据集就是通过用户-物品行为日志获取。用户行为可以简单地分为显性、隐性反馈数据。
- 显性反馈数据:用户对电影的评分,对新闻、文章的“顶”或“踩”,对音乐的操作:收藏、播放、跳过、循环播放等。
通过用户对物品的行为反馈量化出分值,以此作为用户对物品的偏好度。
LFM基于这种数据进行预测推荐,精度较高。
- 隐性反馈数据:仅有用户-物品信息。比如用户的点击/阅读/浏览/收藏等列表。这些数据的特点是只有正样本(用户偏好的物品),而没有负样本(用户不喜欢的物品)。
采集负样本应遵循以下原则:
1、每个用户的正负样本数量要基本一致。
2、在用户的负样本采集时,要选取很热门,但用户并未与之发生行为的样本。
用户不与冷门物品发生关联,可能就是因为没听说过,并不代表用户就不感兴趣。比如地处中原的我,小时候就没听说过四川的红油钵钵鸡,这不代表我不感兴趣,相反,长大后吃到了,就极为喜欢。
反之,小时候家里的主食就是馒头,但我就是不愿吃,说明我对馒头不感兴趣。
以下是负样本采集的Java代码:
import java.util.List;
import java.util.Random;
import com.google.common.collect.Lists;
public class LFMNegativeSampleCollector {
private static final int MAX = 1000;
private static final int MIN = 1;
public static void main(String[] args) {
LFMNegativeSampleCollector t = new LFMNegativeSampleCollector();
List<Integer> hotItems = t.buildHotItem(100);
int sampleSize=30;
List<Integer> userSamples = t.buildUserSamples(sampleSize);
List<Integer> userNegativeSamples = Lists.newArrayListWithCapacity(sampleSize);
//遍历或者随机获取热门物品列表。本例使用的都是随机数字,所以就直接遍历连
for (Integer hotItem : hotItems) {
//如果在用户正样本中,略过
if(userSamples.contains(hotItem)) {
continue;
}
//否则加入负样本
userNegativeSamples.add(hotItem);
//负样本数量等于正样本数量,跳出
if(userNegativeSamples.size()==sampleSize) {
break;
}
}
System.out.println("用户正样本:");
System.out.println(userSamples.toString());
System.out.println("用户负样本:");
System.out.println(userNegativeSamples.toString());
}
/**
* 生成用户正样本
* @param size
* @return
*/
public List<Integer> buildUserSamples(int size) {
List<Integer> userSamples = Lists.newArrayListWithCapacity(size);
Random rand = new Random();
for (int i = 0; i < size; i++) {
userSamples.add(rand.nextInt(LFMNegativeSampleCollector.MAX - LFMNegativeSampleCollector.MIN + 1)
+ LFMNegativeSampleCollector.MIN);
}
return userSamples;
}
/**
* 生成热门物品列表
*
* @param size
* @return
*/
public List<Integer> buildHotItem(int size) {
List<Integer> hotItems = Lists.newArrayListWithCapacity(size);
Random rand = new Random();
for (int i = 0; i < size; i++) {
hotItems.add(rand.nextInt(LFMNegativeSampleCollector.MAX - LFMNegativeSampleCollector.MIN + 1)
+ LFMNegativeSampleCollector.MIN);
}
return hotItems;
}
}
猜你喜欢
- 2024-10-12 深度学习难分样本挖掘(Hard Mining)
- 2024-10-12 推荐系统系列之隐语义模型 基于隐语义模型的协同过滤
- 2024-10-12 「机器学习」利用图网络小数据学习进行性质预测
- 2024-10-12 论文荐读:理解图表示学习中的负采样
- 2024-10-12 策略产品经理干货系列之推荐系统离线评估方法与指标介绍
- 2024-10-12 终于搞懂了PR曲线 pr曲线调色在哪里
- 2024-10-12 记:多标签分类问题 多标签分类 focal loss
- 2024-10-12 开始构建机器学习模型之前,我们该怎么选择样本?
- 2024-10-12 数据样本量不足,试试大佬都在用的办法(暨反欺诈建模场景实操)
- 2024-10-12 对比学习效果差?谷歌提出弱语义负样本,有效学习高级特征
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)