网站首页 > 技术文章正文

推荐系统之隐含语义模型LFM(2)负样本采集

btikc 2024-10-12 10:54:53 技术文章 21 ℃ 0 评论

推荐系统之隐含语义模型LFM（1）给出了LFM计算用户-物品偏好度的公式，但有两个问题没有解决，第一个就是LFM的训练集——用户-物品关系数据集如何获取。

这个数据集就是通过用户-物品行为日志获取。用户行为可以简单地分为显性、隐性反馈数据。

显性反馈数据：用户对电影的评分，对新闻、文章的“顶”或“踩”，对音乐的操作：收藏、播放、跳过、循环播放等。

通过用户对物品的行为反馈量化出分值，以此作为用户对物品的偏好度。

LFM基于这种数据进行预测推荐，精度较高。

隐性反馈数据：仅有用户-物品信息。比如用户的点击/阅读/浏览/收藏等列表。这些数据的特点是只有正样本（用户偏好的物品），而没有负样本（用户不喜欢的物品）。

采集负样本应遵循以下原则：

1、每个用户的正负样本数量要基本一致。

2、在用户的负样本采集时，要选取很热门，但用户并未与之发生行为的样本。

用户不与冷门物品发生关联，可能就是因为没听说过，并不代表用户就不感兴趣。比如地处中原的我，小时候就没听说过四川的红油钵钵鸡，这不代表我不感兴趣，相反，长大后吃到了，就极为喜欢。

反之，小时候家里的主食就是馒头，但我就是不愿吃，说明我对馒头不感兴趣。

以下是负样本采集的Java代码：

import java.util.List;
import java.util.Random;

import com.google.common.collect.Lists;

public class LFMNegativeSampleCollector {

    private static final int MAX = 1000;
    private static final int MIN = 1;

    public static void main(String[] args) {
        LFMNegativeSampleCollector t = new LFMNegativeSampleCollector();
        List<Integer> hotItems = t.buildHotItem(100);
        int sampleSize=30;
        List<Integer> userSamples = t.buildUserSamples(sampleSize);
        List<Integer> userNegativeSamples = Lists.newArrayListWithCapacity(sampleSize);

        //遍历或者随机获取热门物品列表。本例使用的都是随机数字，所以就直接遍历连
        for (Integer hotItem : hotItems) {
            //如果在用户正样本中，略过
            if(userSamples.contains(hotItem)) {
                continue;
            }
            //否则加入负样本
            userNegativeSamples.add(hotItem);
            //负样本数量等于正样本数量，跳出
            if(userNegativeSamples.size()==sampleSize) {
                break;
            }
        }
        
        System.out.println("用户正样本：");
        System.out.println(userSamples.toString());
        System.out.println("用户负样本：");
        System.out.println(userNegativeSamples.toString());
    }

    /**
     * 生成用户正样本
     * @param size
     * @return
     */
    public List<Integer> buildUserSamples(int size) {
        List<Integer> userSamples = Lists.newArrayListWithCapacity(size);
        Random rand = new Random();
        for (int i = 0; i < size; i++) {
            userSamples.add(rand.nextInt(LFMNegativeSampleCollector.MAX - LFMNegativeSampleCollector.MIN + 1)
                    + LFMNegativeSampleCollector.MIN);
        }
        return userSamples;
    }

    /**
     * 生成热门物品列表
     * 
     * @param size
     * @return
     */
    public List<Integer> buildHotItem(int size) {
        List<Integer> hotItems = Lists.newArrayListWithCapacity(size);
        Random rand = new Random();
        for (int i = 0; i < size; i++) {
            hotItems.add(rand.nextInt(LFMNegativeSampleCollector.MAX - LFMNegativeSampleCollector.MIN + 1)
                    + LFMNegativeSampleCollector.MIN);
        }
        return hotItems;
    }

}

网站首页 > 技术文章正文

推荐系统之隐含语义模型LFM(2)负样本采集

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

推荐系统之隐含语义模型LFM(2)负样本采集

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: