Note - 评测推荐系统
2018, May 20
评测推荐系统的方法
- 离线实验
- 用户调查
- 在线实验
评测指标
用户满意度
- 用户满意度只能通过问卷调查或者在线实验获得,无法在离线实验中获得
- 点击率、用户停留时间和转化率
预测准确度
- 评分预测
- 均方根误差(RMSE)
- 平均绝对误差(MAE)
- TopN推荐
- 准确率(precision)
- 召回率(recall)
覆盖率
- 信息熵
- 基尼系数(Gini Index)
- 物品的流行度即指有多少用户为某物品评分。
多样性
新颖性
- 新颖性仅仅取决于用户是否听说过这个推荐结果
惊喜度
如果推荐结果和用户的历史兴趣不相似,但却让用户觉得满意,那么就可以说推荐结果的惊喜度很高
- 用户满意度只能通过问卷调查或者在线实验获得
- 推荐结果和用户历史上喜欢的物品相似度一般可以用内容相似度定义。
- 内容相似度,即如果获得了一个用户观看电影的历史,得到这些电影的演员和导演集合A
信任度
- 增加推荐系统的透明度(transparency)1, 而增加推荐系统透明度的主要办法是提供推荐解释
- 考虑用户的社交网络 信息,利用用户的好友信息给用户做推荐,并且用好友进行推荐解释
实时性
- 实时地更新推荐列表来满足用户新的行为变化
- 将新加入系统的物品推荐给用户
- 用户推荐列表中有多大比例的物品是当天新加的来评测新物品推荐能力
健壮性
- 模拟攻击
- 设计推荐系统时尽量使用代价比较高的用户行为
- 在使用数据前,进行攻击检测,从而对数据进行清理。
评测维度
比如一个推荐算法, 虽然整体性能不好,但可能在某种情况下性能比较好,而增加评测维度的目的就是知道一个算法在什么情况下性能最好
- 用户维度 主要包括用户的人口统计学信息、活跃度以及是不是新用户等。
- 物品维度 包括物品的属性信息、流行度、平均分以及是不是新加入的物品等。
- 时间维度 包括季节,是工作日还是周末,是白天还是晚上等。