Involution Hell
AI 知识库Recommender systems

推荐系统

推荐系统是AI在工业界最重要的应用之一,从传统的协同过滤到现代的大模型推荐,本节涵盖推荐系统的完整学习路径。

8.1 推荐系统学习路径(WIP)

8.1.1 学习业务

搜索&广告&推荐的scope不太一样:

  • 搜索: 关注query召回,理解用户搜索意图
  • 广告: 关注广告主&广告平台&用户体验三方博弈
  • 推荐: 关注长期生态,用户长期价值最大化

核心差异:

  • 推荐只看item融合得分的序是否准确
  • 广告还要保证得分的距离(涉及到出价机制)
  • 一般来说,推荐系统item得分可以简单概括为:recall → ctr × cvr
  • 广告系统还要乘上bid(出价)和deep_cvr得分(如付费金额)

业务理解建议: 不管是搜索广告还是推荐,都建议买一本《计算广告》把业务读懂。

8.1.2 学习模型

推荐系统模型发展历程:

  1. 传统方法: 协同过滤、矩阵分解
  2. 深度学习: DeepFM、Wide&Deep、DIN等
  3. 预训练模型: BERT4Rec、SASRec等
  4. 大模型时代: LLM4Rec、ChatRec等

8.2 推荐学习资料

8.2.1 王树森推荐系统课程

  • 视频地址: B站推荐系统课程
  • 特色: 理论与实践并重,工业界经验丰富
  • 内容: 从基础的协同过滤到深度学习推荐模型

8.2.2 Datawhale大模型推荐系统组队学习

8.2.3 《互联网大厂推荐算法实战》

  • 资源链接: 知乎文章介绍
  • 特色: 工业界实战经验分享
  • 内容: 大厂推荐算法的实际应用案例

8.3 初学者实战项目

8.3.1 阿里天池新闻推荐系统

  • 比赛地址: 天池新闻推荐
  • 特色: 真实业务场景,数据质量高
  • 学习价值: 完整的推荐系统开发流程

推荐系统实战项目合集: 整理更多实战项目资源

8.4 推荐系统学习笔记

推荐系统学习笔记表格: 查看完整的学习笔记整理

核心内容包括:

  • 经典推荐算法原理
  • 深度学习推荐模型
  • 工业界部署经验
  • 评估指标和优化策略

8.5 推荐系统项目论文(待筛选)

GitHub论文合集,持续更新。内容比较贴近业务,不太涉及生成式推荐。

推荐系统论文筛选表格: 查看完整的论文筛选列表

筛选状态:

  • 未开始:待筛选
  • 评估中:正在评估
  • 已完成:已审理完成
  • 不推荐:质量不达标
  • 未开源:代码未开源

LLM4REC

大模型在推荐系统中的应用,包括:

  • 预训练推荐模型: 使用大规模数据预训练
  • 生成式推荐: 将推荐转化为生成任务
  • 多模态推荐: 结合文本、图像等多模态信息
  • 对话式推荐: 基于自然语言交互的推荐

8.6 相关比赛

腾讯广告大赛

  • 官网: https://algo.qq.com
  • 赛题特点: 参赛者需基于脱敏处理后用户的协同、文本、视觉等全模态历史行为数据,预测其下一次可能交互的广告
  • 技术要求: 每个行为包含广告的ID类特征,以及多模态信息(如图像、文本等)
  • 创新方向: 通过提供基线模型,增加方案评审环节等方式,引导选手突破传统判别式推荐算法框架,探索生成式推荐

多模态短视频点击预测项目 - 马栏山杯

  • 官网: https://challenge.ai.mgtv.com/
  • 赛题: 基于芒果TV的多模态特征,结合用户特征和行为数据,预测用户观看的视频和完播率
  • 技术亮点: 2025 MGTV多模态视频推荐0.256+baseline完整分享

Kaggle Playground - FlightRank2025

  • 赛题: 2025旅客个性化航班推荐
  • 目标: 构建智能航班排名模型,预测商务旅客将从搜索结果中选择哪个航班选项
  • 参考方案: CatBoost Ranker Baseline

技术发展趋势

传统推荐 → 大模型推荐

  1. 表示学习: 从稀疏特征到dense embedding
  2. 序列建模: 从静态特征到动态序列
  3. 多模态融合: 从单一模态到多模态信息
  4. 生成式推荐: 从判别式模型到生成式模型

工业界部署考虑

  1. 延迟要求: 毫秒级响应时间
  2. throughput: 高并发请求处理
  3. 存储优化: 模型压缩和量化
  4. A/B测试: 在线效果评估

评估指标体系

离线指标:

  • 准确率类:Precision, Recall, F1
  • 排序类:NDCG, MAP, MRR
  • 多样性:Coverage, Diversity

在线指标:

  • 点击率 (CTR)
  • 转化率 (CVR)
  • 停留时间
  • 用户留存

学习建议

  1. 业务理解优先: 深入理解推荐业务的本质和目标
  2. 算法进阶: 从经典算法开始,逐步深入深度学习方法
  3. 实战导向: 通过项目和比赛积累实际经验
  4. 工程能力: 重视系统设计和工程实现能力
  5. 持续学习: 关注大模型等前沿技术在推荐中的应用

其他摘要

  • LLM4REC(大模型推荐)
  • 学习路径(WIP):学习业务、学习模型
  • 推荐学习资料:王树森、Datawhale、实战项目

贡献者