生成式推荐的演进与工业实践
生成式推荐系统正在快速重塑信息分发范式,其核心思想是把传统“粗召回—精排”多级流水线压缩为单一生成模型的序列到序列推理,从而同时输出推荐列表、顺序乃至解释文本或新内容。该方向的重要性在于:一方面,它为融合多模态、对话交互、冷启动外推等长期难题提供了统一框架;另一方面,在多家互联网公司的大规模线上实验中已显示出可观的商业收益,表明这不仅是学术概念,更是下一代工业推荐系统的现实选择。
1 推荐系统范式的演进
早期系统依赖基于相似度的记忆式协同过滤;Netflix Prize 之后,矩阵分解成为主流,通过潜向量刻画用户与物品关系。随后,深度两塔、Wide & Deep、DIN、GNN 等模型借助非线性表达提升刻画能力,但仍遵循“先召回候选,再多级排序”逻辑。生成式推荐系统则把用户历史、上下文、文本、图像等全部离散化为 token,通过大语言模型一次性生成推荐列表,彻底改变流水线结构与优化目标。
2 生成式推荐系统的技术框架与差异
| 组件 | 传统推荐系统 | 生成式推荐系统 |
| 输入表示 | ID 嵌入、数值/类目特征 | 用户、物品、上下文统一编码为 token |
| 模型主体 | 协同过滤、两塔、GNN、Transformer 排序器 | LLM 或特化生成模型直接学习“输入→推荐” |
| 目标函数 | 评分回归、BPR、交叉熵排序 | 语言建模或检索-生成混合损失 |
| 推理过程 | 多级召回与排序 | 单模型生成有序列表并可附加解释 |
| 输出形态 | 固定长度候选集合 | 可变长 ID 序列、解释、甚至新内容 |
与传统方法相比,生成式模型在表示统一、流程简化、交互友好与冷启动外推等方面具备显著优势;挑战则集中在高推理成本、评价体系缺失、幻觉风险和 ID token 化效率。
3 代表性研究进展
HSTU:采用稀疏自注意力处理超长序列,支持万亿级参数扩展。
P5:提出“预训练—个性化提示—预测”三阶段框架,把多种推荐子任务统一到文本到文本范式。
TokenRec:设计 Masked Vector-Quantized Tokenizer,将向量离散化为稳定 token,兼顾新用户/物品泛化与生成效率。
OneRec:在快手短视频场景中使用 Encoder-Decoder Transformer 与稀疏 MoE,直接生成 5-10 条视频列表,并通过迭代偏好对齐(IPA) 仅用 1 % 自生成样本提升观看时长 4.0 % 和 Like Through Rate 5.4 %;线上 A/B 显示总观看时长提升 1.68 %、人均观看时长提升 6.56 %。KV-Cache、FP16 量化与稀疏专家激活仅耗约 13 % 显存。
RecGPT、Fed4Rec:分别探索领域特化大模型和联邦场景下的隐私友好生成推荐。
4 “生成式检索仅做召回”观点的再评估
2022 年的 DSI 把搜索建模为“query→docid”生成,只覆盖召回阶段;SIGIR 2024 教程仍沿用这一描述。然而自 2024 年起,ROGER 与 Listwise GR 在训练期直接优化列表顺序,推理时无需外部 reranker;OneRec、UniGRF 等工作更在推荐场景中一次性完成检索与排序并上线验证。由此,“生成式检索只能做召回”已不再准确,检索-排序一体化成为明显趋势。
5 工业界的落地实践
5.1 短视频与内容平台
快手 OneRec:撤销多级排序后,主链路观看时长提升 1.6 %,MoE-LLM 以轻量 FLOPs 实现十亿级参数。
抖音 Next-User Retrieval:生成下一位潜在互动用户以缓解冷启动,DAU 提升 0.0142 %,投稿量提升 0.1144 %。
Meta Reels & Feed:基于 HSTU 的千亿级模型统一视频流,观看时长提升约 8-10 %;同构模型已拓展至广告系统,转化率提升 2-4 %。
5.2 本地生活与电商
美团 MTGR:将 HSTU 嵌入传统特征管线,通过用户级压缩使推理 FLOPs 减少 65 倍,带来被内部称为“近两年最大增益”的线上提升。
阿里巴巴 M6-Rec:超大模型统一多任务,Option-Tuning 只调整 < 1 % 参数,已在云端与手机端同步落地,支持零样本与对话推荐。
亚马逊 Personalize & Rufus:生成式组件先切入内容文案,再结合智能助手实现电商场景的推荐—问答—下单闭环。
5.3 搜索与广告
百度 COBRA:首先生成稀疏语义 ID,再补充稠密向量,广告转化率提升 3.60 %,ARPU 提升 4.15 %。
Meta 广告事件序列模型:与生成式检索融合,在部分广告段位实现 2-4 % 转化增长。
6 共性挑战与趋势
工业实践显示,生成式模型通常与传统向量检索及手工特征共存,通过稀疏 MoE、User-level Compression、Flash Attention 与缓存机制平衡效果和延迟。冷启动与多样性得益于生成模型“任意 token”能力得到强化,而偏好对齐则多采用迭代 DPO 或反事实回放。未来方向包括多模态统一、端侧隐私推理与基于代理的主动推荐。
7 结语
生成式推荐系统已从概念验证迈向大规模线上实用。千亿级模型与偏好对齐技术为端到端生成带来可观收益,检索-排序一体化趋势明确;同时,高效 token 化、评价体系完善与成本优化仍是决定其普及速度的关键因素。随着推理开销进一步下降,多模态生成与智能代理有望成为下一阶段突破口。
参考文献
Tay et al., “DSI: Differentiable Search Index,” 2022
Zhou et al., “ROGER: Listwise Generative Retrieval,” 2024
Tang et al., “Listwise Generative Retrieval,” 2024
Deng et al., “OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment,” 2025
Zhang et al., “UniGRF: Killing Two Birds with One Model,” 2025
HSTU Technical Report, 2024 Q2
P5 Framework Paper, 2022-2024
TokenRec Technical Report, 2024
RecGPT Whitepaper, 2024
Fed4Rec Whitepaper, 2024

