Changshuo Zhang (张昌硕)
我目前是中国人民大学,高瓴人工智能学院的一名硕士二年级(26届)研究生。我在IIR lab开展研究工作。我的导师是张骁副教授和徐君教授。我的主要研究兴趣包括推荐系统与强化学习(生成式推荐大模型、时长预估)等。我的微信是:13205201198。
教育经历
- 2019.09~2023.07,本科,电子科技大学,计算机科学与工程学院(计算机科学与技术专业)
- 专业排名:2/160,GPA:3.89/4.0
- 2023.09~2026.07,硕士,中国人民大学,高瓴人工智能学院(人工智能专业)
技术栈
- 生成式推荐模型(强化学习for推荐系统)
- Better exploration and exploitation towards long-term reward!
- KDD + RecSys + SIGIR + 2*SIGIR[submitting] + 2*KDD[submitting] + n*LR
- 奖励模型(时长预估模型)
- Provide a better reward!
- WWW + CIKM + n*LR
- 其他工作(大语言模型、序列推荐、图神经网络)
- EMNLP + RecSys + FCS + KDD[submitting] + WWW[submitting] + SIGIR[submitting]
实习经历
- 2024.06~2025.03,快手,策略算法部-用户互动优化组
- 主导:2*推全模型,1*推全策略,4*LR,1*新增数据流目标,1*提出新数据流,中稿WWW一篇。
- 参与:1*推全模型。
- 关键词:视频session时长,互动时机,生成式重排,评论区时长,LT收益。
- 2025.03~2025.12,Tiktok,Data-Live(直播)
- 主导:1*推全模型,多个精排模型迭代,中稿CIKM一篇。
- 参与:1*推全模型。
- 关键词:直播cvr,高时长预估,实时性改善,个性化分位数,低活用户优化,活跃度跃迁。
- 2025.12~2026.01,百亿私募基金,量化投资部
- 负责高频股票预测模型迭代,回测年化收益与回撤比率大幅优于基线。
- 获得优秀实习生称号。
论文发表
- (第一作者,中稿SIGIR’24,评选为Oral)Reinforcing Long-Term Performance in Recommender Systems with User-Oriented Exploration Policy
- 使用强化学习进行个性化分位数优化提高不同活跃度用户体验,提高session深度。
- Tiktok直播线上验证(ab实验显著)。
- (第一作者,中稿WWW’25,评选为Oral)Comment Staytime Prediction with LLM-enhanced Comment Understanding
- 使用大模型与评论互动信号优化评论区停留时长预估。
- 快手线上验证(ab实验显著)。
- (第一作者,中稿RecSys’25,评选为Spotlight Oral)Test-Time Alignment for Tracking User Interest Shifts in Sequential Recommendation
- 观测到推断时用户会发生兴趣偏移,并在推理时进行自适应调整参数。
- 在工业界应用有解决实时性问题与更加个性化推荐的前景。
- (共同一作,中稿CIKM’25,评选为Oral)Towards Unbiased and Real-Time Staytime Prediction for Live Streaming Recommendation
- 提出直播推荐的两大难点:时效性与预估准确性,并提出多塔分类模型进行debias。
- Tiktok直播现base主精排模型。
- (学生二作,中稿KDD’23,评选为Oral)Controllable Multi-Objective Re-ranking with Policy Hypernetworks
- 离线实验负责人,使用强化学习进行生成式重排序,聚焦在多目标可控推理。
- 阿里巴巴线上验证(推全),快手线上验证(ab实验显著)。
- (学生一作,中稿RecSys’24,评选为Poster)Do Not Wait: Learning Re-ranking Model Without User Feedback At Serving Time in E-Commerce
- 离线实验负责人,使用强化学习进行生成式重排序,聚焦在推理时调整模型参数。
- 阿里巴巴线上验证(推全)。
- (第一作者,中稿EMNLP’25,评选为Poster)Reward Mixology: Crafting Hybrid Signals for Reinforcement Learning Driven In-Context Learning
- 将示例选取建立为MDP过程,使用强化学习深挖大模型ICL能力。
- (独立作者,在投ICLR’26)Activity-Driven Quantile Optimization: Dynamic Exploration and Exploitation in Recommender Systems
- 为不同的用户活跃度设定个性化分位数进行优化,探索低活兴趣并保证高活留存。
- Tiktok直播线上验证(ab实验显著)。
- (独立作者,在投SIGIR’26)Reasoning While Recommending: Entropy-Guided Latent Reasoning in Generative Re-ranking Models
- 在生成式重排序中通过熵引导隐式推理增强推荐性能,合理分配探索与利用,解决列表中部高熵问题。
- (独立作者,在投RecSys’26)Reinforced Diffusion for Adaptive-Order Generative Re-Ranking
- 在生成式重排序中通过扩散方式结合强化学习进行自适应顺序生成,避免自回归的误差累积。
- (共同一作,在投KDD’25)Adaptive Exploration via Dual-Entropy Alignment for Streaming Generative Re-ranking
- 在生成式重排序中发现模型外生熵与用户内生熵的联系,通过熵对齐实现自适应探索。
- (学生二作,在投WWW’26)Industry-Scale Online Learning for GLR in E-commerce: An Environment Policy Optimization Approach
- 离线实验负责人,端到端优化两阶段生成式重排序适应流式场景。
- 阿里巴巴线上验证(推全)。
- (第一作者,在投SIGIR’26)QAGCF: Graph Collaborative Filtering for Q&A Recommendation
- 聚焦在问答推荐场景(类似知乎),使用图神经网络解耦用户-问题-回答三元组关系的协同与语义信号,并借助图滤波器解决高度异质性的问题。
- (第一作者,在投WWW’25)Modeling Domain and Feedback Transitions for Cross-Domain Sequential Recommendation
- 聚焦在跨域序列推荐场景,深挖用户发生的跨域与正负反馈转换的行为。
- (共同一作,在投ACL’25)Process In-Context Learning: Enhancing Mathematical Reasoning via Dynamic Demonstration Insertion
- 在推理模型数学推理任务中,通过熵监控与示例检索在推理过程中合适位置添加合适示例,在多个推理任务上取得显著提升。
- (非第一作者,中稿FCS,入选优青论坛)A Survey of Controllable Learning: Methods and Applications in Information Retrieval
- 可控信息检索综述,旨在让推荐模型在无需重新训练的情况下,动态适应不断变化的任务目标,应对复杂多变的用户/平台需求。
荣誉证书
- 2020-2021 国家奖学金
- 四川省优秀大学毕业生
- 第十二届蓝桥杯大赛软件组全国总决赛 国家级一等奖(前 0.5%)
- 2021 高教社杯全国大学生数学建模竞赛 国家级二等奖(前 2.78%)
- 2021 美国大学生数学建模竞赛 Meritorious Winner(前 7%)
- CCF 计算机软件能力认证 350 分(前 1.93%)
- 第三届算法设计与编程挑战赛 银奖(前 15%)
技术专长
- 编程语言: C、C++、Matlab、Python、Java、SQL。
- 算法: LeetCode网站 TOP3.2%、解题 800+。
- 英语: CET4 与CET6通过。
- 其他技能: Git、Vim、Latex、Linux、TensorFlow、Pytorch、Qt 等等。
工作经历
本科阶段曾担任学习委员并连续两年评选为“优秀班干部”且曾获学生会“优秀部员”称号,研究生阶段担任校职业发展部部员。
