三年磨一剑,这个令人惊艳的Datawhale项目毕业了!(三年磨一剑下面是什么) 99xcs.com

Datawhale开源

开源 贡献 : Torch-RecHub 项目团队

10 行代码跑通工业级推荐系统,一键 ONNX 部署,还支持 HSTU、HLLM、TIGER 等生成式推荐模型。

一、 开源初心

2022 年,我们在 Datawhale 社区启动了Torch-RecHub 项目。

起因很简单:推荐系统是工业界应用最广泛的 AI 方向之一,但学习和实践的门槛却不低。想跑通一个 DeepFM,要从零搭数据管道;想对比 DSSM 和 YoutubeDNN,得分别找两份风格迥异的复现代码;想把模型部署上线,又是另一套工具链。

论文读了,代码找不到;代码找到了,依赖装不上;依赖装上了,数据格式对不上。这是大多数算法工程师和研究者的日常。

我们想做的事情很朴素——把深度推荐系统的主流模型用 PyTorch 统一实现一遍,统一接口、统一流程、开箱即用,让大家把精力花在理解模型和业务上,而不是工程对齐上。

开源地址:https://github.com/datawhalechina/torch-rechub

二、项目简介

Torch-RecHub是一个基于 PyTorch 的推荐系统框架,核心理念是10 行代码跑通工业级推荐系统

三年过去了,Torch-RecHub 从最初的几个模型,成长为覆盖召回、精排、多任务、生成式推荐四大场景的 30+ 模型框架。而随着这两年生成式推荐的兴起,我们也及时跟进复现了 HSTU、HLLM、TIGER 等前沿模型,让框架始终跟上行业的脉搏。

1. 整体架构

2. 模型一览

精排模型(13 个):DeepFM、Wide&Deep、DCN/DCN-v2、DIN、DIEN、BST、AFM、AutoInt、FiBiNET、DeepFFM、EDCN 等

召回模型(10 个):DSSM、YoutubeDNN/SBC、MIND、SINE、GRU4Rec、SASRec、NARM、STAMP、ComiRec 等

多任务模型(5 个):ESMM、MMoE、PLE、AITM、SharedBottom

生成式推荐(3 个):

每个模型都有完整的训练脚本和示例数据,clone 下来就能跑。

3.其他优势

很多框架也号称支持几十个模型,但Torch-RecHub 三年持续迭代,在模型之外积累了一整套工程能力:

🔧 训练侧:统一 Trainer 接口 + Early Stopping + 多 GPU 支持 + WandB/SwanLab 实验追踪

    📦 部署侧:一键 ONNX 导出 + 双塔分离部署 + INT8/FP16 量化

      📊 数据侧:内置主流数据集处理 + PySpark 大数据管道 + Parquet 流式加载

        📐 可视化:模型计算图导出 + 架构图生成

          三、项目受众

          Torch-RecHub 面向所有和推荐系统打交道的人:

          四、学习指南

          我们为不同阶段的学习者准备了清晰的路径:

          第一步:快速上手

          安装框架,跑通第一个模型:

          pip install torch-rechub# 或者从源码安装(获取最新功能)git clonehttps://github.com/datawhalechina/torch-rechub.git cdtorch-rechub && uv sync# 跑一个精排模型python examples/ranking/run_criteo.py# 跑一个召回模型python examples/matching/run_ml_dssm.py

          第二步:Notebook 教程(入门)

          包含11个Jupyter Notebook,手把手带你走一遍核心流程。

          第三步:Example 脚本(进阶)

          20+个example 脚本,覆盖真实数据集上的完整实验。

          第四步:生成式推荐(前沿)

          体验推荐系统的最新范式:

          # HSTU:Meta 万亿参数推荐系统的核心架构python examples/generative/run_hstu_movielens.py# HLLM:大语言模型 + 推荐python examples/generative/run_hllm_movielens.py# TIGER:T5 生成式检索推荐python examples/generative/run_tiger_amazon_books.py

          五、感谢所有贡献者

          Torch-RecHub 是 Datawhale 开源社区的项目,从 2022 年至今已有众多贡献者参与: