数据集列表


为了帮助用户将原始输入转换为我们定义的原子文件,我们已经收集了超过 28 种的常见数据集,并且开源了将这些数据集转换为原子文件的脚本,详见 RecSysDatasets。同时,我们也将部分已经处理好的原子文件打包上传至 百度网盘 (提取码: e272) 和 Google Drive


这些数据集的简单介绍如下:

Shopping

  • Amazon: 该数据集包含 Amazon 平台的评论和元数据,包括自 1996 年 5 月至 2014 年 7 月的 1.428 亿条评论。此数据集包括评分数据(rating),产品元数据(descriptions, category information, price, brand 和 image features)以及链接数据( 共同查看/共同购买的关系图)。
    • Amazon 2014: 该数据集包含亚马逊上的产品评价和元数据,包括了自1996年5月至2014年7月的24个类别共1.428亿条评论。
    • Amazon 2018: 该数据集是发布于2014年的Amazon review dataset的升级版本。共有29类,2.331亿条评论(2014年的版本包括24类和1.428亿条评论)。数据的收集范围为1996年5月至2018年10月。
  • Amazon_M2: 该数据集是一个多语言多地区会话数据集,包含六种不同地区的匿名客户会话:英语、德语、日语、法语、意大利语和西班牙语。
  • Alibaba-iFashion: 该数据集是论文POG中从阿里巴巴在线购物系统收集的时尚服装数据集。 每个outfit中的物品都被视为向用户推荐的项目,其中每个物品都由类别和标题等属性组成。
  • Epinions: 该数据集由 Epinions.com 收集,Epinions 是一个流行的点评网站。
  • Yelp: 该数据集由 Yelp收集, Yelp 数据集整合了businesses、reviews 和 user data 信息,可用于个人、教育、学术目的。从 Yelp Challenge 2018 开始总共有4个版本的Yelp数据集。Yelp还把数据集发布在了Kaggle上,在这里你可以下载到几个更早的 版本。我们处理过的5个数据集的详细信息在此处
    • Yelp 2018: 在Yelp Challenge 2018上发布的第1版Yelp数据集,包括5,261,669条评论。
    • Yelp 2020: 发布于2020年的第二版Yelp数据集,包括8,021,122条评论。
    • Yelp 2021: 发布于2021年的第三版Yelp数据集,包括8,635,403条评论。
    • Yelp 2022: 最新版的Yelp数据集,包括908,915条评论。
    • Yelp-full: 该数据集综合了上述4个Yelp数据集,去除了重复的数据,共有28,908,240条评论。
  • Tmall : 该数据集由 Ant Financial Services 提供,它被使用于 IJCAI16 比赛。
  • DIGINETICA : 该数据集包含了从电商搜索引擎日志中抽取的用户会话信息,包含匿名的 user IDs, 经过哈希处理的查询、产品说明和元数据, log 尺度缩放的价格、点击、购买等信息。
  • YOOCHOOSE : 该数据集由 YOOCHOOSE GmbH 构建,来支持 RecSys Challenge 2015。
  • Retailrocket: 该数据集是从一个真实世界的电子商务网站中收集的。它未经过任何内容相关的处理,但是由于保密的原因,经过了哈希处理。
  • Ta Feng: 该数据集包含 2000 年 11 月至 2001 年 2 月的某中国杂货店交易数据。

Advertisng

  • Criteo: 该数据集由 Criteo 收集,包含了 Criteo 几天内的流量数据。
  • Avazu: 该数据集被用于 Avazu 的点击预测比赛。
  • iPinYou: 该数据集由 iPinYou 提供,包含了三季的 iPinYou 全球 RTB (Real-Time Bidding) Bidding 算法竞赛所使用的训练集和测试集。
  • AliEC: Ali_Display_Ad_Click是展示在淘宝网上的广告点击率预测数据集,由阿里巴巴提供。

Check-in

  • Foursquare: 该数据集包含了从纽约和东京收集的约 10 个月的签到。每次入住都附有时间戳、GPS坐标及其语义信息等。
  • Gowalla: 该数据集来自一个基于用户定位的社交网站,用户通过签到来共享其位置。数据集包含在 2009 年 2 月至 2010 年 10 月期间的用户的 6,442,890 次签到。

Movies

  • MovieLens: 该数据集由 GroupLens Research 收集,是其电影评价网站的评分数据。
  • Netflix: 该数据集是 Netflix 大奖赛所使用的官方数据集。
  • Douban: 豆瓣是一个允许互联网用户分享有关电影的评论与观点的网站。该数据集包含了 28 部电影的超过两百万条短评。
  • Twitch: 在Twitch上消费流媒体内容的用户数据集。
    • Twitch-100k: Twitch-100k 是用于基准测试的 100k 用户的子集。可在该Github 仓库中查看。
    • Twitch-full: Twitch-full是完整的Twitch数据集,Google Drive folder 包含所有的Twitch文件。

Music

  • LastFM: 该数据集包含了收听来自 Last.fm 在线音乐系统的两千位用户的社交网络、标签和音乐艺术家信息。
  • LFM-1b: 该数据集包含超过 12 万名 Last.fm 用户的十亿首音乐收听记录。每条记录都存在艺术家、专辑、曲目名称和时间戳这几个特征。
  • Yahoo Music: 该数据集是 Yahoo! 网站音乐社区中用户对各种音乐艺术家的偏爱的快照。
  • KGRec: Music and Sound Recommendation with Knowledge Graphs 提供了用户、物品、用户和物品间的隐式交互、物品标签和物品的文本描述信息。 包括用于音乐推荐的 KGRec-music 和用于声音推荐的 KGRec-sound 数据集。
    • KGRec-music: 所有数据来自 songfacts.comlast.fm 网站。数据集中的物品是歌曲,通过 songfacts.com 中提取的文本和 last.fm 上的标签描述。
    • KGRec-sound: 所有数据来自 Freesound.org 数据集中的物品是声音,用声音创作者上传时的文本描述和标签描述。
  • Music4All-Onion : Music4All-Onion 是一个大规模、多模态的音乐数据集,通过过包含 109,269 首音乐作品的 26 个附加音频、视频和元数据特征来扩展 Music4All 数据集

Books

  • Book-Crossing: 该数据集是 Cai-Nicolas Ziegler 在得到了 Humankind Systems 的 CTO Ron Hornbaker 的许可后,使用爬虫从 Book-Crossing 社区中收集的四周的数据(2004 年 8-9 月),包含 278,858 个用户(匿名但具有人口统计信息)对约 271,379 本书的 1,149,780个评分(显式/隐式)。

Games

  • Steam: 该数据集为 Steam 平台的用户评论和游戏信息,包含 7,793,069 条评论,2,567,538 位用户和 32,135 个游戏。除评论文本外,数据还包括每个评论中用户的游戏时间。
  • GoodReads: 这个数据集包含 Goodreads 读书评价网站上的评价以及许多书本属性。 重要的是,数据集具有多个级别的用户交互,从添加到书架、评级和阅读。

Games

  • Steam: 该数据集收集了Steam上的评论和游戏信息,包括了7,793,069条评论,2,567,538个用户和32,135个游戏。 评论数据中除了文本,还包括用户的游玩时间。

Anime

  • Anime: 该数据集包含 myanimelist.net 的用户偏好信息。每个用户都可以将动漫添加到他们的「已看」列表中并给它一个评分,而该数据集则是这些评分的汇总。

Pictures

  • Pinterest: 此数据集最初由论文《Learning image and user features for recommendations in social networks》构建,来用于评测内容相关的图片推荐,并在论文《Neural Collaborative Filtering》中被处理。

Jokes

  • Jester: 该数据集包含 Jester Joke 推荐系统中用户对笑话的匿名评分。

Exercises

  • KDD2010: 该数据集在 KDD Cup 2010 教育数据挖掘挑战赛中发布,包含学生在系统上练习的情况。

Websites

  • Phishing Websites: 该数据集包含 11,055 个网站的 30 个特征,以及其是否为网络钓鱼网站的标签。网站的特征包括 12 个基于地址栏的特征,6 个基于异常的特征,5 个基于 HTML 和 JavaScript 的特征,以及 7 个基于域的特征。
  • EndoMondo: 该数据集收集了 EndoMondo 用户的锻炼日志。 数据包括 许多序列传感器数据,例如心率日志、速度、GPS以及运动类型、性别和天气状况等。

Adult

  • Adult: 此数据集由 Barry Becker 从 1994 年的人口普查数据库中提取,该数据库包含人员属性,以及他们是否年收入超过 5 万。

News

  • MIND: 该数据集是一个用于新闻推荐研究的大型数据集。它是从微软新闻网站的匿名行为日志中收集的。 MIND包含了大约16万篇英语新闻文章和超过1500万篇由100万用户产生的印象日志。

Beverages

  • BeerAdvocate: 该数据集收集了对啤酒的多维度分数评价,包括味觉、视觉、触觉、嗅觉等多感官感受。
  • RateBeer: 该数据集收集了对啤酒的多维度分数评价,包括味觉、视觉、触觉、嗅觉等多感官感受。

Clothes