为了帮助用户将原始输入转换为我们定义的原子文件,我们已经收集了超过 28 种的常见数据集,并且开源了将这些数据集转换为原子文件的脚本,详见 RecSysDatasets。同时,我们也将部分已经处理好的原子文件打包上传至
百度网盘 (提取码: e272) 和 Google Drive。
这些数据集的简单介绍如下:
Shopping
- Amazon: 该数据集包含 Amazon
平台的评论和元数据,包括自 1996
年 5 月至 2014 年 7 月的 1.428 亿条评论。此数据集包括评分数据(rating),产品元数据(descriptions, category information,
price, brand 和 image features)以及链接数据( 共同查看/共同购买的关系图)。
- Amazon_M2:
该数据集是一个多语言多地区会话数据集,包含六种不同地区的匿名客户会话:英语、德语、日语、法语、意大利语和西班牙语。
- Alibaba-iFashion:
该数据集是论文POG中从阿里巴巴在线购物系统收集的时尚服装数据集。
每个outfit中的物品都被视为向用户推荐的项目,其中每个物品都由类别和标题等属性组成。
- Epinions:
该数据集由
Epinions.com 收集,Epinions 是一个流行的点评网站。
- Yelp: 该数据集由 Yelp收集,
Yelp 数据集整合了businesses、reviews 和 user data 信息,可用于个人、教育、学术目的。从 Yelp Challenge 2018
开始总共有4个版本的Yelp数据集。Yelp还把数据集发布在了Kaggle上,在这里你可以下载到几个更早的
版本。我们处理过的5个数据集的详细信息在此处。
-
Yelp
2018: 在Yelp Challenge 2018上发布的第1版Yelp数据集,包括5,261,669条评论。
-
Yelp
2020: 发布于2020年的第二版Yelp数据集,包括8,021,122条评论。
-
Yelp
2021: 发布于2021年的第三版Yelp数据集,包括8,635,403条评论。
-
Yelp
2022: 最新版的Yelp数据集,包括908,915条评论。
-
Yelp-full: 该数据集综合了上述4个Yelp数据集,去除了重复的数据,共有28,908,240条评论。
- Tmall : 该数据集由
Ant
Financial Services 提供,它被使用于 IJCAI16 比赛。
- DIGINETICA :
该数据集包含了从电商搜索引擎日志中抽取的用户会话信息,包含匿名的 user IDs, 经过哈希处理的查询、产品说明和元数据, log 尺度缩放的价格、点击、购买等信息。
- YOOCHOOSE : 该数据集由
YOOCHOOSE
GmbH 构建,来支持 RecSys Challenge 2015。
- Retailrocket:
该数据集是从一个真实世界的电子商务网站中收集的。它未经过任何内容相关的处理,但是由于保密的原因,经过了哈希处理。
- Ta
Feng: 该数据集包含
2000 年 11 月至 2001 年 2 月的某中国杂货店交易数据。
Advertisng
- Criteo:
该数据集由
Criteo 收集,包含了 Criteo 几天内的流量数据。
- Avazu: 该数据集被用于
Avazu
的点击预测比赛。
- iPinYou: 该数据集由 iPinYou 提供,包含了三季的 iPinYou
全球
RTB (Real-Time Bidding) Bidding 算法竞赛所使用的训练集和测试集。
- AliEC:
Ali_Display_Ad_Click是展示在淘宝网上的广告点击率预测数据集,由阿里巴巴提供。
Check-in
- Foursquare:
该数据集包含了从纽约和东京收集的约 10 个月的签到。每次入住都附有时间戳、GPS坐标及其语义信息等。
- Gowalla:
该数据集来自一个基于用户定位的社交网站,用户通过签到来共享其位置。数据集包含在 2009 年 2 月至 2010 年 10 月期间的用户的 6,442,890 次签到。
Movies
- MovieLens: 该数据集由
GroupLens Research 收集,是其电影评价网站的评分数据。
- Netflix:
该数据集是 Netflix 大奖赛所使用的官方数据集。
- Douban:
豆瓣是一个允许互联网用户分享有关电影的评论与观点的网站。该数据集包含了 28 部电影的超过两百万条短评。
- Twitch:
在Twitch上消费流媒体内容的用户数据集。
Music
- LastFM:
该数据集包含了收听来自 Last.fm 在线音乐系统的两千位用户的社交网络、标签和音乐艺术家信息。
- LFM-1b: 该数据集包含超过 12 万名
Last.fm 用户的十亿首音乐收听记录。每条记录都存在艺术家、专辑、曲目名称和时间戳这几个特征。
- Yahoo
Music: 该数据集是 Yahoo! 网站音乐社区中用户对各种音乐艺术家的偏爱的快照。
- KGRec: Music and Sound
Recommendation with Knowledge Graphs 提供了用户、物品、用户和物品间的隐式交互、物品标签和物品的文本描述信息。
包括用于音乐推荐的 KGRec-music 和用于声音推荐的 KGRec-sound 数据集。
- Music4All-Onion : Music4All-Onion 是一个大规模、多模态的音乐数据集,通过过包含 109,269 首音乐作品的 26 个附加音频、视频和元数据特征来扩展 Music4All 数据集
Books
- Book-Crossing:
该数据集是 Cai-Nicolas Ziegler 在得到了 Humankind Systems 的 CTO Ron Hornbaker
的许可后,使用爬虫从 Book-Crossing 社区中收集的四周的数据(2004 年 8-9 月),包含 278,858
个用户(匿名但具有人口统计信息)对约 271,379 本书的 1,149,780个评分(显式/隐式)。
Games
- Steam: 该数据集为 Steam
平台的用户评论和游戏信息,包含 7,793,069 条评论,2,567,538 位用户和 32,135
个游戏。除评论文本外,数据还包括每个评论中用户的游戏时间。
- GoodReads:
这个数据集包含 Goodreads 读书评价网站上的评价以及许多书本属性。
重要的是,数据集具有多个级别的用户交互,从添加到书架、评级和阅读。
Games
- Steam:
该数据集收集了Steam上的评论和游戏信息,包括了7,793,069条评论,2,567,538个用户和32,135个游戏。
评论数据中除了文本,还包括用户的游玩时间。
Anime
- Anime:
该数据集包含 myanimelist.net
的用户偏好信息。每个用户都可以将动漫添加到他们的「已看」列表中并给它一个评分,而该数据集则是这些评分的汇总。
Pictures
- Pinterest:
此数据集最初由论文《Learning image and user features for
recommendations in social
networks》构建,来用于评测内容相关的图片推荐,并在论文《Neural Collaborative
Filtering》中被处理。
Jokes
- Jester:
该数据集包含 Jester Joke 推荐系统中用户对笑话的匿名评分。
Exercises
- KDD2010:
该数据集在 KDD Cup 2010 教育数据挖掘挑战赛中发布,包含学生在系统上练习的情况。
Websites
- Phishing
Websites: 该数据集包含 11,055 个网站的 30
个特征,以及其是否为网络钓鱼网站的标签。网站的特征包括 12 个基于地址栏的特征,6
个基于异常的特征,5 个基于 HTML 和 JavaScript 的特征,以及 7
个基于域的特征。
- EndoMondo:
该数据集收集了 EndoMondo 用户的锻炼日志。 数据包括
许多序列传感器数据,例如心率日志、速度、GPS以及运动类型、性别和天气状况等。
Adult
- Adult:
此数据集由 Barry Becker 从 1994
年的人口普查数据库中提取,该数据库包含人员属性,以及他们是否年收入超过 5 万。
News
- MIND:
该数据集是一个用于新闻推荐研究的大型数据集。它是从微软新闻网站的匿名行为日志中收集的。
MIND包含了大约16万篇英语新闻文章和超过1500万篇由100万用户产生的印象日志。
Beverages
- BeerAdvocate:
该数据集收集了对啤酒的多维度分数评价,包括味觉、视觉、触觉、嗅觉等多感官感受。
- RateBeer:
该数据集收集了对啤酒的多维度分数评价,包括味觉、视觉、触觉、嗅觉等多感官感受。
Clothes