【持续更新|2022最新】68w 高质量新闻数据集
租用服务器,累计半年有余对新浪,腾讯,澎湃三个国内主流新闻站点进行抓取,共计保存 68 w 数据,约 1.8G,导出到本地 csv 花了 5 个小时。
csv 一共 11 列,分别是:新闻抓取时间,标题,来源,头图,发布时间,链接,分类,关键词(逗号分隔),标签,描述,内容。
数据收集和整理获取花费大量时间和精力,故收取一定费用。下载地址:
https://afdian.net/p/67bcb002d38f11ecad6152540025c377
数据集不定期增量更新到上述下载地址~
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 BuyiXiao's Blog!
评论
ValineDisqus