聚源新闻爬虫及网站介绍
项目介绍
针对泰晤士报,纽约时报,BBC News 等国外主流媒体进行关键词抓取,针对澎湃新闻,新浪新闻,腾讯新闻等国内主流媒体进行分类抓取。
短期目前旨在爬取所有新闻门户网站的新闻,每个门户网站爬虫开箱即用,并自动保存到同目录下的 csv/excel 文件中。
长期目标是打造一个信息流聚合平台,或者进行更高层面的比如社会舆情、新闻地理可视化等的处理。
github 地址
具体使用可以参考 github 上的 demo 和 wiki:
https://github.com/Python3Spiders/AllNewsSpider
网站地址
新闻数据展示网站:
上面失效了话,使用如下备用地址访问:
服务器性能有限,新开了其他网站,暂时关闭此网站,2022/05/31 记录。
项目赞助
博主维护着不少的开源项目,见于 https://github.com/inspurer ,耗费着大量的时间和精力,如果项目帮助到了你,可以点击下方赞赏,助力项目长期发展。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 BuyiXiao's Blog!
评论
ValineDisqus