项目介绍

针对泰晤士报,纽约时报,BBC News 等国外主流媒体进行关键词抓取,针对澎湃新闻,新浪新闻,腾讯新闻等国内主流媒体进行分类抓取。

短期目前旨在爬取所有新闻门户网站的新闻,每个门户网站爬虫开箱即用,并自动保存到同目录下的 csv/excel 文件中。

长期目标是打造一个信息流聚合平台,或者进行更高层面的比如社会舆情、新闻地理可视化等的处理。

github 地址

具体使用可以参考 github 上的 demo 和 wiki:

https://github.com/Python3Spiders/AllNewsSpider

网站地址

新闻数据展示网站:

http://buyixiao.xyz/

上面失效了话,使用如下备用地址访问:

http://8.142.38.214/

聚源新闻网站_zip.png

服务器性能有限,新开了其他网站,暂时关闭此网站,2022/05/31 记录。

项目赞助

博主维护着不少的开源项目,见于 https://github.com/inspurer ,耗费着大量的时间和精力,如果项目帮助到了你,可以点击下方赞赏,助力项目长期发展。