加载中...

聚源新闻爬虫及网站介绍

发表于2022-01-24|更新于2022-05-31|爬虫

|字数总计:288|阅读时长:1分钟|阅读量:|评论数:

项目介绍

针对泰晤士报，纽约时报，BBC News 等国外主流媒体进行关键词抓取，针对澎湃新闻，新浪新闻，腾讯新闻等国内主流媒体进行分类抓取。

短期目前旨在爬取所有新闻门户网站的新闻，每个门户网站爬虫开箱即用，并自动保存到同目录下的 csv/excel 文件中。

长期目标是打造一个信息流聚合平台，或者进行更高层面的比如社会舆情、新闻地理可视化等的处理。

github 地址

具体使用可以参考 github 上的 demo 和 wiki：

https://github.com/Python3Spiders/AllNewsSpider

网站地址

新闻数据展示网站：

http://buyixiao.xyz/

上面失效了话，使用如下备用地址访问：

http://8.142.38.214/

服务器性能有限，新开了其他网站，暂时关闭此网站，2022/05/31 记录。

项目赞助

博主维护着不少的开源项目，见于 https://github.com/inspurer ，耗费着大量的时间和精力，如果项目帮助到了你，可以点击下方赞赏，助力项目长期发展。

文章作者: BuyiXiao

文章链接: https://buyixiao.github.io/blog/all-news-spider.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 BuyiXiao's Blog！

bbcnews nytimes thetimes pengpai sina tencent

打赏

wechat
alipay

评论

ValineDisqus

数据库加载中