文享日志

Node-SpliderApi与WebSplider

爬虫

发表于2018年07月12日17:38:32

更新于2018年07月12日17:42:30

0条评论 234次阅读

首先贴项目地址:

https://github.com/ecitlm/Node-SpliderApi


用作者的话来讲,

Node-SpliderApi是一个基于nodejs 的爬虫 API接口项目,包括前端开发日报、前端top框架排行、知乎日报、音乐数据接口、妹纸福利、搞笑视频、热点新闻资讯 详情接口数据


       在这个项目中,作者爬取了一些常用网站的数据,生成了数据接口API,使用时调用API构造到自己的应用环境中就成。

      Node-SpliderApi项目特点就是不用怎么配置,用户查看他给出的调用链接进行调用就成。优点是操作简单,开箱即用。缺点,Node-SpliderApi只提供了固定类别固定网站数据的API,但是对于除了其他没有内置的网站的数据无能为力。比如:对于项目中的前端开发日报接口,数据只爬取了“前端开发博客”与“掘金”的内容。

      WebSplider在线爬虫也是提供数据API的。优点是自定义程度高,数据响应快(因为将爬取结果存到数据库,定时更新数据),提供了HTTP代理。缺点就是需要一定的学习成本。


      看了作者的项目,值得学习的地方还是蛮多的。首先就是数据返回方面。

Node-SpliderApi项目的数据返回图:

Node-SpliderApi


WebSplider的数据返回图:

WebSplider


        Node-SpliderApi给出的是完整的JSON格式数据,包含响应码什么的,在调用数据接口API时,只需要判断响应码就可以判断此次请求结果是否采纳。WebSplider则直接给出结果数组。虽然按理说,在预览抓取阶段就能判断数据响应成功与否,但实际使用API过程中,情况又是各种各样。


       此外,作者在文档方面写的很完善,包含各种接口的详细配置。代码方面,首先的目录结构清晰,变量名什么的起的比我高明多了,然后就是我发现它的每种数据调用,都单独写了请求函数去请求网站数据。一是每个网站数据所在的标签不同(他的爬虫原理与我的类似,都是分析标签来获得数据),再一个是为了想定制一下返回的结果数据。在这一点上,我的处理方法比他高明多了,我的函数中只写了一个请求函数,输出结果定制是由用户自己输入,程序再进行判断分析处理。


然后我发现作者为他的项目写了个这个

https://ecitlm.github.io/Node-SpliderApi/#/


暑假我也要写😊


然后我发现这个项目获得了459个star,我也要😋


然后放上WebSplider地址,给我的爬虫做个小小的宣传

http://splider.docmobile.cn/#/


项目地址

https://github.com/LuckyHH/WebSplider


有幸看到我这篇文章的,麻烦给我项目点个赞,谢谢😁






👍 0  👎 0
共有0条评论

发表新评论

提交

广告展示

腾讯云推广 阿里云推广