文享日志

heroku部署爬虫

JavaScript Nodejs Heroku

发表于2017年06月22日11:22:35

0条评论 180次阅读

      superagent是抓取数据的工具。可以发起get和post请求。cheerio是Node.js 版的 jquery,用来从网页中以 css selector 取数据。

var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');

var app = express();
var items = [];
app.get('/', function (req, res, next) {
    superagent.get('https://cnodejs.org/')
        .end(function (err, sres) {
            if (err) {
                return next(err);
            }
            var $ = cheerio.load(sres.text);

            $('.topic_title').each(function (idx, element) {
                var $element = $(element);
                items.push({
                    title: $element.attr('title'),
                    url : $element.attr('href')
                });
            })
           res.send(items);
        })
})
app.listen(process.env.PORT || 5000);

最后监听5000端口。。当5000端口被占用,heroku 使用了主动的策略,主动提供一个环境变量 `process.env.PORT` 来供我们监听。



参考来源:https://github.com/alsotang/node-lessons/tree/master/lesson12


实例:https://luckyhhreptile.herokuapp.com/

👍 0  👎 0
共有0条评论

发表新评论

提交

广告展示

腾讯云推广 阿里云推广