当前位置:   article > 正文

node.js爬虫_nodejs 爬虫

nodejs 爬虫

一、node.js爬虫

爬虫: 表示通过服务器端抓取或者获取前端网页中的数据,以下是node.js爬虫的步骤

1.nodejs 爬取网页数据利用http模块中的get方法,http.get(‘爬取的网页url地址’,(req)=>{})
2.爬取的网页需要借助第三方的一个插件cheerio,该插件可以将网页中的数据拿出来,npm install cheerio

二、代码

const http = require('http');
const cheerio = require('cheerio');
const fs = require('fs');
const app = http.createServer((req, res) => {
    http.get('http://www.17989.com/xiaohua/', (newReq) => {
        let str = ''
        newReq.on('data', (chunk) => {
            str += chunk
        })
        newReq.on('end', () => {
            let $ = cheerio.load(str) 
            //1. 定义一个数组,将数据存放到数组中
            let arr = []; //[{title:'笑话标题',content:'笑话内容'},{title:'笑话标题',content:'笑话内容'}]
            $('.hd').each((i, v) => {  
                arr.push({
                    'title': $(v).text(),
                    "content": $(v).next().text()
                })
            });
            // 2.将该数据arr写入到一个json文件中,存放在static中的json文件夹中
            // fs.writeFileSync('./static/json/data.json', JSON.stringify(arr))
            fs.writeFile('./static/data/data.json', JSON.stringify(arr), (err) => {
                console.log(err);
            })
        })
    })
    res.end('ok')
})
app.listen(9999, () => {
    console.log('服务器已启动!!!');
})
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/848659
推荐阅读
相关标签
  

闽ICP备14008679号