赞
踩
1.nodejs 爬取网页数据利用http模块中的get方法,http.get(‘爬取的网页url地址’,(req)=>{})
2.爬取的网页需要借助第三方的一个插件cheerio,该插件可以将网页中的数据拿出来,npm install cheerio
const http = require('http'); const cheerio = require('cheerio'); const fs = require('fs'); const app = http.createServer((req, res) => { http.get('http://www.17989.com/xiaohua/', (newReq) => { let str = '' newReq.on('data', (chunk) => { str += chunk }) newReq.on('end', () => { let $ = cheerio.load(str) //1. 定义一个数组,将数据存放到数组中 let arr = []; //[{title:'笑话标题',content:'笑话内容'},{title:'笑话标题',content:'笑话内容'}] $('.hd').each((i, v) => { arr.push({ 'title': $(v).text(), "content": $(v).next().text() }) }); // 2.将该数据arr写入到一个json文件中,存放在static中的json文件夹中 // fs.writeFileSync('./static/json/data.json', JSON.stringify(arr)) fs.writeFile('./static/data/data.json', JSON.stringify(arr), (err) => { console.log(err); }) }) }) res.end('ok') }) app.listen(9999, () => { console.log('服务器已启动!!!'); })
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。