博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Nodejs HTML抓取与内容提取
阅读量:6502 次
发布时间:2019-06-24

本文共 1275 字,大约阅读时间需要 4 分钟。

  hot3.png

来代码实在了:

var Crawler = require("crawler");

var c = new Crawler({

    maxConnections : 1,
    rateLimit:2000,
    callback : function (error, res, done) {
        if(error){
            console.error(error);
        }else{
            var $ = res.$;
            var index = 0;
            var querystring = require('querystring')
            var url = require('url')
            var item = $('div.left-container').find('div.design-goods-list-item-contianer').each(function($this){
                var a = $(this).find('.design-goods-image-container').children('a').attr('href');
                var img = $(this).find('.design-goods-image-container').children('a').children('img').attr('src')
                var title =$(this).find('.design-goods-image-container').children('a').children('img').attr('title')
                var price = $(this).find('.design-goods-price-and-collect-container').children('div.design-goods-price').text()
                //var ref = a.attr('href')
                //var img = a.children('img').attr('src')
                
                var argstr = url.parse('http://gz.17zwd.com'+a).query
                var arg = querystring.parse(argstr);
                console.log('GID='+arg.GID)
                console.log(a)
                console.log(img)
                console.log(title)
                console.log(price)
                
                console.log('------------')
                console.log()
            });
        }
        done();
    }
});

c.queue({

    uri:"http://gz.17zwd.com/sks.htm?pstart=80&pend=89&ax=&zdid=42&mid=-1&fid=-1&cateid=50010850&color=&size=&so=2017+春&page=2",
});

转载于:https://my.oschina.net/wujux/blog/825487

你可能感兴趣的文章
TCP三次握手和四次挥手协议
查看>>
蒙地卡罗树搜索
查看>>
sqlserver附加 mdf、ldf的方法(手记)
查看>>
YYAsyncLayer 源码解析
查看>>
Vue教程03:Vue事件、v-show、v-if指令
查看>>
Android输入法弹出时覆盖输入框问题
查看>>
Spring Boot系列21 Spring Websocket实现websocket集群方案讨论
查看>>
cloudera-manager 设置 JAVA_HOME
查看>>
基于Vue开发一个日历组件
查看>>
如何创建自己的npm包
查看>>
ThinkPHP v5 新漏洞攻击案例首曝光,阿里云已可告警并拦截
查看>>
JavaSE基础:Math类和Random类
查看>>
package.json 中你需要了解的都在这
查看>>
(三)编辑序列帧动画
查看>>
关于读书笔记
查看>>
如何在webpack+vue项目中使用postcss-px2rem
查看>>
JavaScript DOM 编程艺术 学习笔记01
查看>>
浏览器滚动条高度的获取
查看>>
2017年终总结
查看>>
【Node】简单快捷的图片压缩脚本
查看>>