推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
imbo
V2EX  ›  Python

刚学了 python 的基本语法,本人想爬淘宝的列表页到商品详情页,容易实现吗

  •  
  •   imbo · Sep 23, 2015 · 5723 views
    This topic created in 3896 days ago, the information mentioned may be changed or developed.
    菜鸟求指点
    14 replies    2015-11-09 09:41:55 +08:00
    xiamingchong
        1
    xiamingchong  
       Sep 23, 2015
    容易
    imbo
        2
    imbo  
    OP
       Sep 24, 2015
    @xiamingchong 有 ip 限制吗
    TimePPT
        3
    TimePPT  
    PRO
       Sep 24, 2015
    @imbo 理论上网络建站的人都会做反爬机制,否则无数人无数爬虫爬不得把站拖垮了。越是大站越会。简单的限 UA ,稍微高级点的限 IP.

    所以好的爬虫一定是多 IP 并行爬取且会调整请求间隔。让你的爬虫爬取的动作越接近真实用户就越有可能成功爬取。
    imbo
        4
    imbo  
    OP
       Sep 25, 2015
    @TimePPT 您爬过淘宝吗,我想做一些类目商品采集
    ClutchBear
        5
    ClutchBear  
       Sep 25, 2015

    用 firefox 的 firebug 查看元素,找到类似有 json 数据的链接,
    复制拷贝到地址栏就是淘宝商品列表的 json 格式的数据,
    直接分析就行.


    类似这样,可以得到 商品名称, 页面链接, 价格和店铺链接
    Reed
        6
    Reed  
       Sep 28, 2015
    爬起来挺容易的,难的是快点爬,越快越好。
    我爬过豆瓣,那么问题来了, IP 被封怎么办,好,上代理
    接着问题来了,代理质量太低,而且还是会被封,好,开线程
    接着问题又来了,速度还是起不来,后来我就爬了好像不到 2K 本书就放弃了。
    leetao102
        7
    leetao102  
       Sep 29, 2015
    @ClutchBear 小事一把。。我这里报错 sslv3


    <img node-type="image" style="position: absolute; left: 0px; top: 141px;" src=" " width="450" height="292" class=" ">
    ClutchBear
        8
    ClutchBear  
       Sep 29, 2015
    @leetao102 mac10.10 报错 ssl3 的话,
    我也被困扰了很久
    最后在 stack overflow 上找到解决办法了.


    根据 stackoverflow 大神的帖子,我试了很多方式,最终找到一个解决这个错误的方法.
    在 python 中加入以下语句即可.

    import requests.packages.urllib3.util.ssl_
    requests.packages.urllib3.util.ssl_.DEFAULT_CIPHERS = 'ALL'


    我写的解决办法的链接: http://playbear.github.io/2015/09/25/taobao-ssl3-error/
    alexinit
        9
    alexinit  
       Sep 29, 2015
    其实挺简单的,
    leetao102
        10
    leetao102  
       Sep 29, 2015
    @ClutchBear 太帅啦。。原来作者就是你啊。。
    leetao102
        11
    leetao102  
       Sep 30, 2015
    @ClutchBear 请问一下 淘宝这个 url : https://s.taobao.com/search?date-key=sort&data-value=price-desc&ajax=true& 我在 freebug 里面没有找到?您贴个图吗?谢谢
    ClutchBear
        12
    ClutchBear  
       Sep 30, 2015
    @leetao102 点网络,再点保持,然后不同排序试几次,比如按价格 销量什么的.
    就能找到了.
    leetao102
        13
    leetao102  
       Oct 1, 2015
    @ClutchBear 简单易懂...

    您也去做点视频吧。。讲讲吧。。
    xiamingchong
        14
    xiamingchong  
       Nov 9, 2015
    @imbo 除了 ip 限制,别的限制都可以伪装
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5432 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 03:52 · PVG 11:52 · LAX 20:52 · JFK 23:52
    ♥ Do have faith in what you're doing.