V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
pingju
V2EX  ›  问与答

做比价程序遇到的问题求解

  •  
  •   pingju · 2010-12-04 19:57:57 +08:00 · 5632 次点击
    这是一个创建于 5089 天前的主题,其中的信息可能已经有所发展或是发生改变。
    京东的商品价格是用js显示的,新蛋是用图片。

    问题1. 这些网站有没有开放接口?我没能找到呀。豆瓣是通过合作取得的数据吧。
    问题2. 用PHP的话,怎样可以高效得从页面提取出需要的数据。我目前用正则匹配,速度实在难以接受。

    这里的高手愿意帮忙给个提示吗?谢谢!
    9 条回复    1970-01-01 08:00:00 +08:00
    won
        1
    won  
       2010-12-04 20:02:36 +08:00 via iPhone
    html采集吧,最通用的方法,管他什么api
    yoyicue
        2
    yoyicue  
       2010-12-04 20:02:44 +08:00
    这种脏活累活 还是python高效啊 ~
    daqing
        3
    daqing  
       2010-12-04 20:08:40 +08:00
    从页面提取数据,用DOM啊。。最好用个支持CSS选择器的DOM库,会很爽的。

    Ruby的话,推荐Nokogiri
    zhendi
        4
    zhendi  
       2010-12-04 20:09:40 +08:00
    1. 没有开放接口,你可以跟他们谈,或者跟我们一样自己写个识别系统,只是数字识别,不是很难。
    laiwei
        5
    laiwei  
       2010-12-04 20:12:09 +08:00
    没有api 总归很被动 当然,如果我们的提取 设别做的足够nb的话 那就变为主动了~

    建议立足于提取
    aligo
        6
    aligo  
       2010-12-04 20:56:44 +08:00
    。。。楼主是谁?想做什么?
    ong
        7
    ong  
       2010-12-04 21:22:26 +08:00
    @daqing nokogiri太牛叉了,“锯”这个项目名太传神了
    est
        8
    est  
       2010-12-04 21:35:14 +08:00
    @daqing nokogiri果然牛。。。
    pingju
        9
    pingju  
    OP
       2010-12-05 01:19:19 +08:00 via iPad
    @aligo 业余PHP学习,感兴趣就开始做,也为练手

    谢谢大家的热心回答!按提示找到了 the simpleHTMLdom library http://phpforce.org/8 先研究一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2624 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 03:40 · PVG 11:40 · LAX 19:40 · JFK 22:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.