• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zzfwusa
V2EX  ›  程序员

请教一下,如何批量获取公开的企业信息?(企业黄页信息)

  •  
  •   zzfwusa · Dec 29, 2013 · 4986 views
    This topic created in 4526 days ago, the information mentioned may be changed or developed.
    大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,
    请问如果从网络上快速获取公开的企业信息?
    本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
    请各位高手不吝赐教~~
    6 replies    2014-01-01 22:23:38 +08:00
    zzfwusa
        1
    zzfwusa  
    OP
       Dec 29, 2013
    大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,进度较慢,
    所以想利用网络快速获取大量相关企业信息 (公开且合法的信息,如所在行业,电话,地址等等)
    请问基于何种架构及工具可以快速实现?
    本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
    请各位高手不吝赐教~~
    richiefans
        2
    richiefans  
       Dec 29, 2013
    应该是找到目标站点 定向抓取吧

    python有个爬虫框架 Scrapy
    dong3580
        3
    dong3580  
       Dec 29, 2013 via Android
    请求工商部门的网站抓取。不过你要是批量恶意这种行为算不算违法,小心请你喝茶。
    xxwar
        4
    xxwar  
       Dec 29, 2013
    你可以抓阿里巴巴或者慧聪网或者。。。。。。。很多很多类似的企业黄页网站

    或者花钱买数据,别人抓好现成的。

    这种黄页网站基本是滥大街了,不知道你们公司要再做一个干吗。
    yylzcom
        5
    yylzcom  
       Dec 30, 2013 via Android
    用火车采集器,很容易上手
    dbas
        6
    dbas  
       Jan 1, 2014
    我也正在收集中,我手上才200W....
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1037 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 18:59 · PVG 02:59 · LAX 11:59 · JFK 14:59
    ♥ Do have faith in what you're doing.