关于爬虫拖库的一些疑惑

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3973 天前的主题，其中的信息可能已经有所发展或是发生改变。

像http://epub.sipo.gov.cn/gjcx.jsp 这个网站，通过关键词检索能否遍历它数据库里面所有的项目？如果可以的话，这种网站的拖库是不是挺容易的？

爬虫

疑惑

关于

6 条回复 • 2015-02-07 21:52:03 +08:00

arkilis

2015-02-07 13:37:42 +08:00

但是你怎么知道这个是数据库中所有的内容呢。

拖库就是一点不剩给拖下来。拖：音调一声

wdlth

2015-02-07 14:29:42 +08:00

这个只能叫抓取、采集数据，真正的拖库不只是数据，还要有关系。

R4rvZ6agNVWr56V0

2015-02-07 16:03:11 +08:00

理论上是可以获取到所有专利文档数据的，但数据库中的表结构、关系你是“拖”不出来的。

professorz

2015-02-07 21:11:51 +08:00

@arkilis 嗯，我发现了点bug，比如搜索1985年的数据，“只勾选发明公布”和“四项都勾选”两种情况下，得到的发明公布的数量不一样！奇怪~~

professorz

2015-02-07 21:13:00 +08:00

@GeekGao 感觉上这种数据库好像没什么表关系。。。甚至4张表就能包含所有数据。。

R4rvZ6agNVWr56V0

2015-02-07 21:52:03 +08:00

@professorz 你跑题了，我是说他们的数据库本身，而不是如何设计这个系统。。。