我对爬虫的理解是不是有偏见？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 3357 days ago, the information mentioned may be changed or developed.

总觉得爬虫是个脏活累活，数据是很宝贵的资源，可以做很多事情
但是爬虫的被动型太强，因为总是要跟随者别的网站去更新和解析，每个网站的 DOM 也不一样
所以感觉做爬虫这块对职业发展来说，不是很有利

不知道我是不是对爬虫有误解和偏见

爬虫

偏见

被动型

DOM

21 replies • 2017-02-19 13:23:19 +08:00

Yourdaye

Feb 18, 2017 via iPhone

是
有本事你写个百度或者 Google 出来

em70

Feb 18, 2017

是
有本事你让用户主动给你提交数据啊

starvedcat

Feb 18, 2017

难道不正是因为“要跟随者别的网站去更新和解析”，爬虫程序员才有市场么

Yourdaye

Feb 18, 2017 via iPhone

1994 年，两个斯坦福大学的学生在一个旧服务器上运行了一个 Python 爬虫，这个爬虫就是后来的 Google

einvince

Feb 18, 2017 via iPhone

@Yourdaye 从这个层面讨论没有意义，我要有写百度的能力还会在这提问，不能一讨论问题就提 apple google facebook ，我说的是一般的爬虫工程师的职业规划，首先我承认我只是一个普通人

shoaly

Feb 18, 2017

爬虫在内容制造者一方或看来是一种"不劳而获", 直接抄袭的行为.
但是由于爬虫的对象本身又是存在于互联网上, 互联网精神就是共享.
结合上面 2 点, 如果利用爬虫将内容二次加工整理又分享出来应该是最好的结果了, 如果是直接用爬虫然后盈利, 吃相比较难看了

Yourdaye

Feb 18, 2017 via iPhone

@einvince 所以说，这是能力的问题，不是工种的问题。

webjin1

Feb 18, 2017

@Yourdaye 那时候他们应该不是用 python 写的爬虫，可能是用 C 写的

42V0CdLjCU494ogF

Feb 18, 2017

最厉害的是用产品把用户变成你的爬虫，
给你的平台生产内容，给你的数据库各种隐私信息，通过电子设备的各种传感器给你各种数据，
然后给你玩 “大数据” ～

tigren

Feb 18, 2017

之前忘了谁说的，国内新手程序员对爬虫情有独钟：我刚学 Pyhon ，写个啥练手呢，就写个爬虫吧；或者有些课程大作业就是写爬虫抓数据...

murmur

Feb 18, 2017

爬虫是一个产业，不是一项技术，对于 google 和 baidu 这种爬虫大家是接受的，如果这两个爬虫想爬其他网站做垂直搜索，大家可以合作，可以开后门，可以直接 push 数据都没问题

但是如果你爬同样的网站，会有各种技巧对付你

Yourdaye

Feb 18, 2017 via iPhone

@webjin1 《 Flask web 开发》的作者在书中提到过，确实是 Python 爬虫

BoBoy

Feb 18, 2017 via iPhone

@Yourdaye 呵呵，你有什么能力？又见键盘侠。

BoBoy

Feb 18, 2017 via iPhone

@webjin1 哈哈，上面那个装逼屌丝暴露了

zungmou

Feb 18, 2017

爬虫只是个工具，而爬虫产生什么样的价值取决于爬虫加工后的数据的体量和质量，并且大体量和高质量的数据是需要消耗大量的计算资源的。

所以你以为采集一个或几个网站的数据就能有多大的意义吗？

bxb100

Feb 19, 2017 via Android

@BoBoy 我觉得你的回复攻击性有点强啊

zwh8800

Feb 19, 2017 via iPhone

爬虫架构上也是很有研究的，开发一个分布式的爬虫系统难度比分布式的 web 高多了

aussieweever

Feb 19, 2017 via Android

很多网站上写明了禁止各种形式的数据抓取这个怎么破

Yourdaye

Feb 19, 2017

@BoBoy 你说你长得跟三寸丁的武大郎似的，问人，当鸭有没有前途？别人说，当鸭肯定有前途啊，但是你吧，可能只能戴着绿帽卖烧饼了。

PS:此回复与楼主无关
PS2 ：@BoBoy 已被 Blocked.

BoBoy

Feb 19, 2017 via iPhone

@bxb100 没有，没有。我只是道出了事实的真相，真相一般都会使当事者羞愧难当，然后为了掩饰自己被揭露的内心，就会此地无银三百两，就想下面他回复的那样。
哈哈，这种人调侃调侃就好了，死活与我何干😜😜

imn1

Feb 19, 2017

爬虫只是一种输入方式

大多数涉及数据的行业都需要爬虫
例如與情分析，难道派人每天一条条微博、一条条微信去看么？

职业规划什么的，其实也不用想太多，职业是市场决定
我 90 年代想做这方面的规划也没用，因为那时市场除了调查公司没有“大树锯”的需求
而现在，也不能做出很好的规划，因为现在大树锯还流于表面（只是算算占比、同比、环比之类），很多实际需要数据分析的行业还未能“见到”大数据的好处

现在国内真正做数据深挖的是气象、地震、医药、部分重化工、证券、少数农业、以及一些科研单位或军事单位
国外除了上述还有自动驾驶、探索（地球、太空、考古）、日用化工、零售……等等，覆盖面已经逐渐铺开
国内的零售、服装、服务业……还处于浅挖

爬虫狭义的就是互联网爬虫，爬的就是文字信息，技术加强肯定离不开深度、广度、速度这三方面，这是回应 LZ 的
但广义爬虫就多了，离开互联网，用仪器辅助获取信息，都是爬虫，例如 google 用无人驾驶汽车收集地图信息，如果你有“预见”，可以用无人机收集信息啊
还记得《 X-File 》么？利用天花接种收集公民 DNA 信息……呃，扯远了