1
Yourdaye 2017-02-18 16:28:11 +08:00 via iPhone
是
有本事你写个百度或者 Google 出来 |
2
em70 2017-02-18 16:44:21 +08:00
是
有本事你让用户主动给你提交数据啊 |
3
starvedcat 2017-02-18 16:55:54 +08:00
难道不正是因为“要跟随者别的网站去更新和解析”,爬虫程序员才有市场么
|
4
Yourdaye 2017-02-18 16:56:32 +08:00 via iPhone
1994 年,两个斯坦福大学的学生在一个旧服务器上运行了一个 Python 爬虫,这个爬虫就是后来的 Google
|
5
einvince OP @Yourdaye 从这个层面讨论没有意义,我要有写百度的能力还会在这提问,不能一讨论问题就提 apple google facebook ,我说的是一般的爬虫工程师的职业规划,首先我承认我只是一个普通人
|
6
shoaly 2017-02-18 17:23:52 +08:00
爬虫在内容制造者一方或看来是一种"不劳而获", 直接抄袭的行为.
但是由于爬虫的对象本身又是存在于互联网上, 互联网精神就是共享. 结合上面 2 点, 如果利用爬虫将内容二次加工整理又分享出来应该是最好的结果了, 如果是直接用爬虫然后盈利, 吃相比较难看了 |
9
jwenwang 2017-02-18 18:45:12 +08:00
最厉害的是用产品把用户变成你的爬虫,
给你的平台生产内容,给你的数据库各种隐私信息,通过电子设备的各种传感器给你各种数据, 然后给你玩 “大数据” ~ |
10
tigren 2017-02-18 18:56:45 +08:00
之前忘了谁说的,国内新手程序员对爬虫情有独钟:我刚学 Pyhon ,写个啥练手呢,就写个爬虫吧;或者有些课程大作业就是写爬虫抓数据...
|
11
murmur 2017-02-18 18:58:38 +08:00
爬虫是一个产业,不是一项技术,对于 google 和 baidu 这种爬虫大家是接受的,如果这两个爬虫想爬其他网站做垂直搜索,大家可以合作,可以开后门,可以直接 push 数据都没问题
但是如果你爬同样的网站,会有各种技巧对付你 |
15
zungmou 2017-02-18 23:56:34 +08:00
爬虫只是个工具,而爬虫产生什么样的价值取决于爬虫加工后的数据的体量和质量,并且大体量和高质量的数据是需要消耗大量的计算资源的。
所以你以为采集一个或几个网站的数据就能有多大的意义吗? |
17
zwh8800 2017-02-19 02:26:55 +08:00 via iPhone
爬虫架构上也是很有研究的,开发一个分布式的爬虫系统难度比分布式的 web 高多了
|
18
aussieweever 2017-02-19 10:17:25 +08:00 via Android
很多网站上写明了禁止各种形式的数据抓取这个怎么破
|
19
Yourdaye 2017-02-19 10:51:48 +08:00
|
20
BoBoy 2017-02-19 12:02:26 +08:00 via iPhone
@bxb100 没有,没有。我只是道出了事实的真相,真相一般都会使当事者羞愧难当,然后为了掩饰自己被揭露的内心,就会此地无银三百两,就想下面他回复的那样。
哈哈,这种人调侃调侃就好了,死活与我何干😜😜 |
21
imn1 2017-02-19 13:23:19 +08:00
爬虫只是一种输入方式
大多数涉及数据的行业都需要爬虫 例如與情分析,难道派人每天一条条微博、一条条微信去看么? 职业规划什么的,其实也不用想太多,职业是市场决定 我 90 年代想做这方面的规划也没用,因为那时市场除了调查公司没有“大树锯”的需求 而现在,也不能做出很好的规划,因为现在大树锯还流于表面(只是算算占比、同比、环比之类),很多实际需要数据分析的行业还未能“见到”大数据的好处 现在国内真正做数据深挖的是气象、地震、医药、部分重化工、证券、少数农业、以及一些科研单位或军事单位 国外除了上述还有自动驾驶、探索(地球、太空、考古)、日用化工、零售……等等,覆盖面已经逐渐铺开 国内的零售、服装、服务业……还处于浅挖 爬虫狭义的就是互联网爬虫,爬的就是文字信息,技术加强肯定离不开深度、广度、速度这三方面,这是回应 LZ 的 但广义爬虫就多了,离开互联网,用仪器辅助获取信息,都是爬虫,例如 google 用无人驾驶汽车收集地图信息,如果你有“预见”,可以用无人机收集信息啊 还记得《 X-File 》么?利用天花接种收集公民 DNA 信息……呃,扯远了 |