V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fiht  ›  全部回复第 33 页 / 共 42 页
回复总数  838
1 ... 25  26  27  28  29  30  31  32  33  34 ... 42  
2017 年 9 月 20 日
回复了 zddewe 创建的主题 DNS DNS 污染相关问题
@disk 巧了老哥 你的头像是我以前手机壁纸
然后楼主把 Linux 内核重写了一遍
2017 年 9 月 20 日
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
楼上让新手用 scrapy 实现随机 UA 和代理 IP 你们是认真的么...
2017 年 9 月 20 日
回复了 saximi 创建的主题 Python 请问有没有这样的爬虫代码范例
https://gist.github.com/anonymous/4a7f7d2c1efbbaaa515f0031cea9c4b2
写了个简单的,本地环境有问题没直接跑但是大概写了一下思路。能够实现楼主的大部分需求了。
楼上上来就说框架的未免有点太新手不友好了。
其实爬虫就两件事情,模拟用户访问,grep 出想要的内容然后保存起来。
模拟用户访问无非就是发送一个 http request,或者通过浏览器发送 JS 加密过的 http reqeust。这个每个语言都有自己的 http client,应该也是都有自定义类似 User-Agent 头、设置代理 IP 这样的功能。所以第一步的解决方案是看对应语言的 API 的 http client 如何自定义发送内容:比如讲上面说的自定义 UA,如何 POST 数据,如何设置代理 etc...
第二部保存起来,你可以写文件,写数据库,或者写入其他的存储引擎。我们通过第一步就得到 html 代码了,grep 出来可以用正则表达式,或者基于 dom 树去选取。然后就更加不是问题了。

============
以上内容面对新手,同样适用于简单爬虫。
2017 年 9 月 19 日
回复了 sensui7 创建的主题 Python 请问 Python 处理文本文件都要这样麻烦吗
大家辛苦一天了
想来论坛吹吹牛逼
然后看到楼主这么脏 /乱 /差(初级)的代码
还把锅甩给蟒蛇
就很生气

-------------
发现一个人
用着和我们一样的小轿车
却要推着走
一边推还要
这小轿车开起来真麻烦
无法量化
成本过高
不如用印度云手工登录生成 cookie
2017 年 9 月 17 日
回复了 assad 创建的主题 程序员 京东出了京享值,一看自己快小 10 万,这玩意能干嘛?
据说是钻石会员不给免邮券了...
还好我机智的买了两年会员普拉斯
2017 年 9 月 17 日
回复了 zxc337 创建的主题 分享创造 程序员名单 --- 专业收录各类程序员博客
看到了随手甩一个
https://blog.fiht.me/
越来越忙,花在博客上的时间也越来越少了
另:开源框架不应该是 scrapy pyspider 这一类的吗哈哈哈哈
长沙应届 10k 很厉害了
帮顶一个
临时加班可以,今天晚上我干活了明天上午看我的精神状态决定几点到岗
2017 年 9 月 6 日
回复了 Presageee 创建的主题 职场话题 阿里面完一般多久通知??
校招等了六十三天
2017 年 9 月 4 日
回复了 siriussilen 创建的主题 macOS 无意中发现了一个 Mac 惊天秘密
☺️
2017 年 9 月 2 日
回复了 fiht 创建的主题 问与答 [求讨论] 网易云音乐的搜索功能怎么做?
@mpich 多谢大佬
1 ... 25  26  27  28  29  30  31  32  33  34 ... 42  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   930 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 22:09 · PVG 06:09 · LAX 14:09 · JFK 17:09
♥ Do have faith in what you're doing.