V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  dsg001  ›  全部回复第 41 页 / 共 42 页
回复总数  824
1 ... 33  34  35  36  37  38  39  40  41  42  
2016-09-28 08:20:09 +08:00
回复了 pc10201 创建的主题 程序员 有没有用 go 或者 python 代替 shell 脚本的?
简单的命令用 shell , 复杂的 py 搞定,至于简单与否看对 shell 的掌握程度
2016-09-20 19:24:08 +08:00
回复了 adminsvv 创建的主题 云计算 受到乐视云视频成吨的伤害!
貌似 B 站的压缩教程可以在保证清晰度的情况下压缩最大
2016-09-20 08:54:28 +08:00
回复了 elviscai 创建的主题 Python [x 经] 现在已经是 Python 3 的时代了么?
gevent , scrapy 都支持 py3 了,而且现在的 3.5 直接 32 、 64 整合,自动选择
2016-09-19 19:56:58 +08:00
回复了 dsg001 创建的主题 Python logging 为嘛输出两次?
@sylecn 感谢,设置 propagate 搞定

第三方直接使用的 root logger ,貌似 root 使用后会自动添加一个 StreamHandler , root 和子 logger 各有一个 StreamHandler ,所以输出两次记录
2016-09-19 07:15:10 +08:00
回复了 hippoboy 创建的主题 Python 请问使用 scrapy 的优势是什么?直接用 requests 不是很简单?
@jackon 球带,能简单说下什么小项目?
2016-09-18 20:45:20 +08:00
回复了 hippoboy 创建的主题 Python 请问使用 scrapy 的优势是什么?直接用 requests 不是很简单?
@petelin 再加上 lxml 、 sqlite ,大部分比上 scrapy 快,比较复杂的爬虫 scrapy
2016-09-08 19:57:43 +08:00
回复了 dsg001 创建的主题 Python 放出去的爬虫被泛解析站群困住了,如何才能爬出去?
@xderam
@bombless
限制二级域名数量误伤太大, github.ioblogspot.com 等都是大量二级域名
2016-09-08 09:43:16 +08:00
回复了 dsg001 创建的主题 Python 放出去的爬虫被泛解析站群困住了,如何才能爬出去?
@wyntergreg 泛解析的站群,无限二级域名,记录也没用
2016-09-08 07:08:27 +08:00
回复了 dsg001 创建的主题 Python 放出去的爬虫被泛解析站群困住了,如何才能爬出去?
@zhjits 相似度没用,全部都是随机调用, js 写入框架
2016-09-07 20:41:23 +08:00
回复了 datayes2015 创建的主题 Python 借助 Python 实现海龟交易系统:)
十年前用飞狐写指标
2016-09-01 10:06:43 +08:00
回复了 ugugzh 创建的主题 程序员 只会百度不会写代码
把代码加关键词扔到印象笔记,以后用到直接到笔记搜索,实在太闲还可以优化下
2016-09-01 10:04:49 +08:00
回复了 jinxueliu 创建的主题 数据库 存储大量的文件该选用哪种数据库?
几千万<100K 文件硬盘扛不住,压缩后扔到数据库
2016-08-30 10:49:48 +08:00
回复了 creaer 创建的主题 Python Python 反爬虫
@creaer
@airqj
所以尽量提高单位时间的爬取速度,被封后换 IP 继续
2016-08-29 16:34:58 +08:00
回复了 creaer 创建的主题 Python Python 反爬虫
单机几百线程爬知乎,爬 20+小时没问题,过了几天才被封
支持一下,超赞
2016-08-27 19:48:25 +08:00
回复了 dsg001 创建的主题 Python 单 IP 如何最大限度爬取 GG 搜索结果?
@lbp0200 用来跟踪网站排名,方便以后分析的。 另外百度应该有足够的 IP 进行轮询吧
2016-08-26 09:04:05 +08:00
回复了 Reign 创建的主题 程序员 Googlebot 能探测到 cloudflare 后面网站的真实服务器 ip 吗?
页面底部隐蔽输出来访 UA 、 IP ,等 GG 收录之后,查看缓存中的 UA 、 IP 就晓得了
1 ... 33  34  35  36  37  38  39  40  41  42  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1585 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 42ms · UTC 17:04 · PVG 01:04 · LAX 09:04 · JFK 12:04
Developed with CodeLauncher
♥ Do have faith in what you're doing.