V2EX › caneman 的所有回复 › 第 8 页 / 共 9 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

1 2 3 4 5 6 7 8 9

❮

❯

2019 年 5 月 11 日

回复了 caneman 创建的主题 › Python › 大家能介绍下自己做的工作常用工具/框架（测试/开发/部署等等）和进阶应该具备的技能吗？

后期可以考虑整理一下，做一份比较全的各岗位进阶或者转岗路线汇总。

2019 年 5 月 10 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@necomancer
盖上只能知道数量，这种一直往下迭代的方法是可行的，就是不知道这是不是最好的算法了。
如果问题再延申一下，如果上层的圆盘盖米数会计入下层圆盘覆盖的米粒数量呢？就是每个圆盘覆盖的米粒数是这个圆盘下所有的米粒数而不是这个圆盘下未被其他下层圆盘覆盖过的米粒数。

2019 年 5 月 9 日

回复了 solopython 创建的主题 › 程序员 › 大神们是怎么用符号勾勒出人物的？

图片读 rgb 值->灰度值->字符
rgb->灰度值的公式 google 一下就有，灰度值传字符部分，从灰度值从小到大你用稠到密的字符对应就可以了

上面这个可以将任何图片转字符版，以前写过一个 matlab 版本的，但是各语言解决的思路应该都是一样的

2019 年 5 月 9 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

https://i.imgur.com/XP4I2dM.png
图裂的试试这个：
http://www.caneman.cn/wp-content/uploads/2019/05/2019-05-09-10-13-09.png
（ http 冒号 //www 点 caneman 点 cn/wp-content/uploads/2019/05/2019-05-09-10-13-09 点 png ）

2019 年 5 月 9 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@fzy0728
这个可以打开吗？
http 冒号 //www 点 caneman.cn/wp-content/uploads/2019/05/dock.jpg

2019 年 5 月 9 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@necomancer

米粒落点并不是均匀的，有的地方稀疏有的地方稠密，有的地放可能很大一块面积没有任何米粒，有的地方可能挤的满满的，甚至一个米粒上面堆叠了另一个米粒（但是单点堆积数<50 ），不知道棋盘上米粒的密度分布情况（黑盒），只有当圆盘落下才会知道圆盘盖到了多少米粒，仅有此一项数据输出。

圆盘可以任意大小，圆盘可以撤掉 /更换（撤掉不计入次数），我上面那个圆上堆小圆的思路是把大圆撤掉用小圆去覆盖原来大圆的位置。

另外，尽可能少的尝试次数（这个次数不是到最后的使用盘子数，而是整个过程中用过盘子的总次数（撤掉盘子不计入总次数），例如放了个大盘，其覆盖米粒大于 50，撤掉大盘，改成 5 个小盘，每个小盘覆盖<50，满足条件，总的尝试次数为 1+5=6 次）。

可以不覆盖全部粒子，尽可能少的圆盘总使用次数去覆盖尽可能多的米粒，寻找一个平衡吧。

这个问题应该是没有 BUG 的，有的话欢迎再一起讨论，天体物理学中粒子密度分布计算，好像有涉及到类似的问题。

PS：圆里面做堆积的资料很有用，谢谢！

2019 年 5 月 8 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@CEBBCAT 用足够大的圆盘盖一下就知道了，所以可以理解为知道总数。

2019 年 5 月 8 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@CEBBCAT 随机掉落，单个点重叠数量<50

2019 年 5 月 8 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@widewi 这个你试试
http://www.caneman.cn/wp-content/uploads/2019/05/dock.jpg

2019 年 5 月 8 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

@fzy0728

我这里看没有啊

链接： https://i.imgur.com/IKjouyS.jpg

![avatar]( https://i.imgur.com/IKjouyS.jpg)

2019 年 5 月 8 日

回复了 caneman 创建的主题 › Python › 算法：圆盘盖米问题（圆的密铺？）

大伙给点思路啊

2019 年 5 月 6 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@cxh116 谢谢，代理好像不是瓶颈，不加代理提升的速率也非常有限（大概就是去除了代理延迟级别的速度提升） redis 的那种方案确实提高了速率，是我之前写法太蠢了，所有的下一个页面链接都得等我上一个页面请求完毕才能获取，生生的变成了同步。（可是书上和网上都是这样来写的啊，寻找下一页的链接然后 yield ），不知道是我的理解问题，还是这样写本身就存在这种问题，我再多尝试尝试改一改，谢谢啦🙏。

2019 年 5 月 6 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@cxh116 代码崩了不好意思，这是图片 http://www.caneman.cn/wp-content/uploads/2019/05/2019-05-06-17-57-31.png

2019 年 5 月 6 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@cxh116 是采用的异步 MySQL 存储的，很多页面是空数据的，所以瓶颈不在存储这一块，下面是主要代码。

def start_requests(self):
url = 'https://www.xxxx.com/'
longitude, latitude = get_next_coordinate( self.start_longitude, self.start_latitude)
data = get_form(longitude, latitude)
proxy = 'http://' + get_proxy()
yield FormRequest(url, method='POST', formdata=data, callback=self.parse, dont_filter=True, meta={'proxy':proxy,'download_timeout':3,'longitude':data['longitude'], 'latitude':data['latitude']})

def parse(self, response):
info_list = json.loads(response.text)
if info_list['Count']:
for item in info_list['list']:
item_loader = QiyeItemloader(item=QiyeItem())
item_loader.add_value('hash', item['Key'])
item_loader.add_value('name', item['Name'])
item_loader.add_value('longitude', response.meta['longitude'])
item_loader.add_value('latitude', response.meta['latitude'])
qiye_item= item_loader.load_item()
yield qiye_item
longitude, latitude = get_next_coordinate(response.meta['longitude'], response.meta['latitude'])
next_data = get_form(longitude, latitude)
yield FormRequest(response.url, method='POST', formdata = next_data, callback=self.parse, dont_filter=True, meta={'proxy':response.meta['proxy'],'download_timeout':3,'longitude':next_data['longitude'], 'latitude':next_data['latitude']})

我想的一种解决方案是把所有 URL 放在 redis 里面，然后在 start_requests 里面 while True:yield Request()
这样的问题我不知道我这样一直写会不会时间长了我的电脑就崩了。
我如何控制这个被 yield 的 Request 的数量？比如，在队列里面一直有 100 个 Request，每少一个就添一个，始终保持 Start_url 里面有 100 个待爬 URL，这样的情况下，我调 CONCURRENT_REQUESTS 的值，是不是就能真正的控制并发数了？

2019 年 5 月 6 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@renmu123 现在能得到所有的 url 了，我想着怎么能用 scrapy 高效抓取，scrapy 这么多年了这样一个成熟的框架应该不至于解决不了这种问题。想先单机把 scrapy 性能发挥到极致，了解他的极限和瓶颈在哪里，然后再上分布式再接着进一步优化，计划的学习路线是这样的。

2019 年 5 月 6 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@zhijiansha 这个思路挺好的，谢谢啊

2019 年 5 月 5 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@AlloVince 非常感谢！您的这一番讲解能让我少走很多弯路，再次感谢！

2019 年 5 月 5 日

回复了 zxq2233 创建的主题 › 程序员 › 这种链接需要用微信才能打开，如何用爬虫去爬？

ua 改成微信的 ua

2019 年 5 月 5 日

回复了 caneman 创建的主题 › Python › Scrapy 效率瓶颈

@dingyaguang117 谢谢，我觉得问题在这儿，但是这个规则怎么建立没想好，4000W 级别，还要涉及到失效错误链接的处理，请问 scrapy-redis 是不是能解决我的问题？

1 2 3 4 5 6 7 8 9

❮

❯