V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  imn1  ›  全部回复第 154 页 / 共 742 页
回复总数  14838
1 ... 150  151  152  153  154  155  156  157  158  159 ... 742  
2020-05-11 18:15:29 +08:00
回复了 justicelaw 创建的主题 问与答 不懂就问:笔记本的 RAM 高一点有什么好处?
对我来说,虚拟机可以分多点,mac 不清楚
2020-05-11 17:34:09 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@crella #12
没公布,而且有些年头,这次也要重写
没什么特别,就是正则用得好而已(我不需要 bs4/lxml )
加两三个函数,可以根据捕获"last page"生成一个组合 list,也就是 itertools.product()之类
有个函数是处理,分散在几个页面的信息,要各自取出合成一个 record,外面的框架很少见有做这个,但这个只是业务逻辑理顺,跟代码能力无关
可以导出 aria2/wget 可用的 list,wget 不能指定输出文件名,加个下载后对照改名的脚本
……

总的一句,就是做了一个 py,然后不同站点写个 ini/cfg/yaml 什么的,把一堆正则、referrer 按顺序扔进去,就能跑,仅此而已,没什么特别,比别人强的地方可能就是我熟悉中日韩 unicode 字符,文字处理比人家写的要简洁顺手些
2020-05-11 16:56:31 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@ClericPy #10
自定义 header,例如 UA 用 firefox/chrome...,cookies 增加一些条文,如页面访问点击“同意”,cookies 会多了 agree=1 这样,程序首次访问 cookies 没有这条或者 agree=0,后面用代码添加上去才能访问后面的页面

我本来是想 requests 写个单函数,然后多进程执行,感觉放后台跑有点重,所以才找找有什么异步协程的,这样静默运行不影响我干其他事,所以能记录下载失败反而是最关键的
@msn1983aa #10
有的,有审核,但好像不是事前,上世纪某一年夏季很多港台创作的歌曲,至今不能播
2020-05-11 16:16:15 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@ClericPy #7
哎呀,失敬失敬,刚刚在看 torequests,没想到下一秒作者就出现了

既然大驾光临,顺便问两个问题:
1.我写个 class 继承 FailureException,就可以自行处理了吧,error 是 http error code 么?
超时的 error 是什么,文档好像没写这个
2.自定义 header 好像只见到 torequests.utils.curlparse(string, encoding='utf-8') ?
如果本地运行,算法不重要啊,总不至于就一个映射表吧
基本一个小脚本+加密后的本地存储就完成了

如果不想自己写就 keepass 吧
2020-05-11 15:23:01 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@ruby0906 #5
就是这个意思,如果自认为能力足够,已经动手了,我就从来没用过别人的 html parser 轮子
问题是自己写出来的,自己用着都觉得糟心,还不如用人家高水平的轮子
2020-05-11 15:10:02 +08:00
回复了 dataml 创建的主题 问与答 voorp 是啥网站?
这破网站我直接 dns 屏蔽了
2020-05-11 14:52:18 +08:00
回复了 imn1 创建的主题 Python 懒,求个异步爬虫,必要需求是方便处理异常
@also24
redis 我只认识这五个字母,🐶

@NaVient
伸手是伸手,但也不完全是拿来就用,肯定要自己改的
只是年纪大了,又不是用来吃饭的东西,总不能我现在对某个软件不满意就重写一个,能尽量少改动最好

爬虫十多年前就写过,单线程,但我较强能力在 parse (韩文以前我都爬过百多个站点),aio 或多线程方面很弱
我以前玩的是 aria2 抓取,然后脚本 parse 出 link,导出 aria2 list,再重复几次到最后完成
以前这样玩好处是主动操作,满足感强,现在只想扔到后台爬完整理就算了
2020-05-11 13:00:54 +08:00
回复了 wangyz1997 创建的主题 Python 求助: PyQt5 的一个线程占用 CPU 导致另一个线程响应变慢
@wangyz1997 #19
我比较好奇是你每一帧都要捕捉么?不需要长期运行捕捉 thread 的吧

我觉得你这个是有顺序执行的,没必要分两个 thread,写到一个 thread 里面两个函数顺序执行就好
如果是多次捕捉并处理,应该在 thread 内用多进程并行

另外一个 thread 不应多次运行,所以我基本都有类似的语句先判断才启动
if not self.hashThread.isRunning():self.hashThread.start()
2020-05-11 12:12:19 +08:00
回复了 wangyz1997 创建的主题 Python 求助: PyQt5 的一个线程占用 CPU 导致另一个线程响应变慢
@wangyz1997 #15
我觉得不行,我说不清楚,我也不熟悉线程
不过可以说说我写的例子
一个消息 thread,发送右下角消息,因为不论那个控件发出,都由这个 thread 管理,所以设后台 timer 循环每两秒触发
一个 hash thread,多文件 hash,也是长时间,有时长达几十分钟甚至一小时,由按钮触发,循环使用 for
当然还有其他(共 10+个 thread class ),不过 hash 时很吃 CPU,一般也不作其他复杂操作,但问题不在这里

如果我把 timer 放到 thread class 里面,就是 start 后,根据 timer 2 秒一次循环,单单这样,主窗口就已经反应迟缓了,所以根本不是 hash 的问题,因为都没启动。后来改成 timer 放在主线程,init 时启动 timer,每次 timeout 时触发 thread 检查消息队列,这样就没问题了
另外,建议长时间的 thread,在每次循环都 emit 一次(我是 emit 到进度条),这样也相当于打个“断点”,对 py 处理线程有帮助

上述这些我都说不出什么道理,反正看看别人的例子,然后想想协程管理那种也是这样打“断点”切换,自己摸索着理顺的
2020-05-11 09:30:45 +08:00
回复了 wangyz1997 创建的主题 Python 求助: PyQt5 的一个线程占用 CPU 导致另一个线程响应变慢
两个 Thread 都是 while True,也没有看到结束条件,无限执行?建议改为有条件循环

ThreadSerialComm 是跟随主线程不断执行的么?关闭窗口才结束?
如果是这样,建议改为定时触发,QtCore.QTimer(),while 用队列判断,有通信请求扔进队列,判断队列不是 empty 才执行线程,empty 就结束,等待下次 timer 触发

全部都是 while true 、又没有结束条件应该是症结所在
2020-05-10 22:00:51 +08:00
回复了 mulandidi 创建的主题 Python Python 小白, 请教各位大佬一个如何能够优化这个方法?
你搜搜官方文档关于移动统计的章节,应该是“Expanding Windows”相关的内容
移动统计就是用前 n 行数据计算当前新数据,时序类型数据经常需要,例如证券
@mason961125
我说的是编译 py3,我搜了一下有说 py3 里面的 sqlite 是预编译,升级要整个 py 编译,不过搜到的文章都是几年前的
编译本身可能没什么,但牵扯到各种依赖,我是不敢动
2020-05-10 17:13:51 +08:00
回复了 vifird 创建的主题 分享发现 一款可以始终悬浮的清单软件,用起来很舒服
提个意见
贵司的这个产品,是可以解压免安装运行的,这个挺好
但是自动更新时,并不是原地更新(无需管理员权限),而是装到 program 下面,造成每次进入 windows,旧版自动启动,又装一次新版,复现两次我才意识到是旧版开机启动了
2020-05-10 16:53:47 +08:00
回复了 hakunamatata11 创建的主题 推广 [讲座] 助你进军阿里 P6 Java 工程师
我还以为是那个 jvav 来推广,🐶
@zachlhb
linux 的 python sqlite3 是随系统的么?我还以为是自行预编译
debian 是两年前装的,py3.7 是去年装的
我查一下哈
2020-05-10 13:53:06 +08:00
回复了 littlecap 创建的主题 随想 你认为最值得的和最不值的订阅服务是啥?
值不值得还是很主观的
我以前觉得梯子不值得,因为那时有近百种姿势可以过去,我基本 10 分钟内可以搞定
现在觉得值,因为给我一小时也搞不定,还不如给钱让有能力的人提供服务

最不值的没有什么,因为都是深思熟虑才买 /订,没有买的也不能判断是否只是“暂时不需要”

随着年龄增大,好多东西在变化,昨天花了几十块扔了个床垫,以前身强力壮,几块钱都不舍得
……
1 ... 150  151  152  153  154  155  156  157  158  159 ... 742  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   970 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 77ms · UTC 22:24 · PVG 06:24 · LAX 14:24 · JFK 17:24
Developed with CodeLauncher
♥ Do have faith in what you're doing.