bobobo80's recent timeline updates
bobobo80

bobobo80

V2EX member #177525, joined on 2016-06-15 13:23:26 +08:00
Per bobobo80's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
bobobo80's recent replies
赞一个,感谢内推
Jun 11, 2019
Replied to a topic by zhangslob669 求职 求职:两年爬虫经验
@zhangslob669 d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
Jun 5, 2019
Replied to a topic by bobobo80 酷工作 [招聘][北京][字节跳动]抓取/后端工程师
@CEBBCAT 也招实习的,可以来试试
Mar 6, 2019
Replied to a topic by okzpy9425 酷工作 求工作[北京 Python ]
d3Viby5pQGJ5dGVkYW5jZS5jb20= 宇宙条感兴趣吗?
Mar 6, 2019
Replied to a topic by testphase 职场话题 在德国的中年码农 迷茫
国内晚上 11 点半可能才下班回家
@kidlfy 多平台同步,不就是爬虫的并发请求嘛,开几个协程或线程同时调用各个打码平台的 api 就可以。打码出错处理看你怎么个策略了,多个平台的结果不一样时怎么取值等,这就是业务逻辑了。
看起来是要做一个接口服务,一方面提供自行识别验证码的服务,一方面作为中转,将请求代理到各个打码平台。对于自己识别,大原理上就是接收图片,然后调用模型识别。对于转发,就是统一一下接口输入的参数和格式,把各个打码平台需要的参数适配一下,转发请求。
这个服务算是响应比较慢的了,建议使用异步的框架,里面还要转发请求,那么自带 server 和 client 的 aiohttp 比较合适了。识别的话,接触不多,之前用 tesseract 效果并不好,图片规律且有一定样本的话 tenseflow 调包训练一下效果就不错。
selenium 应该是没有办法返回类似 requests 的 status_code 的,所以需要自己来判断一下返回页面中是否包含正常的元素,elem = driver.find_element_by_id("XXX")。需要试出一些验证码,429,404 等页面的状态,加入状态判断。
Aug 13, 2018
Replied to a topic by bobobo80 程序员 不同源商品名匹配应该如何处理?
@coeo91 手工一个个指定吗?那工作量好大吧。
@tuzigg 暂不支持
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   6100 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 06:08 · PVG 14:08 · LAX 23:08 · JFK 02:08
♥ Do have faith in what you're doing.