V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 300 页 / 共 324 页
回复总数  6464
1 ... 296  297  298  299  300  301  302  303  304  305 ... 324  
@melonrice #1 至少基本操作要能正常使用吧,银行 APP 我都不求界面有多好看、操作有多方便了,能推个到账通知,有事没事转个账到另一张卡或者查查余额,平时不推广告就足够了。之前这个 APP 已经完全满足了这几个需求点,只是偶尔抽风一下而已,问题不大,现在是直接就没法用了。
2019-01-30 11:45:55 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #36 没抬杠,这是我见过的实际情况,确实存在这样的公司,人家就是招实习生人肉爬的。
@MISP #4 阿里小蜜在淘宝 /天猫方面的对消费者方最高级客服只到“消费者高级客服”,连咨询客服主管的事情都需要通过消费者高级客服内部问完后才能发短信告诉你,并且都是官话,跟低级客服说的一模一样,解决不了什么问题。闲鱼方面的卖家 /买家客服应该也都差不多。 那个客服等级大概是这样的:阿里小蜜机器人->众包客服->消费者客服->消费者高级客服
2019-01-30 10:36:48 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #34 那你认为人肉爬虫违法吗?就是招一群实习生去 1688 上复制粘贴商品信息,然后上传到自家平台上的,这种公司我是见过的,从技术层面上来说这也是爬虫,只不过是人来做采集入库这个操作而已,但阿里并没有给过什么授权。
如果要说这事情违法的话,在律条里也找不出哪条能定罪的,毕竟人家只是从 1688 上复制粘贴到另一个地方,也没侵犯阿里的什么权益,最终货源还是走 1688 上去采购。
如果按“未经授权的爬取应该都是违法的”这种方式来说这公司是违法了的话,那是不是所有人在复制粘贴淘宝上的商品信息到微信上之前还要问一下阿里同不同意了呢?是不是当今社会上的几乎所有人都已经违法了呢?
2019-01-29 21:10:51 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@locoz #30 楼层数打错了 #27 -> #26
2019-01-29 21:09:48 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #27 顺便再举两个例子:
比如你做了个网站,搜索引擎来爬你,你觉得违法的话那你的网站就不要让人家索引了呗,自己想办法导用户去;
比如你控制着任天堂的 eshop,有人来爬不同地区的游戏价格,然后做了个比价网站给其他玩家用来参考,不管你觉得违不违法你都不一定会去管,因为根本不影响你的利益,有了这网站之后一部分玩家还会买游戏买得更欢,你收厂商的授权费和抽成还是一样的收,皆大欢喜。
2019-01-29 20:57:22 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@37Y37 #26 前提有很多,数据的版权问题、数据的用途、部分数据对源站点是否重要(比如原创视频、电商网站的价格、景点 /票务类网站的余票 /价格信息)、用户协议中是否有标明禁止爬虫采集 /逆向工程等都可以影响爬虫的违法与否
2019-01-29 20:51:15 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@szetrov #22 这是阿里的
@locoz #1 追加一下,阿里的阿里小蜜系列客服
你基本不要指望阿里的客服能帮你解决问题,就像你基本不要指望能找得到腾讯的真人客服一样
2019-01-29 11:05:48 +08:00
回复了 drive 创建的主题 Nintendo Switch switch 终于更新中文了!
我觉得中文系统界面挺好,虽然就算有这个也是吃灰
2019-01-29 10:37:59 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
@locoz #13 https://i.imgur.com/v5Mqqcy.png 补上第二种代码的图
2019-01-29 10:37:29 +08:00
回复了 keyakizaka46 创建的主题 Python 请各位大佬,如何成为一个合格的爬虫工程师?
爬虫是需要啥东西都了解一下的,不是单单学点前端知识就能解决问题,如果单纯的是为了破解的话应该学的是逆向知识,举两个常见的例子吧:
1、轻度混淆、没有用 eval 什么的加密的 JS 代码
https://i.imgur.com/RGdMrsY.png
这种级别的代码根本不需要什么前端知识,会用浏览器开发者工具调试的人随便就能找出需要的东西是在哪生成的,别人调用的什么库直接上 google 查就好了,一些关键词( md5、sha256、aes...)也很容易辨认,一眼就能看出是干嘛的,再打个断点就知道具体参数是什么了,所以跟前端知识没啥关系。
2、高度混淆 /加密+做了各种反调试检测的 JS 代码
https://i.imgur.com/undefined.png
这种代码你让做前端开发的人来看都看不懂,对于这种 JS 代码来说,普通的前端知识根本不重要,需要的是用一些更底层的东西来恢复出这一坨屎一样的代码它原来的样子,而且一些反调试的操作根本不会是正常的前端开发会用上的,所以跟前端知识依然没啥关系。

然后一些其他领域的东西也能作为你的工具,像你爬淘宝的话如果搞不定属于上面提到的第二种 JS 代码的 ua 参数生成,你还可以使用测试领域的自动化测试来做,如果觉得 PC 上的自动化测试对于当前需求的性价比不高,想要速度更快一些、资源占用更少一些、更稳定一些的,你还能在自动化测试的基础上加上安全领域的中间人攻击甚至更黑科技一点的操作,所以方法的多样性非常重要。(当然我遇到过的绝大多数只会用自动化测试工具爬的人水平也不咋样,逆向还是得会的)
2019-01-28 09:13:46 +08:00
回复了 KasuganoSoras 创建的主题 推广 租了一个新机柜,现在开始出租 BGP 独立服务器啦
有点贵。。我选择套路云+自家服务器
现在的 B 站是打开 app 满屏营销号、抖音快手类小视频聚合。“ B 站两大区”之一的鬼畜区也混进了一群拿别人写好的拼接软件做视频然后花钱刷榜的。舞蹈区刷榜也明显挺严重的,封面一个卖肉图,淘宝买个刷收藏的分分钟就上榜了,数据与正常的相差极大。
然后直播间现在的人气值倍率似乎也改成与其他平台类似的了,几个人显示几百,逐渐同质化。
除了番剧、播放前无广告以及一些曾经看的 up 主还在 B 站上传视频以外,我已经感受不到 B 站与其他国内视频网站的区别了🤣🤣🤣。
2019-01-24 23:01:42 +08:00
回复了 codelover2016 创建的主题 Python Python 有什么无脑 OCR 库能搞掂下面这种图片么?
这种简单的纯数字可以切片好直接对比像素点,比 OCR 的效率还高
2019-01-24 10:36:04 +08:00
回复了 9684xtpa 创建的主题 全球工单系统 腾讯,你能否再傲娇一点
支持维权
1 ... 296  297  298  299  300  301  302  303  304  305 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5127 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 88ms · UTC 07:36 · PVG 15:36 · LAX 23:36 · JFK 02:36
Developed with CodeLauncher
♥ Do have faith in what you're doing.