郁闷，折腾了一周的爬虫

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 630 days ago, the information mentioned may be changed or developed.

辛辛苦苦解码 js ，绕开反爬机制，结果他认证的时候加了个手机实名，我艸。

郁闷

解码

实名

28 replies • 2024-08-31 22:02:06 +08:00

ccloving

Aug 26, 2024

用影刀

littleG

Aug 26, 2024

爬虫写的好，牢饭少不了。

4BVL25L90W260T9U

Aug 26, 2024

国内的网站还是别搞了，现在已经完全没有任何法治可言了，惹急了人家给上边塞点钱，你这就是破坏计算机信息系统安全罪。

guoguobaba

Aug 26, 2024

@ospider 我做的是 rpa ，客户自己存用户名密码啊

4BVL25L90W260T9U

Aug 26, 2024

@guoguobaba #4 so ？我的意思就是现在你讲道理已经讲不明白了……

privateproxies

Aug 26, 2024

哈哈 1 千头草泥马汹涌而来

julyclyde

Aug 26, 2024

@ospider 你觉得“不想被爬”是违法的吗？

yanw

Aug 26, 2024

@guoguobaba 可以了解下相关判例

macaodoll

Aug 26, 2024 via iPhone

手机号注册吗？好多家接码平台，随便搞的

user1284

Aug 26, 2024

人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向

happybabys

Aug 26, 2024

高端的食材只需要简单的烹饪

somebody1

Aug 26, 2024

到解码 js 的时候就该用 playwright ，selenium 这种快速搞定，自己的时间比机器的资源值钱

guoguobaba

Aug 26, 2024 via iPhone

@somebody1 selenium 也需要解 js 啊，瑞数了解一下

somebody1

Aug 26, 2024

@guoguobaba #13
不用你解，直接从页面抓取结果

xinghusp

Aug 26, 2024

@guoguobaba 兄弟别搞了。我正在经历这破事，甚至于对方公司都没有报案也不愿意配合作证，这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用，也无反爬机制。

fbichijing

Aug 26, 2024

@yb2313 我倒觉得适度的爬虫是很有存在的必要性的，至少对个人来说是这样，可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它，客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。

jianchang512

Aug 27, 2024

国内即便你遵守 robots.txt, 也一样可能吃牢饭

NoOneNoBody

Aug 27, 2024

最近在重拾前端做自动化，一些网页或网站打开就自动提取信息
不过倒不是爬大量页面，就是打开哪个是哪个，减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行，单机单 ip 遇到 5 秒反爬确实搞不了，我以前都是爬外站多，没什么线下问题，最多把我“升级”称为“中国黑客”，笑

zeusho871

Aug 27, 2024

不要实名的话这个框架好一点 drissionpage
playwright selenium 有特征不用去特征版本的就会被检测

WeaPoon

Aug 27, 2024

@xinghusp #15 哎。

llbqwhtxi

Aug 27, 2024

之前用 selenium 玩页游来的,最近一打开就被 403,要弃坑了(主要是不会"反爬")

incubus

Aug 27, 2024

@xinghusp 细说

Daybyedream

Aug 27, 2024

控制频率= = 不公开是最后的温柔

xmitman

Aug 27, 2024

@ospider #3 啊，这言论是什么立场，合着放开让你随便爬才是法治是吧

guoguobaba

Aug 27, 2024

@somebody1 我指的破解 js ，是屏蔽他对 selenium 之类自动化工具的检测。你去看看瑞数是怎么干的吧。

naythefirst01

Aug 27, 2024

想起之前一些 app 的反爬就是强制登录。。。简单有效

xinghusp

Aug 27, 2024

@incubus 改天我写个帖子详细的介绍，这事情一两句说不清。。反正就是爬虫的入罪门槛非常低，只要：1.你没明确得到对方同意（签协议的那种同意，公共网页也不可以）； 2.你尝试绕过了任一反爬措施（包括但不限于验证码、代理、JS 混淆等等）； 3 、获利大于 5000 元。达成上述三个条件，就可以追究刑事责任了，哪怕对方不报警。

duansindo

Aug 31, 2024

我这边需要抓取外国网站的数据，能做的联系我 https://t.me/githubaa