目标网页是一个网页表单,填入信息后出结果,看了下也没用 ajax 请求,要获取结果信息是不是一定要用 Selenium 这类模拟点击然后解析结果?
比如
https://online.transport.wa.gov.au/webExternal/registration
输入 6666
获取结果页面的信息
用 js 容易实现吗?请教各位高手
1
crab 2022-10-09 14:22:25 +08:00 1
不需要模拟,首先访问提取出 jsessionid ,再 post 请求得到页面信息。
|
3
catsky OP 但是这个网页用 postman 模拟发送 post 请求就过不去,一直提示 access denied , 我把 JSESSIONID 都放了也没用
[https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage]( https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage) |
5
gam2046 2022-10-09 15:22:22 +08:00 1
对效率要求不高的话,直接通过 devtools 一把梭上去自动化,只要浏览器能正常显示的,都能弄回来,退一步就是 headless ,但是 headless 有比较明显的特征,也有比较成熟的探测方案。两者速度上基本没太大区别。
|
6
estk 2022-10-09 16:27:38 +08:00 via Android
如果只是为了数据,直接分析对方的 api 更高效
|
7
inktiger 2022-10-09 16:37:43 +08:00 1
你这个页面我瞅了瞅,貌似直接 api 的方式不容易,第一个页面传参,是到后端组装了,写入 cookie 再返回详细页面,后续刷新也是靠 cookie 里的参数来维持页面内容,我估计只有 selenium 来处理了,用 selenium 关掉图形界面性能也还过得去,如果还觉得性能不行,那再试试 htmlunit 。
|
8
catsky OP 对的 很奇怪的页面渲染方式,要 js 模拟好像很难诶…. 目前挠头中….. https://rego.act.gov.au/regosoawicket/public/reg/FindRegistrationPage
@inktiger |