网页信息获取是爬虫还是 Selenium，还有图片分类库求推

This topic created in 932 days ago, the information mentioned may be changed or developed.

举个栗子
淘宝商品列表页面，获取名称和图片，以及每个商品详情后的其他一些信息。
想问下爬虫框架和 Selenium 哪个更合适，不容易触发风控。

另外想根据名称描述和图片自动分类，有没有开源或者免费的
基于开源的 tensorflow 自己训练 AI 的话耗费太大感觉小题大做了。

5 replies • 2023-12-04 13:47:45 +08:00

incubus

Dec 3, 2023

这也想白嫖？

ZZ74

Dec 3, 2023

@incubus
第一个是技术选型问题
第二个是问一下，不确定有没有。白嫖谈不上吧

r6cb

Dec 3, 2023

还是早点放弃吧，正常用户去浏览都经常要人机认证。

ZZ74

Dec 3, 2023

@r6cb
不是淘宝啊我只是举个例子另外不是高频访问。我放到服务器上慢慢跑

aureole999

Dec 4, 2023

看你要访问的是什么网站了。有的不怎么管的你用什么都行。
不容易触发的应该还是 Selenium 或者 Puppeteer 加 Stealth 插件。

第二个 chatgpt api 之类的也许能做到？