Maerd's recent timeline updates
Maerd

Maerd

V2EX member #633209, joined on 2023-06-09 11:25:45 +08:00
Today's activity rank 9331
Per Maerd's settings, the topics list is hidden
Deals info, including closed deals, is not hidden
Maerd's recent replies
1.还是靠多写,多看文章,把 ai 当十万个为什么
2.拥抱云原生,云原生时代一定可以不会 k8s 、数据库调优,但是一定要知道那些云原生产品怎么用(比如阿里云的 acr/ack 这些,ci/cd 这些)
3.你如果是从头开始学习后端,现在是个很好的时候,因为你可以没有技术包袱地尽量使用新的技术,不要再使用老掉牙的 mysql5 这类的东西,直接换 pgsql 。另外我还看到你有用 django ,如果你使用 django 的话,也不要再用 django-drf 了,直接使用 django-ninja 这些现代化的库
4.尽量选择生产可用,更新频繁,用户社群大的库,有时候你的需求可能别人已经造过轮子了,在实现需求前一定要先问一下 ai 有没有现成可用的库,直接调第三方库比自己实现/ai 实现要稳定可靠的多
5.测试用例很重要,ai 时代尽量转到测试驱动开发
简直慢到没朋友啊
lz 私一下?
不用 vscode 的? copilot 都集成两年了,现在都支持 mcp agent 了
Feb 8, 2025
Replied to a topic by bwijn Python scrapy 的 item 队列把内存挤爆
pipeline 处理 item 比抓取还慢?那要考虑你的储存架构设计方式了,自己存东西怎么会比爬慢

如果暂时无法解决,将 item 队列从内存队列换为磁盘队列即可,这样会 spider 在 yield item 的时候,item 会被先序列化到磁盘上,就不占用内存了

还有楼上说的 io 和计算没分离纯属没怎么用过 scrapy
这种大文件,就不适合在内存中操作,正确的方法是使用虚拟内存
import mmap
可以将直接将一个硬盘文件变为虚拟内存
这样的进行写入的好处不只是省内存,还减少了一次用户态和内核态之间的切换
@feiniu 只要 app ,之前是爬阿里的也可以,现在还在招聘
@AFOX 是电商数据吗?可以加个微信聊聊?
@HenryHe613 我们这边领导没那么多条条框框,招的人能解决问题就行
Oct 15, 2024
Replied to a topic by Chrisz2zz 程序员 国内开发者会为什么产品买单呢
copilot
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3303 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 14:00 · PVG 22:00 · LAX 07:00 · JFK 10:00
♥ Do have faith in what you're doing.