背景:我不是法务,但凡公司数据要出境(出海、跨国协作、多地部署),「数据合规」这四个字就来烦我。拆开就是三件事:脱敏、加密、出合规材料。
我以前的"方案":正则脱敏一坨 + openssl 加密一坨 + Excel 手搓合规文档一坨,靠 shell 和祈祷连起来,每次跑完都怕漏个手机号没盖住。
于是写了个工具把它压成一条命令:
pip install cloakpii
cloakpii migrate --source ./data --output ./safe --compliance-profile pdpa --compliance-report
进去一个文件夹,出来一个「脱敏 + AES-256-GCM 加密 + 带合规报告」的副本。支持 CSV / JSON / Excel / Parquet / SQLite 等 8 种格式、11 种 PII;默认不可逆掩码,也能可逆令牌化(脱敏后还能 join)。
本来想低调发的。结果上 PyPI 没几天,一个陌生人给我提了个 PR:SQL 注入、XXE 、还有个 SQLite bug 。一个做「数据安全」的工具被路人当场抓仨漏洞,属实社死。我心虚地把自己代码又审了一遍,果然还藏着个更丢人的——数字类型存的手机号/证件号直接漏过去了。现在修完焊上了 233 个测试。
GitHub:https://github.com/Hellotravisss/cloakpii
想问问大家:你们做跨境数据 / 合规这块,现在最头疼的是哪一步?是脱敏准确率,还是合规材料?欢迎拍砖,尤其欢迎再来抓 bug 的。
我以前的"方案":正则脱敏一坨 + openssl 加密一坨 + Excel 手搓合规文档一坨,靠 shell 和祈祷连起来,每次跑完都怕漏个手机号没盖住。
于是写了个工具把它压成一条命令:
pip install cloakpii
cloakpii migrate --source ./data --output ./safe --compliance-profile pdpa --compliance-report
进去一个文件夹,出来一个「脱敏 + AES-256-GCM 加密 + 带合规报告」的副本。支持 CSV / JSON / Excel / Parquet / SQLite 等 8 种格式、11 种 PII;默认不可逆掩码,也能可逆令牌化(脱敏后还能 join)。
本来想低调发的。结果上 PyPI 没几天,一个陌生人给我提了个 PR:SQL 注入、XXE 、还有个 SQLite bug 。一个做「数据安全」的工具被路人当场抓仨漏洞,属实社死。我心虚地把自己代码又审了一遍,果然还藏着个更丢人的——数字类型存的手机号/证件号直接漏过去了。现在修完焊上了 233 个测试。
GitHub:https://github.com/Hellotravisss/cloakpii
想问问大家:你们做跨境数据 / 合规这块,现在最头疼的是哪一步?是脱敏准确率,还是合规材料?欢迎拍砖,尤其欢迎再来抓 bug 的。