V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  vibbow  ›  全部回复第 187 页 / 共 191 页
回复总数  3819
1 ... 179  180  181  182  183  184  185  186  187  188 ... 191  
2011-12-26 10:01:52 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
@dndx GTalk ... 木有... 我直接开Gmail吧.... [email protected]
2011-12-26 09:57:17 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
@dndx 明文问题难道很难解决么?出去关键字外随机星号几个字符就行了。
2011-12-26 09:49:38 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
呃...
终于读懂了你的代码,不过你的代码貌似没有考虑读取步进的问题。
举例来说,比如说我有这么 12345678这么一串字符串,我想搜索456。
你的代码先读取了1234,发现没有匹配,然后直接读取了5678,发现还是没有匹配。
于是就认为不匹配了。
我觉得这就是你 large 函数里发生的错误...

呃... 刚才用XDebug对我的代码进行了一下性能分析,发现最耗性能的居然是strtolower函数...
看来有必要做两份数据库了...
2011-12-26 08:33:25 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
而且你的代码貌似区分大小写来着...
2011-12-26 08:21:51 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
发现一个问题诶。
你的代码,搜索正常的csdn文件速度是很快
但是如果我自己创建个文件,每行都是 "vibbow\r\n" 重复上两三万行
那么用你的代码搜索vibbow,一个结果都木有...
2011-12-26 06:44:42 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
当然了,运行时间也是和结果数量是成正比的。
如果结果数量特别多的话就需要七八分钟了。
2011-12-26 06:43:26 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
我没觉得我的搜索速度有多快啊...
既不支持正则,也不支持行号输出...

我搜索服务端算法大体改了3次,我整理整理代码加一下注释,稍后发上来。

性能信息就是:在E5400处理器上,只使用1核心(PHP一次也只能使用一个核心),7200转普通sata硬盘,3G内存上(根据Process Explorer的记录,httpd进程峰值占用了650M的内存),对所有9个数据库搜索(纯文本文件,总大小4.6G),单关键字搜索大约需要3分钟,10关键字并发搜索大约需要5分钟...
2011-12-26 05:20:28 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
也就是说硬盘性能根本不是瓶颈,而是CPU性能。
2011-12-26 05:18:40 +08:00
回复了 Tianpu 创建的主题 PHP 纯php实现大文件全文搜索
相信我,搜索时大部分时间不是浪费在硬盘时间上,而是strpos过程上。
2011-12-26 04:04:05 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
@dndx MySQL
2011-12-25 23:30:53 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
额... 蛋疼了。在twitter上发了一下链接,结果现在列队里积攒了800多个搜索...
服务器一晚上都闲不了了...
2011-12-25 20:31:16 +08:00
回复了 richiefans 创建的主题 信息安全 查了下数据总行数163837278~ 这要做成字典也太大了
我清除了一下空行之类的,可能mop的数据不正确。
总共出来是1.17亿。
2011-12-25 20:29:58 +08:00
回复了 vibbow 创建的主题 信息安全 重新分享:密码泄漏全文搜索工具,1亿多条数据
奇怪了,v2ex怎么链接识别不出来了... 单独发一行试试...
http://vsean.net/blog/post/98
2011-12-25 20:23:38 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
@likuku 反正这服务器过几天没钱了就自动关了,也就懒得去折腾调试他了,就这样吧...
2011-12-25 18:01:38 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
@likuku 懒得去搞那些乱七八糟的东西,就直接下了一个xampp直接运行了。
@dndx 你也太懒了吧,也不说把文件名重命名一下或者重新排列组合一下之类的...
2011-12-25 09:44:42 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
不过该下完的应该都下完了,现在系统负载一直小于1了
网络流量也差不多在 10Mb/s 左右
2011-12-25 09:41:54 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
目前,45个。
2011-12-25 09:15:25 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
不过很神奇的,尽管系统负载破100了,但是刷新探针还是不卡...
2011-12-25 09:13:35 +08:00
回复了 vibbow 创建的主题 信息安全 17173泄漏数据库下载
系统负载破100了......
1 ... 179  180  181  182  183  184  185  186  187  188 ... 191  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   882 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 20:57 · PVG 04:57 · LAX 12:57 · JFK 15:57
Developed with CodeLauncher
♥ Do have faith in what you're doing.