V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  nyfok  ›  全部回复第 3 页 / 共 7 页
回复总数  128
1  2  3  4  5  6  7  
2019-07-07 12:26:16 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@scriptB0y 谢谢支持,回复如下:
1、分类是基于 URL 正则规则来写的。譬如:默认为普通文档,如果符合(/topic/)|(/BBS/)为论坛,(Blog)为博客。
2、现在是抓固定站点。全网发散抓取技术准备好了,但是准备先集中优势把几个固定站点抓完,再上全网抓取。
3、具体我不知道,如果我做的话,会这么做。第一、写一个算法能够自动分类:是列表页,还是详情页。因为列表页的 href/正文比例,和详情页不一样,而且列表页通常会多内容 topic。 第二、计算如果一个站点的列表页的百分比超过一定比例的话,列表页就不收录了,只收录详情页。
2019-07-07 10:42:47 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
多谢 dirk,ziib.. 两位朋友支持,周末愉快
2019-07-05 10:44:03 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
补充一下,现在网站还不支持 insite,inurl 命令,这几天在调整索引大库,调整完后就支持了,届时再通知。
2019-07-04 01:08:04 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
多谢 cyen,kios 的支持,谢谢!
2019-07-01 19:18:45 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@ZeroW 谢谢建议!后期抽空会做“相同内容”聚合,“相同网站聚合”可能会在搜索第一页有聚合,列出来同一网站符合结果的文章。另外,后期也在考虑支持 insite 命令,方便大家筛选。
2019-06-30 15:38:14 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@kayv 感谢支持,周末愉快!
2019-06-29 20:05:05 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@14c0r3y 感谢支持,祝周末愉快!
2019-06-29 11:03:47 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
感谢 tonyw。。。!首先解释一下为什么这么做。因为我觉得技术搜索是比较严肃、严谨的事情,宁可结果少,也要确保结果正确。支持近义词(例如西红柿=番茄)、单复数(例如 have=has,microservice=microservices )是会让结果内容多一点,也可以解决用户输入错误或者不严谨的问题,但是为了维持结果的准确性,暂时不准备广泛支持这两个功能。只会小范围内支持,譬如.net=> .net or c# or vb.net ,这种类似逻辑。 其次,tony,你有没有比较好的近义词库和单复数库,有的话可否分享一下,我也学习参考一下。谢谢!
2019-06-28 22:51:52 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
谢谢楼上朋友 vsite.., lbunder...支持
2019-06-28 12:09:53 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
verylu...,8 vcpu,4g mem,目前索引在 100G 左右。
zskyli..,我直接写这儿吧,长篇的博客太花时间了,我在这篇文章里尽量一点点写,今天先写抓取部分吧。
2019-06-27 22:40:35 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@zskyliang 感谢朋友褒奖!你讲的开发教程是指开发搜索引擎的教程,还是别的教程网站需要我索引供大家搜索?如果是关于如何开发这个搜索引擎的内容,我抽空可以跟帖把做的过程回帖告诉你。如果是需要索引教程网站,请告知具体网址。谢谢!
2019-06-27 17:11:09 +08:00
回复了 nyfok 创建的主题 问与答 各位朋友,求完整的禁查词/违禁词清单
多谢多谢,我回头去找找看。:)
2019-06-27 16:26:20 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
abc1763。。 大文档的确要加,准备把各大语言的官网 api,manual,论坛都要加进来。stackexchange 的确可以多加几个,我回头挑挑,看哪些是 IT 的都加进来,不局限于编程领域,只要是 IT 就行。多谢!
2019-06-27 16:22:52 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@skyrem 这个网站看了一下流量还不错,api 文档也还比较清晰,就是页面广告有点多和乱。后期会收录,但排期会靠后。多谢!
@ibreaker 嗯嗯,一般是不点百度知道,哈哈
2019-06-26 21:48:54 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
是,自己写的爬虫,反正有时间就写点,也不刻意。工作量还是有点的。
vbforums.com 搞 vb 的是不是都知道这个啊
2019-06-26 10:06:02 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
昨晚已经运用分片缓存技术,搜索和翻页会更快了,尤其是翻页基本 0 等待。另外,各位朋友期望 goobe 索引哪些国外技术网站,欢迎下面跟帖回复。切记,是“国外技术网站”,国内的暂时排期往后靠。
2019-06-24 23:05:41 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
速度问题已经升级,可以放心使用了
2019-06-24 21:31:11 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
随着索引的文章规模越来越大,现在查询也越来越慢,今晚开始调整 maxdoc 到 10000,明后天拆大小库,把质量好的文章单独放小库,搜索时文章质量好的小库优先,以此来提高搜索速度。
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2722 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 15:00 · PVG 23:00 · LAX 07:00 · JFK 10:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.