V2EX › xuanwu 的所有回复 › 第 30 页 / 共 34 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 22 23 24 25 26 27 28 29 30 31 ... 34

❮

❯

2018-09-19 07:53:14 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 有没有针对源代码的在线翻译服务?

很简陋的网页界面用于演示上面的封装服务. 在线演示地址: http://74.91.17.250:9000/

测试用例:

https://gist.github.com/nobodxbodon/25fd1d59027181ed317d7ca17ac5f153

点击"翻译"即可

2018-09-18 12:54:46 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 从商业运营和推广的角度说 Yacy 当然不算"成功". 但它的存活证明, 即使是如此理想化并且不掺杂任何商业因素的搜索引擎项目也有相当的用户群和社区.
个人认为加上合理透明的商业模式, 在现有 P2P 的技术和架构上继续改进, 并不是没有可能实现可与集中式搜索引擎并肩的产品.
另外, 个人重心并不在此. 请勿误会. 此帖仅为有类似想法的提供一个讨论的去处. 比如 https://www.zhihu.com/question/46622280

2018-09-18 07:30:02 +08:00

回复了 v2register 创建的主题 › 程序员 › 求有空的程序员朋友写一个五笔编码查询与编辑软件

写了个原型: https://github.com/CNMan/UnicodeCJK-WuBi06/issues/20 很丑而且缺功能. 不知是否楼主还需要.

2018-09-18 05:31:12 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 嗯, 本身是个开放问题. 要是已经有明确的思路 /技术 /具体路线图的话, 也不至于这么问.

刚看到这个: http://www.michaelnielsen.org/ddi/how-to-crawl-a-quarter-billion-webpages-in-40-hours/

如果有一个比较公平透明的基于计算贡献获取回报的模式(比如现在由搜索引擎获得的广告收入的一部分由计算节点获取的话), 也许会吸引大计算资源(TB 级别存储, 大带宽)的服务器作为骨干节点.

2018-09-17 21:00:53 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 多谢. 下面是另一些谷歌搜索服务器的估计: https://www.quora.com/How-many-servers-does-Google-have-to-run-for-providing-the-search
仅作参考. 关于这个估算问题就止于此吧.

关于爬虫问题, 参考 Yacy, 觉得一般使用它的用户都会了解它的背景. 而且它并不主动抓取, 而是由用户指定网站进行抓取. 不过个人觉得在资源允许的情况下进行低频和小量的主动(后台)抓取也是可行的, 比如设定 100MB 的硬盘限额(用户可调), 以及最低优先级的网络使用. 另外, 可以允许有计算资源的用户从其他用户那里搜集抓取结果(类似骨干节点), 而主站肯定是个骨干节点.

2018-09-16 22:20:55 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 嗯. 之前以为 Web Server 还会起一部分缓存搜索结果的作用, 但看起来没有.
还是对#23 的三个问题有些疑虑.
不过这个想象中项目的开始肯定不会指望达到任何现有搜索引擎的性能, 更多的优势在于公开算法和数据吧.

2018-09-16 03:09:44 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 有没有针对源代码的在线翻译服务?

Java 源码英翻中库以及服务原型 https://zhuanlan.zhihu.com/p/44644112
在前文代码翻译尝试-使用 Roaster 解析和生成 Java 源码的基础上, 作了一些改进. 主要有:

- 对一般词汇使用普通英汉词典进行直译(优先选取计算机领域词义或者第一个词义)
- 支持术语词典, 比如'instance', 上面的英汉词典中的第一个词义是'建议', 于是在术语词典中添加此项, 暂时译为'个例
- 支持驼峰命名和下划线分隔法命名
- 各种忽略. 详见命名翻译.java:
- 一些歧义太多的词, 如 to for of
- 单字符字段如 M
对释义进行清理, 如括号中的内容, 特殊符号等等

2018-09-16 02:09:56 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 主要觉得把 web 服务器和后端的储存检索这么直接联系起来有点问题
这里谷歌工程师提到负责 query 的是 web 服务器
https://www.quora.com/Google-processes-40k-searches-per-second-On-average-a-web-server-can-handle-1000-requests-per-second-Does-that-mean-Google-can-run-using-only-40-web-servers
看各种回答感觉这些直接负责 qps 的机器可能在千 /万台级别当然配置都很高。

2018-09-15 20:09:49 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 多谢详细分析. 几个问题:

- "单台服务器能顶 5KW 条记录". 这是按照硬盘存储限制得出的吗?

- 第二点的 60 万台服务器提供 5000QPS 是如何得出的?

- 处理 60k 的 QPS 需要 12 个处理 5 千 QPS 的完整实例吗?

关于 qps 的一些资料:
https://www.csdn.net/article/2013-12-30/2817959-look-at-12306
在只采用 10 几台 X86 服务器实现了以前数十台小型机的余票计算和查询能力，单次查询的最长时间从之前的 15 秒左右下降到 0.2 秒以下，缩短了 75 倍以上。2012 年春运的极端高流量并发情况下，支持每秒上万次的并发查询，高峰期间达到 2.6 万 QPS 吞吐量，整个系统效率显著提高。

https://www.jianshu.com/p/608da9336acb
单台实例连接 redis，能达到 2 万的 QPS，四台实例的时候，每台 1 万 5 的 QPS

2018-09-14 16:31:42 +08:00

回复了 nilrust 创建的主题 › 程序员 › 国内有存在代码质量审计公司吗

国外有吗？

2018-09-14 14:39:28 +08:00

回复了 xuanwu 创建的主题 › 问与答 › 有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

对浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.

2018-09-14 14:10:42 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@wizardforcel 嗯, 个人觉得储存总量来说, 并不是最大的问题(假设这个 p2p 网络至少有数万台机器同时在线的话).

当然如果可以做到在不同的计算节点上采用不同层次的抓取细节, 应该可以拓展节点类型. 比如说, 手机也可以做一个轻量级的节点(存储和计算能力有限, 因此抓取较少, 只存摘要, 索引压力也小很多).

2018-09-14 14:00:09 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 有没有针对源代码的在线翻译服务?

"代码翻译尝试-使用 Roaster 解析和生成 Java 源码": https://zhuanlan.zhihu.com/p/44536065
此文是前文使用现有在线翻译服务进行代码翻译的体验的编程语言方面第二点的一个尝试. 初步汉化后 Java 代码效果如下:

package com.company.example;

import java.io.Serializable;

public class 人 implements Serializable {

private static final long serialVersionUID = 1L;
private final 整型号;
private 字符串全名;

public 整型 get 号() {
return 号;
}

public 字符串 get 全名() {
return 全名;
}

public void set 全名(字符串全名) {
this.全名 = 全名;
}

public 人(java.lang.Integer id) {
this.id = id;
}
}

2018-09-13 21:39:27 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@mythmgn 额, 确实是分布式啊. 设想的就是类似 YaCy 那样的.

2018-09-13 03:40:54 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

http://www.worldwidewebsize.com/ 共 4.5 billion 网页. 按上面的最后一个数据, 大约 450 天更新一次. 而这只是单节点可以做到的.
个人计算机的算力上升+SSD 的普及+5G 的实现还会把上面的数据提高更多.

2018-09-13 03:31:55 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@mythmgn 储存和抓取成本. 一点参考 https://stackoverflow.com/questions/1935148/how-to-crawl-billions-of-pages
亮点:
1. 2014 年回答节选: "bought by EBay for about 3000 Euro and contains 24x1TB 2,5" Disks (running as Single Disks) with two 6 Core Intel Xeons (making it 12cores/24 threads) and 96GB RAM using a 10GBit Line (with just 33% percentile) in a Luxembourg Datacenter.
It's using 100,000 concurrent HTTP connections which results in about 30,000 pages per second crawled."

2. 2010 年回答节选: "suppose you get a cheapo $200 machine with 1Gb or ram and 160Gb harddrive. At 20KB a page (use Range requests to avoid swallowing big pages whole), 10 million pages would take 200 GB, but compressed is about 70 GB."

3. 2011 年回答节选 "@20 Mbps (upper end of home bandwidth) / 22 kB/page = ~116 pps: it would take about 100 days (~3 months) to download 1 billion pages."

2018-09-12 22:29:40 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@mythmgn 先说一下非技术部分吧。存活的最大动力之一应该就是公开公平的排序算法和本地化的索引数据。理论上说, 一个新网站在上线之前就可以根据排序算法和索引数据在本地运行测试出此站在不同关键词搜索时的排位。而搜索用户可以完全信任搜索结果, 因为所有数据和算法都是公开的。

2018-09-12 13:16:40 +08:00

回复了 xuanwu 创建的主题 › 奇思妙想 › 支撑一个面向国内的开源分布式搜索引擎需要多少人力物力?

@nicoljiang 谷歌服务器总数(所有服务)在 2016 年的估计是 2.5 百万 https://www.datacenterknowledge.com/archives/2017/03/16/google-data-center-faq
用于搜索服务应该不过一半吧

2018-09-11 21:17:00 +08:00

回复了 iloveyouso 创建的主题 › 程序员 › 你们会在代码里面带粗话吗？

说起猎奇中文命名的代码比脏话代码应该稀少的多了

1 ... 22 23 24 25 26 27 28 29 30 31 ... 34

❮

❯