V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  leiuu  ›  全部回复第 17 页 / 共 26 页
回复总数  515
1 ... 9  10  11  12  13  14  15  16  17  18 ... 26  
2019-11-29 15:55:09 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@aalikes95
总体还不错,搜一些词,很多能得到意外之喜。
不过 bug 也比较明显,不少错词。也无法增量更新。
2019-11-29 14:11:07 +08:00
回复了 roujiang 创建的主题 职场话题 说好的终身雇用,这日本工作说没就没了?
上一次发文发一半那个楼主,被
我是工作 5 年后自己买的。
自从习惯了 mac,再也没用过鼠标。
2019-11-29 11:20:12 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@elfive
官方的说明是这样的。
Data collection.
Our training data contains large-scale text collected from news, webpages, and novels. Text data from diverse domains enables the coverage of various types of words and phrases. Moreover, the recently collected webpages and news data enable us to learn the semantic representations of fresh words.

Vocabulary building. To enrich our vocabulary, we involve phrases in Wikipedia and Baidu Baike. We also apply the phrase discovery approach in Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches, which enhances the coverage of emerging phrases.

大概是说用了新闻、网页、小说、维基百科、百度百科的数据。
没提到聊天数据,不过新闻网页都有评论数据,可能也是数据来源之一。
2019-11-28 22:14:46 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@DEANHZED emmmmmmmmmmmm

@devallin 降重可能有其他的方法,这个模型计算词与词之间的相似度好用。句子和句子之间不好直接用。
2019-11-28 19:01:40 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@nieyujiang 搞错了,重来。
{
"top_similar_words":[
[
"烤串儿",
0.927384614944458
],
[
"羊肉串",
0.894095778465271
],
[
"肉串",
0.8555537462234497
],
[
"烤腰子",
0.8516057729721069
],
[
"撸串",
0.8469321727752686
],
[
"涮串",
0.8465385437011719
],
[
"大肉串",
0.8420960903167725
],
[
"烤肉串",
0.838364839553833
],
[
"牛肉串",
0.8371975421905518
],
[
"烤海鲜",
0.8364357948303223
],
[
"烧烤摊",
0.8351374864578247
],
[
"炸串",
0.8339198231697083
],
[
"烧烤",
0.831093430519104
],
[
"烤羊肉串",
0.8277176022529602
],
[
"各种烤串",
0.8274507522583008
],
[
"烤鱿鱼",
0.8235615491867065
],
[
"烤羊腿",
0.8228681683540344
],
[
"烤猪蹄",
0.8225207328796387
],
[
"烤生蚝",
0.8220213055610657
],
[
"吃串",
0.820912778377533
]
],
"word":"烤串"
}
2019-11-28 19:00:42 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@nieyujiang
还有呢,烤串相似词:
```json
{
"top_similar_words":[
[
"我觉得 ok",
0.6393940448760986
],
[
"emmmmmmm",
0.6306545734405518
],
[
"hhhh",
0.6229800581932068
],
[
"hhhhh",
0.6225401163101196
],
[
"不存在的",
0.6077110767364502
],
[
"溜了溜了",
0.603063702583313
],
[
"hhhhhhh",
0.6008774638175964
],
[
"emmmm",
0.6002634167671204
],
[
"emmm",
0.5958442687988281
],
[
"emmmmm",
0.592516303062439
],
[
"阿喵",
0.5918310880661011
],
[
"哈哈哈",
0.590988039970398
],
[
"略略略",
0.590296745300293
],
[
"hhhhhh",
0.5870903730392456
],
[
"微笑脸",
0.5860881209373474
],
[
"tan90°",
0.5825910568237305
],
[
"没毛病",
0.5802331566810608
],
[
"233333",
0.5794929265975952
],
[
"我觉得不行",
0.5762011408805847
],
[
"就酱",
0.5751103162765503
]
],
"word":"ojbk"
}
```
2019-11-28 18:53:28 +08:00
回复了 leiuu 创建的主题 分享发现 试玩了一下去年腾讯开源的 800 w 的中文词词向量
@nieyujiang 哈哈 不知道晚上吃啥就用这个模型推荐
2019-11-27 11:40:16 +08:00
回复了 leiuu 创建的主题 北京 建个北京吹牛/吃喝玩乐/交友群,不知道有没有人~~
群还在。😄
2019-11-20 10:35:32 +08:00
回复了 guxingke 创建的主题 Java 实现一个简单的 JVM ?
爱莫能助,赞楼主。
2019-11-18 19:14:52 +08:00
回复了 wenjor 创建的主题 程序员 老哥们,这段文,好像是 base64 解码的?别人发给我看不懂啊
very funny
同病相怜,早点接受 or 攒钱植发。
2019-11-08 16:03:00 +08:00
回复了 leiuu 创建的主题 程序员 maven 新手求救,如何正确利用 maven 私服 nexus 中的多个 repo?
@yinzhili 发现全部的 repo 已经在 public 组里了,更正了一下配置,已经可以下载了,不过特别慢(可能依赖的 jar 比较多)。
2019-11-08 13:49:44 +08:00
回复了 leiuu 创建的主题 程序员 maven 新手求救,如何正确利用 maven 私服 nexus 中的多个 repo?
@Aruforce
@lc7029
感谢,这样发布代码的时候会有问题吗
不同 type 的 repo,如: group hosted proxy 也可以加到一组中吗
2019-11-07 14:56:20 +08:00
回复了 leiuu 创建的主题 程序员 弱弱的请教一个算法类 API 实现的疑惑
@quietnight 简单了解了一下,tf serving 应该是足够满足需求的,不过 tf 会比较重。
@littleylv 没关系哈 握抓。


总体来说,大家都推荐用创建多个服务,服务间用 http/rpc 通信。
简单总结一下可能的方案:

1. python web 框架( flask / django )+python 机器学习框架 ( sklearn ) + [可选] Java web 框架( spring boot )

2. java 机器学习库(dl4j、weka)/自己实现库 + Java web 框架( spring boot )

3. tensorflow serving + [可选] Java web 框架( spring boot )

4. php + php mod 用 C/C++ 扩展机器学习库


相关的参考:
1. [flask + sklearn]( https://towardsdatascience.com/a-flask-api-for-serving-scikit-learn-models-c8bcdaa41daa)
2. [tensorflow serving]( https://www.tensorflow.org/tfx/serving/serving_basic)
2019-11-06 18:25:05 +08:00
回复了 leiuu 创建的主题 程序员 弱弱的请教一个算法类 API 实现的疑惑
@lihongjie0209 rpc+1,不过可能这里涉及另外一个问题,rpc 还是 http+json
@secsilm +1
@luozic +1
@littleylv 可否详细说说?
@liuxu php 虽然最好还不懂,😄。用 c 做 php 扩展直接实现算法库?
2019-11-06 17:42:59 +08:00
回复了 NebulaGraph 创建的主题 京东 盖楼抽奖送 2 张 ¥100 京东 E 卡 | 你的双十一 Nebula 来买单
bug
2019-11-06 16:33:48 +08:00
回复了 leiuu 创建的主题 程序员 弱弱的请教一个算法类 API 实现的疑惑
@mxT52CRuqR6o5 会减少一些造轮子!不过又会加一套开发语言以及一堆框架过来。😄。


@Raymon111111 可能我没表述清晰,不是这个问题。
2019-11-06 16:30:19 +08:00
回复了 leiuu 创建的主题 程序员 弱弱的请教一个算法类 API 实现的疑惑
@ayase252 感谢,我也是这么想的。

@dswyzx 感谢,明白,就是再启一个子服务,用 python 实现。


@ml1344677 感谢回复,java 机器学习库有没有一些推荐?
「 python 的优势就是库多呗」,对的就是想利用这一点。
其实本质是想了解一下实现这样一个算法 API,后台的大致架构是怎么样的?
怎么解决算法库的问题,自己实现还是复用现有的库,如果算法库和后台实现跨语言的话怎么解决呢?


@MinQ 感谢,真的可以这样哈哈。


@sadfQED2 感谢,原来真的是这样,之前只是猜测!


@LeeSeoung 感谢,dl4j 好评。大致理解实现方式了!
1 ... 9  10  11  12  13  14  15  16  17  18 ... 26  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2340 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 15:54 · PVG 23:54 · LAX 07:54 · JFK 10:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.