V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  hunk  ›  全部回复第 25 页 / 共 30 页
回复总数  595
1 ... 17  18  19  20  21  22  23  24  25  26 ... 30  
2016-06-03 15:20:24 +08:00
回复了 jwdstefanie 创建的主题 问与答 很好的一个数据网站,麻烦大神帮忙写个爬虫
用了微信登录,感觉程序获取数据会比较麻烦,坐等有啥好思路。
2016-05-31 19:43:46 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@h4x3rotab 还是要先分词才行啊,你最后一句“分词了之后再喂给他我也想象不出来有什么用”让我以为不要分词呢。

我的疑问是,一篇文章的标题和内容,我分词以后,存为一行,希望 w2v 能认出其相关度。

不知用法上是否正确?还是不需要换行,罗列所有分词,成他自己学习,而不加以引导。
2016-05-30 18:54:39 +08:00
回复了 MikuM97 创建的主题 宽带症候群 Final Speed 作者正式停止免费版维护
旧版咋安装?
2016-05-30 18:52:27 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@h4x3rotab 不分词不能用,分词了关联性小,是这意思不?
那该如何用呢,原以为,在同一行能让 w2v 认为关联性更高呢。
2016-05-30 08:18:06 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
继续请教 word2vec 用法。
我想将文章的标题和内容作为学习的字典, gensim 示例中字典是 list 格式,我将一篇文章标题和内容的分词放在 list ,是否增加其相关性?

c 版本似乎是采用 tab 和空格分隔,是否也存在换行的问题?
2016-05-30 00:45:19 +08:00
回复了 hunk 创建的主题 Ubuntu ubuntu 安装 build-essential 失败,如何解决?
换了源就搞定, 163 割死人
2016-05-30 00:43:05 +08:00
回复了 hunk 创建的主题 Ubuntu ubuntu 安装 build-essential 失败,如何解决?
@AWSAM 谢谢,正在更新。。。比 163 还快
2016-05-30 00:38:29 +08:00
回复了 hunk 创建的主题 Ubuntu ubuntu 安装 build-essential 失败,如何解决?
@liyangyijie 推荐用哪的源?
2016-05-29 21:52:59 +08:00
回复了 airqj 创建的主题 VPS 准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗
@airqj 知乎是得考虑账号问题,目测无法自动注册账号,只能人工注册,关注如何解决,又是一问题。
2016-05-29 21:52:12 +08:00
回复了 airqj 创建的主题 VPS 准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗
@airqj 家庭宽带,可以换 IP ,毕竟慢,不适合大数据量。我估计说的是 IP 库,前段时间做爬虫,看到这个网站 http://www.kuaidaili.com ,不是广告,我没用过,只是做备用研究下。
付费,实时提供测试可用的代理,专业的事让专业的人去做。
2016-05-29 20:40:53 +08:00
回复了 airqj 创建的主题 VPS 准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗
爬用户啥信息拿来用?好奇,分享下思路呗
2016-05-29 15:17:15 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@h4x3rotab 分词,让 w2v 学习,生成自己的词库。正在实验。
2016-05-29 00:29:30 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@alexapollo 谢谢,正在看。
2016-05-28 23:52:35 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@theFool 谢谢,瞅瞅,只要能自定义库就好,慢慢修正嘛。
2016-05-28 23:43:58 +08:00
回复了 hunk 创建的主题 程序员 对内容分词提取的关键字用神经网络进行学习,是否可行?
@theFool 忘记说了,测试过用结巴分词,其中有 TF-IDF 和 TextRank 取关键字, TextRank 效果比较好,在添加了用户字典后,对 TextRank 无任何影响,倒是 TF-IDF 不错。
但问题很明显,仅仅是在分析的文本中抽取关键字。

我想实现的是这样,提到“监控”这名词,能联想到“摄像头,光纤,交换机”等一系列相关词组,人工定义也可以,只是工作量不小。
2016-05-28 10:29:46 +08:00
回复了 Ansonyi 创建的主题 宽带症候群 浙江移动,上传的速度还不错。
@Mavious 移动这么牛,看来是该加一条了。
2016-05-28 10:29:21 +08:00
回复了 Ansonyi 创建的主题 宽带症候群 浙江移动,上传的速度还不错。
@d7101120120 我也在河南,最近在考虑换移动宽带的事。。。
正在下载第一季,错过了好些年,从头看起,不许剧透!
2016-05-25 15:39:41 +08:00
回复了 hunk 创建的主题 问与答 正则求教
自己生拼出来的,过滤了 html ,有重复,勉强能用。
r'(\$.get\("([^\s]+)"\,)'
1 ... 17  18  19  20  21  22  23  24  25  26 ... 30  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5903 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 02:21 · PVG 10:21 · LAX 18:21 · JFK 21:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.