V2EX › zix 的所有回复 › 第 2 页 / 共 12 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 12

❮

❯

2019-02-14 21:38:47 +08:00

回复了 zix 创建的主题 › 游戏 › 《空洞骑士》新 DLC

最初 TC 是打算做成 DLC 啦

> Almost from the very start, Hornet ’ s adventure was intended to take place in a new land, but as we dove in, it quickly became too large and too unique to stay a DLC, as initially planned.

2019-02-14 21:36:41 +08:00

回复了 zix 创建的主题 › 游戏 › 《空洞骑士》新 DLC

正确的说是《空洞骑士》的续作

2019-02-14 21:35:10 +08:00

回复了 zix 创建的主题 › 游戏 › 《空洞骑士》新 DLC

@steveshi 嗯，激动了，之前一直以为是付费 DLC，没仔细看博客就发帖了

2018-11-29 14:09:27 +08:00

回复了 aodeng 创建的主题 › 程序员 › 做为一个程序员，大家都用什么东西记笔记？

@FlyingClive 配合 capture 美滋滋

2018-11-27 21:49:15 +08:00

回复了 zhuzhezhe 创建的主题 › 生活 › 23 岁，得了癌症，人生无望

加油

2018-05-08 18:47:21 +08:00

回复了 woshichuanqilz 创建的主题 › Python › 如何提取一个 pdf 文件里面, 一个表格的信息?

@kxxoling 项目还没有开源啊……

@woshichuanqilz

用 pdfminer 是可以做的，把线识别出来，然后自己组装成表格。另外有一个叫做 tabula-py 的项目了解一下

附参考资料：

- http://www.degeneratestate.org/posts/2016/Jun/15/extracting-tabular-data-from-pdfs/

- https://github.com/chezou/tabula-py

2018-04-14 13:26:56 +08:00

回复了 tcslhg123 创建的主题 › 问与答 › 今日面试，被问了一个问题，如何查找出相似内容的数据。数据形式比较大，类似与新闻详情。数据量上千万

@takato typo: 「自变分编码器」->「变分自编码器」，Variational Auto-Encoder

2018-04-14 12:56:05 +08:00

回复了 tcslhg123 创建的主题 › 问与答 › 今日面试，被问了一个问题，如何查找出相似内容的数据。数据形式比较大，类似与新闻详情。数据量上千万

给定一条数据，先用倒排索引用来找候选集，然后用文本相似方法计算相似得到 topn 的结果或者相似超过阈值的结果。

考察效率的话，重点讲倒排索引吧，两两对比怕会被喷死，毕竟有些数据相互之间相似度极低没有去计算的必要能先排除掉就排除掉。考察文本相似的话，可以从余弦相似开始，进一步可能要考虑语义相似，那就上 word2vec 或者深度学习匹配模型。

方法多得很，大框架是这样。

2018-04-07 17:19:24 +08:00

回复了 fiht 创建的主题 › 问与答 › 请教：机器学习对文本做二分类正样本应该怎么取？

@fiht

你举的例子机器学习无法完全避免，除非你的正样本里能覆盖足够多这种看似有黄色内容但其实不是的数据 —— 但这个很难。

@Shura
@imn1

关键词检测的技术依赖分词，但分词不一定能分对的。最后还是要看使用场景，看 @fiht 是追求召回还是准确（针对黄色内容）。追求召回的的话，可以大量收集相关的关键词和正则，用关键词检测的技术做，上 AC 自动机，性能基本不会有问题，不过我建议还是将匹配到的关键词作为特征，泛化性会更好一些；追求准确的话，尽量构建一个质量较好的样本，比如说负样本可以少点但是要准确，正样本可以多点甚至新闻等不相关场景的数据也可以拿过来作为补充。

另外如 @takato 所言，问题是否用二分类能解决，也要看具体的场景。如果希望能做更细粒度的分析，可以考虑一下句法、观点挖掘一类的东西。

数据集奉上，希望有帮助：

- https://en.wikipedia.org/wiki/Mandarin_Chinese_profanity

- https://github.com/spetacular/bannedwords

2018-04-07 13:13:05 +08:00

回复了 fiht 创建的主题 › 问与答 › 请教：机器学习对文本做二分类正样本应该怎么取？

根据使用场景决定你的输入数据的情况，尽量是贴近这个，比如说你就是用来区分小说是不是黄色小说，那就尽量使用小说数据来训练，而不是新闻；如果说你是用在社交网站、论坛上做过滤，那就用这些地方的数据，同时负样本也不应该用黄色小说。

2018-02-23 18:43:59 +08:00

回复了 SouthCityCowBoy 创建的主题 › 程序员 › 大家有每天必刷的高质量、不落俗的公众号推荐吗？

MorningRocks
L 先生说
LateNews by 小晚（这个季更不用日刷……）
安静的书桌

2018-02-04 15:41:05 +08:00

回复了 ioven 创建的主题 › 问与答 › 请教提取英文短语都有哪些库或者思路？

几个思路：

1. 利用句法分析，找句中的紧密连接的成分，比如说名词短语、动宾短语等，试试 Stanford NLP 的工具，这里有个 demo： http://nlp.stanford.edu:8080/corenlp/process

2. 利用词性标注，以及人工设计的语法规则，来抽取，比如说：(动词:VN) + [形容词:ADJ + 名词:NOUN]，就把后面的 [形容词:ADJ + 名词:NOUN] 的部分抽取出来。如果要抽取的短语比较简单或者不想做句法分析（相对较耗时），可以试试这种办法

3. 利用信息熵、互信息的手段，挖掘共现比较多的词作为短语，这个适用于你有比较多的数据而且内容所在的领域比较集中的情况。

2018-01-24 15:41:58 +08:00

回复了 okletswin 创建的主题 › 职场话题 › 提前提了离职却被要求尽早走人，是我太傻还是公司不地道

社保找淘宝代缴，断不了的。其他不予置评……

2018-01-24 09:57:52 +08:00

回复了 zix 创建的主题 › 奇思妙想 › 想法：在 Github 上按时间顺序整理、汇总互联网乃至其他行业的重要事件

@metrue @duck2u 中文书名是《黑客：计算机革命的英雄》，机械工业出版社的，不过现在已经买不到了。我是非常喜欢这本书的，相比之下，《沸腾十五年》写得太乱了。

附豆瓣链接： https://book.douban.com/subject/6860890/

第一部分真正的黑客
剑桥：20 世纪 50 年代和 60 年代
第 1 章技术模型铁路俱乐部 11
第 2 章黑客伦理 27
第 3 章太空大战 35
第 4 章格林布莱特和高斯珀 49
第 5 章午夜计算机改装组织 66
第 6 章成功者和失败者 79
第 7 章《生命》游戏 96
第二部分硬件黑客
加州北部：20 世纪 70 年代
第 8 章 2100 年大叛乱 115
第 9 章每个人都能成为上帝 137
第 10 章家酿计算机俱乐部 153
第 11 章 Tiny BASIC 171
第 12 章天才沃兹 188
第 13 章秘密 208

2018-01-23 17:20:11 +08:00

回复了 zix 创建的主题 › 奇思妙想 › 想法：在 Github 上按时间顺序整理、汇总互联网乃至其他行业的重要事件

@taurenshaman 是会有很多问题。我的出发点是，记录是很重要的，特别是有结构、有条理的记录。

其实这个想法有了蛮久了，之前自己也记录过一段时间，不过就像你说的一样，结果会很乱。

2018-01-23 14:02:20 +08:00

回复了 zix 创建的主题 › 奇思妙想 › 想法：在 Github 上按时间顺序整理、汇总互联网乃至其他行业的重要事件

@taurenshaman @ZRS

谢谢建议，不过我觉得 wiki 上更适合放一些更大的事件，比如说像下面的维基百科页面，一年就仅仅记录一两个事件

https://zh.wikipedia.org/zh-hans/%E4%B8%96%E7%95%8C%E5%8F%B2%E5%B9%B4%E8%A1%A8_(20%E4%B8%96%E7%BA%AA-%E7%8E%B0%E5%9C%A8)

1 2 3 4 5 6 7 8 9 10 ... 12

❮

❯