说起英语,特别是背单词,对于我来说一直是个头疼的问题。尝试了 N 次,失败了 N 次。
前几个月迫于需要看英文文献,再次感觉到被英语拖累的感觉。便决定第 N+1 次尝试背单词。
个人对背单词的一些要求为:
- 背单词不能只针对独立的单词,需要放到语境中学习。
- 单词需要自己完整的拼写出来,不能是只进行选择题。
- 单词记忆时要关注时态、语态。
- 学习的内容不能重复,也就是每次学习的上下文要发生改变,不能是固定的句子。
- 要根据记忆曲线自动重复出现,以巩固学习。
查找了一圈没有符合以上需求的软件,便决定自己撸一个(其实有一个软件很接近楼主需求了,可惜不能自定义词库,且每次出现的内容重复)。
- 一个英文词典用于提供单词解释,首先想到的是使用柯林斯官方的 API。但是申请了好多次一直没有回信。最后不得已解析 stardict 格式的词典,并导入数据库。
- 其次需要大量的有中英文对照的语料,用于翻译的 TMX 语料库正好能满足需求。
有了基础数据接下来的问题就简单了。
- 对语料库的内容进行分词、词性分析、词性还原等操作。扣去需要记忆的单词生成填空题。
- 对于题目根据柯林斯词汇星级,对句子进行评分,尽量让句子出现高频词。
- 对于已看过的句子,进行降权。不要让学习过程重复,同时可以让出现的句子逐步变难。
经过 N 天项目搞完。至于学习效果,只能说项目写的很开心。
单词学习

自定义词库

项目地址:
https://github.com/senghoo/wordai
预留 Append:
- 本文只是分享楼主业余时间小作品。开源出来希望跟大家交流学习。不喜勿喷。
- 程序是根据楼主日常习惯而做的,没有想商业化或者给大家提供账号进行使用。
- 因为使用了柯林斯词典。又没取得相关版权,所以词典部分缺失,如需自行搭建请自行转换。此部分不提供技术支持。
- 可能有点标题党,项目仅仅是用了自然语言处理的分词、词性分析、词性还原等基本操作。勉强搭上边。
- 目前想再添加一个发音 api,看了 Google 的合成效果好的太贵,科大讯飞的英语发音也需要购买发音者,希望能大家推荐能有免费额度的语音合成平台(非赢利业余项目,不想花费太多。前期买高质量的 TMX 库都花了不少钱)。