职位描述:
1、 参与核心爬虫系统架构设计、数据库设计;
2、 参与各种核心搜索策略、算法、数据聚类、重组的设计与开发;
3、 熟悉搜索引擎/spider原理,对互联网页面的抓取质量负责;
4、 通过大数据的方式来做金融行业分析,参与数据分析及模型建立。
职位要求:
1、 2年以上Python、Ruby开发经验,熟悉常用的信息抓取策略和数据重组算法,熟悉正则表达式;
2、 精通信息抓取和整合技术,从结构化的和非结构化的数据中获取信息,掌握正则表达式;
3、 精通与搜索和个性化相关的机器学习算法,分类和提取摘要,精通主流分词算法;
4、 熟悉大规模网页爬取,深度网页爬取,熟悉Nutch、Lucene、Heritrix、Solr、Sphinx等工具优先考虑;
5、 熟悉搜索引擎的工作原理,对seo有较为深刻的理解;
6、熟悉分布式计算或高性能并行计算原理者优先;
7、有数据挖掘、机器学习相关经历者优先。
加入我们请将简历发送至
[email protected],在邮件中标明申请职位并注明你是从V2EX上看到该招聘信息的。