v2ex 每天都有优秀的公司、企业发招聘贴由于招聘贴有效期至少是一星期以上,但很容易被新帖淹没,不如做个简单的招聘贴搜索站方便更多的人?
用结巴分词的语义功能做了个提取招聘贴标题内公司名、公司所在城市的小程序v2ex-job-finder:♥ Github
功能慢慢慢慢添加,现在还很 low 只能从标题提取有效信息... 有空闲时间一起捣鼓捣鼓的不?
提取关键词的例子(假装成功率很高):
str = u'#上海# [诺亚财富] 财富管理领域巨头-专注财富金字塔尖客户-低风险创业机会------互联网金融'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(正确)
#诺亚
#上海
str = u'[上海] 百度糯米团购 C 端_iOS 高级研发工程师'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(正确)
#百度
#上海
str = u'[北京] 魔力盒 app 招 iOS、Android 大拿( 15-30K)'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(错误)
#魔力
#北京
str = u'掌赢科技欢迎最棒的安卓 iOS~'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(正确)
#掌赢
#
str = u'[北京] [创业大街] 西游印(北京)科技有限公司后端开发(.NET)和前端开发招聘全职&实习生'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(正确)
#西游印
#北京
str = u'[北京招聘] 苹果公司! Apple Store 招聘 Specialist ,Family Room Specialist 等'
name, place_list = search_company_keyworks(str)
print name
for i in place_list:
print i
#<out>(正确)
#苹果公司
#北京
1
sobigfish 2015-06-01 12:49:49 +08:00
-.- 学习语义分词很值得,给别人加功能 别人也不一定感谢你 而且这样来的效率很低
|
2
ctsed 2015-06-01 12:49:57 +08:00 via iPhone
本末倒置啦
|
4
sciooga OP |
7
sneezry 2015-06-01 14:11:55 +08:00 1
@sciooga 干嘛那么在乎别人的看法?当初我写的东西被喷造轮子,但是现在它已经是在它所在平台相同功能里用户量最大的应用了。
|
8
sciooga OP |
9
oott123 2015-06-01 15:00:17 +08:00
为啥不直接用 Google 搜索……
|
10
sciooga OP |
11
oott123 2015-06-01 15:33:47 +08:00 1
|
14
no13bus 2015-06-01 17:35:05 +08:00
不仅仅是v2ex, cnode ruby-china, so 楼主你可以做的事情很有意义的。有价值的数据+很好的展示 是很棒的。
|
15
mpco 2015-06-01 22:00:40 +08:00
挺不错的
仅仅从标题中提取信息,确实会不太准确。 可以用用 机器学习 的方法,估计效果不错 其实和识别垃圾邮件的方法差不多,都是基于内容的有监督学习算法的应用。 |