最近在做一个关于爬虫的小东西,但是需要解析robots.txt(网站根目录下,例如:www.v2ex.com/robots.txt或者是www.baidu.com/robots.txt),该协议定义了网站哪些目录下的文件可以被爬取,哪些不能爬取,当然我还是有自知之明的,知道全部解析是不可能的,只是想要解析
User-agent:*
Disallow:*
那一段。
拿v2ex举例吧!
User-agent: *
Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings
该网站表示上面四个目录下的任何东西不允许被爬取
baidu比较叼,对于不出名的爬虫,任何目录都不准爬取
User-agent: *
Disallow: /
但是这个要解析文本,大家有什么好的建议,或者是解析工具嘛?能够解析的代码也行
自己手写也行,也不是很麻烦,只是网上搜了,感觉这方面的不是很多
最后感谢各位v2er们!
User-agent:*
Disallow:*
那一段。
拿v2ex举例吧!
User-agent: *
Disallow: /backstage/
Disallow: /signin
Disallow: /signout
Disallow: /settings
该网站表示上面四个目录下的任何东西不允许被爬取
baidu比较叼,对于不出名的爬虫,任何目录都不准爬取
User-agent: *
Disallow: /
但是这个要解析文本,大家有什么好的建议,或者是解析工具嘛?能够解析的代码也行
自己手写也行,也不是很麻烦,只是网上搜了,感觉这方面的不是很多
最后感谢各位v2er们!