需求:在Android应用开发中,对于没有API的网站,如果想通过抓数据的形式组织数据。
1. Android+Jsoup,在客户端直接抓取数据解析,使用Jsoup.parse的方法产生document类,很慢。考虑进行预处理,例如v2ex.com/recent?p=1,如果为了组织列表数据,只需要读取id=Main的div下面的数据,多余的数据并不需要传入parse方法进行解析。针对网站可能会改版,可以将对于节点的访问采用selector或正则的方式与具体解析分离,将这部分规则打成包单独维护。
2. Android+网络爬虫程序中转请求。还是用v2ex.com/recent举例,如果希望访问列表数据,可以写一个服务端程序,用于接收客户端访问,然后抓取数据,解析产生json数据返回。有没有现成的服务可以将定制数据转换为json和xml调用?
对于预处理,或者其他的方法,大家有什么建议么?欢迎讨论。
1. Android+Jsoup,在客户端直接抓取数据解析,使用Jsoup.parse的方法产生document类,很慢。考虑进行预处理,例如v2ex.com/recent?p=1,如果为了组织列表数据,只需要读取id=Main的div下面的数据,多余的数据并不需要传入parse方法进行解析。针对网站可能会改版,可以将对于节点的访问采用selector或正则的方式与具体解析分离,将这部分规则打成包单独维护。
2. Android+网络爬虫程序中转请求。还是用v2ex.com/recent举例,如果希望访问列表数据,可以写一个服务端程序,用于接收客户端访问,然后抓取数据,解析产生json数据返回。有没有现成的服务可以将定制数据转换为json和xml调用?
对于预处理,或者其他的方法,大家有什么建议么?欢迎讨论。