V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  berry10086  ›  全部回复第 7 页 / 共 17 页
回复总数  325
1 ... 3  4  5  6  7  8  9  10  11  12 ... 17  
2015-07-27 11:27:49 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@zhangyueru 最近太忙,过一段时间就会共享出来
2015-07-22 21:54:08 +08:00
回复了 berry10086 创建的主题 问与答 友宝售货机是怎么实现的
@Vnisteam 安卓怎么控制硬件,投币,取货之类的,不是很明白
2015-07-16 17:32:47 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@hao312 ip被搜狗封了
2015-07-04 15:40:35 +08:00
回复了 amrio 创建的主题 程序员 有没有看 cnBeta 的?做了个代理网站,给大家瞅瞅
很棒,谢谢
2015-07-04 15:36:02 +08:00
回复了 a9563akl 创建的主题 问与答 请问有什么方法能抓取公众号的内容?
@a9563akl 抓到图片的地址,没有下载
2015-07-01 21:09:09 +08:00
回复了 a9563akl 创建的主题 问与答 请问有什么方法能抓取公众号的内容?
@a9563akl 没有反外链的图片可以抓到
2015-06-30 11:35:49 +08:00
回复了 berry10086 创建的主题 问与答 网站被别人反代了怎么办
@loading 谢谢,发现他是直接dns就解析到我的地址,我把nginx的配置文件里的default重命名了就好了
@zhangjieren 也是新手,刚开始学py jquery还不会
python 看learning python
django 看django book 和官方文档
2015-06-28 00:30:29 +08:00
回复了 wudaown 创建的主题 Python python 爬虫求助
我只想说,为什么不用requests
2015-06-27 23:29:16 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@berry10086 我测试过,不间断抓取大概30次就会触发反爬虫。
2015-06-27 23:28:15 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@kevin1452 经常换cookies就好了,我现在是10分钟更新一次cookies,效果不错
2015-06-27 12:25:29 +08:00
回复了 blackflag 创建的主题 PHP 有方法可以知道你是从什么网站点击我到我网站里的吗?
可以看nginx日志,用goaccess 生成html
2015-06-26 16:59:36 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@kevin1452 因为解析文章列表是用phantomjs实现的,所以很少被屏蔽。另外,10分钟更换一次cookies
2015-06-25 19:48:23 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@welly 你用的什么网络?是dns解析不了吗?
2015-06-25 18:07:53 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 抓全文不会超时,非常快,瓶颈在于搜狗,有反爬虫
2015-06-25 16:54:49 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 我之前是在kindle4rss里把来自微信的rss添加到一个文件夹里,但是这样在kindle上看文章列表时看不到文章出处,后来就改成都放在根目录了,可以看到出处。
2015-06-25 16:52:47 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure 也就是说,你想要一个不是全文输出的rss?
2015-06-25 16:39:17 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@sinosure
ls = soup.select('#wxbox .txt-box')
link_list = []
for item in ls:
item_dict = {}
item_dict['date'] = ls.select('p .s-p')

这样应该可以,我没有测试
2015-06-25 16:34:33 +08:00
回复了 berry10086 创建的主题 分享创造 写了一个公众号转 RSS 的网站
@berry10086 不对,list这里没有抓日期,我是在文章那个页面抓的,增量更新我是根据标题判断的,没有根据日期判断
1 ... 3  4  5  6  7  8  9  10  11  12 ... 17  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2724 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 24ms · UTC 15:23 · PVG 23:23 · LAX 08:23 · JFK 11:23
Developed with CodeLauncher
♥ Do have faith in what you're doing.