forgetTb

V2EX member #163888, joined on 2016-03-18 15:08:16 +08:00

forgetTb 提问技术话题好玩工作信息交易信息城市相关

Tornado+scrapy(Twisted) 框架结合 0，支持 newrelic 服务器监控 1，异步非阻塞 2， realtime 实时响应(不经过任何数据库存储)

Python • forgetTb • Jun 20, 2018 • Lastly replied by kmz

9

» More topics by forgetTb

forgetTb's recent replies

May 18, 2018

Replied to a topic by forgetTb › Python › Tornado+scrapy(Twisted) 框架结合 0，支持 newrelic 服务器监控 1，异步非阻塞 2， realtime 实时响应(不经过任何数据库存储)

@golmic 1, 需要的是实时响应，类似 scrapyrt(realtime, nonblocking)这种。但 scrapyrt 是使用 Twisted 做 WebServer，并不能与 newrelic(:一种服务器监控软件)搭配使用。现在想使用 Tornado 做 WebServer(支持 newrelic,且异步）。

May 18, 2018

Replied to a topic by forgetTb › Python › Tornado+scrapy(Twisted) 框架结合 0，支持 newrelic 服务器监控 1，异步非阻塞 2， realtime 实时响应(不经过任何数据库存储)

@crb912 Tornado 做 webserver （可以用 newrelic 做服务器监控）, 调用 scrapy 项目的爬虫并实时响应返回。（ scrapyrt 是用 Twisted 做 Webserver:不能够与 newrelic 搭配使用 XXX ）

May 16, 2018

Replied to a topic by forgetTb › Python › Tornado+scrapy(Twisted) 框架结合 0，支持 newrelic 服务器监控 1，异步非阻塞 2， realtime 实时响应(不经过任何数据库存储)

或者说能够使用 tornado.platform.twisted
具体是在 Tornado 框架下
import tornado.platform.twisted
tornado.platform.twisted.install()
from twisted.internet import reactor

调用 Scrapy 启动爬虫(EvenvLoop 事件循环的代码）
dfd = process.crawl(QuotesSpider)
# process.start() # the script will block here until the crawling is finished d.addBoth(lambda _: reactor.stop())
result = dfd.addCallback(self.result_items)
并且直接拿到爬取数据。

参考链接如下：
https://stackoverflow.com/questions/36384286/how-to-integrate-flask-scrapy
http://www.tornadoweb.org/en/stable/twisted.html#twisted-on-tornado
https://doc.scrapy.org/en/latest/topics/practices.html

Sep 18, 2016

Replied to a topic by ammzen › 问与答 › 在中国人民银行官网发现这样一行代码

@ammzen ,你是如何解决的，可以具体详细的解说下吗？我在别的网站上也碰到了这个问题。
我用 python 的 requests 去请求一个网址，总是返回那一段代码。是可以设置 selenium 参数开启 javascript 吗？
用浏览器访问时，第一次访问时弹出那框，然后关闭后再刷新，再访问就正常了。

» More replies by forgetTb