求助： Python flask 应用内存一直在增加

from flask import Flask, request, jsonify
import pickle
import os
import psutil
import pandas as pd

app = Flask(__name__)

class SingletonModel:
    _instance = None

    def __new__(cls):
        if cls._instance is None:
            print("Creating Singleton Instance")
            cls._instance = super(SingletonModel, cls).__new__(cls)
            modelName = "xgboost_model-k.pkl"
            with open(modelName, "rb") as pkl_file:
                loaded_data = pickle.load(pkl_file)
            cls._instance.model = loaded_data['model']
            cls._instance.scaler = loaded_data['scaler']
            cls._instance.label_encoder = loaded_data['label_encoder']
            cls._instance.feature_names = ['shortAvg','longAvg','volatility','diff']
        return cls._instance


resources = SingletonModel()
model = resources.model
scaler = resources.scaler
label_encoder = resources.label_encoder

@app.route('/predict', methods=['POST'])
def predict():
    global model, scaler, label_encoder

    data = request.json['input']

    df = pd.DataFrame([data], columns=resources.feature_names)

    scaled_data = scaler.transform(df)

    prediction = model.predict(scaled_data)

    label_prediction = label_encoder.inverse_transform(prediction)

    return jsonify([label_prediction[0]])

if __name__ == '__main__':
    app.run(port=6601,debug=True)

这是 Claude 给的版本


import asyncio
from flask import Flask, request, jsonify
import pickle
import pandas as pd

app = Flask(__name__)

# 模型相关全局变量
model = None
scaler = None 
label_encoder = None

async def load_model():

  global model, scaler, label_encoder,feature_names

  if not model:

    with open('xgboost_model-k.pkl', 'rb') as f:
      loaded_data = pickle.load(f)
      model = loaded_data['model']
      scaler = loaded_data['scaler'] 
      label_encoder = loaded_data['label_encoder']
      feature_names = ['shortAvg','longAvg','volatility','diff']

async def predict(data):

  await load_model()

  df = pd.DataFrame([data], columns=feature_names)

  scaled_data = scaler.transform(df)

  prediction = model.predict(scaled_data)

  label_prediction = label_encoder.inverse_transform(prediction)

  return label_prediction[0]


@app.route('/predict', methods=['POST'])
async def predict_handler():

  data = request.json['input']
  result = await asyncio.gather(predict(data))
  return jsonify(result)

if __name__ == '__main__':
    app.run(port=6601,debug=False)

Supplement 1 · Sep 26, 2023

使用常规uWSGI也无法解决内存持续增加问题，但是，

配置一个参数可以完美的解决。

--max-worker-lifetime 参数，它允许你设置 worker 进程的最大生命周期（以秒为单位）, 到达这个时间限制后，worker 进程将被优雅地重启。

--reload-on-rss 如果一个 worker 使用超过限定的内存，它将被重启。

20 replies • 2023-09-27 10:35:01 +08:00

missz

Sep 25, 2023

我用 flask 启的 yolo5 的接口也是内存无限增长，用 memory_profiler 也看不出具体增长原因，现在是用个 shell 脚本超过一定内存就 kill 重启

minibear2021

Sep 25, 2023

换个版本，cpython 的底层还是 c ，就不能避免完全没有内存泄漏，而且一大堆库，质量良莠不齐。

davinci21s

Sep 25, 2023

@missz 无奈中

@jstony thanks ，我试试。

wynemo

Sep 25, 2023

用 uwsgi ，flask 自带的就是这样

Inzufu

Sep 25, 2023 via Android

跑大项目不建议用 py ，还是 nodejs 靠谱一点儿，这两个语言其实学起来差不多。

roycestevie6761

Sep 25, 2023

python 就这样的啦

among

Sep 25, 2023

uwsgi ，多进程模式，配置超过多少内存，就 fork 一个新的进程。

ynkkdev

Sep 25, 2023

@inzufu 这玩意一眼就是算法推理服务，nodejs 加载模型文件跑算法推理，你这不是难为算法同学吗？

这代码里面一眼看去就是模型资源全局变量跑，十几个并发，要是没有 gpu 没有显存，就是需要大内存的。再就是推理接口一般也都是 batch 推理，并发可以利用 batch 来缓解压力。

简而言之，要么懂算法、要么懂 python 后端，两者都不精通，算法服务能跑起来已经谢天谢地，就不要苛责性能了

Inzufu

Sep 25, 2023 via Android

@youngce 不好意思，我确实没看代码，抱歉抱歉

Mystery0

Sep 26, 2023 via Android

蹲一个，我也遇到这个问题，照着别人的代码训练了一个模型然后用 flask 提供接口调模型预测数据
运行之后内存就会慢慢变大，现在的解决办法是隔段时间看一下内存，超过 6-700mb 就重启一下

davinci21s

Sep 26, 2023

@missz
@jstony
@wynemo
@inzufu
@roycestevie6761
@among
@Mystery0

感谢各位，谢谢楼上提醒，uwsgi 设置参数可以完美解决，我设置内存超过 200M 自动重启。

yagamil

Sep 26, 2023

model, scaler, label_encoder,feature_names
这几个变量用全局, 如果不同请求过来, 里面的模型一些参数会被其他进程的请求给修改掉么?

wxlpure

Sep 26, 2023

flask 不是同步框架吗？同步框架内用异步是啥效果？

davinci21s

Sep 26, 2023

@yagamil 不是很懂😂，chatgpt 帮我写的

@wxlpure Claude 帮我写的，这应该相当于队列吧。

julyclyde

Sep 26, 2023

@inzufu 如果只给出建议但不说为什么
那我认为这其实是个宗教式的回答

nonduality

Sep 26, 2023

对 Claude 写的不评价，对 ChatGPT 写的说点看法。

单例模式在这里应该是没用的，你可以把 print 的内容改为输出到日志（ logging.info ），然后在日志里查看是否不断创建 SingletonModel 。

解决方案之一是利用 RPC：在后台启动一个常驻的数据处理服务，负责接收请求、数据处理和返回结果； Flask 负责把客户端请求转发到常驻服务，再把返回来的结果发给客户端。

需要注意的是，RPC 有多种执行模式，你要避免不断 fork 进程或 spawn 线程去处理数据，这样内存占用也有可能不断膨胀，而要直接调用数据处理的入口函数，这时候单例模式就能起作用。

davinci21s

Sep 26, 2023

@nonduality 感谢，可以对遇到相同问题的提供参考。

subjadeites

Sep 26, 2023 via Android

用 gunicorn 试试？

subjadeites

Sep 26, 2023 via Android

import gevent.monkey

gevent.monkey.patch_all()

import multiprocessing

debug = False
loglevel = 'info'
bind = '0.0.0.0:7000'
pidfile = 'logs/gunicorn.pid'
logfile = 'logs/debug.log'

# 启动的进程数
workers = multiprocessing.cpu_count() * 2
worker_class = 'gunicorn.workers.ggevent.GeventWorker'
preload_app = True

x_forwarded_for_header = 'X-FORWARDED-FOR'

zheng5200

Sep 27, 2023 via iPhone

gunicorn 起 flask 也有这个问题，也是通过--max-requests 解决的，╮(╯▽╰)╭

求助： Python flask 应用内存一直在增加

可能同时发起（并发）几十个请求。

配置一个参数可以完美的解决。

--max-worker-lifetime 参数，它允许你设置 worker 进程的最大生命周期（以秒为单位）, 到达这个时间限制后，worker 进程将被优雅地重启。

--reload-on-rss 如果一个 worker 使用超过限定 的内存，它将被重启。

--reload-on-rss 如果一个 worker 使用超过限定的内存，它将被重启。