在本地部署ChatGLM模型。

简介

官网链接:

部署ChatGLM2-6B

创建python环境

  • conda create -n py310-cuda003 python=3.10
  • pip install -r requirements.txt

下载模型

  • pip install --upgrade huggingface_hub
  • 运行python
  • from huggingface_hub import snapshot_download
  • snapshot_download(repo_id="THUDM/chatglm2-6b")

部署

  • git clone https://github.com/THUDM/ChatGLM2-6B
  • python cli_demo.py

API部署

  • pip install fastapi uvicorn

  • python api.py

  • 使用以下命令测试 API:

    curl -X POST "http://127.0.0.1:8000" -H 'Content-Type: application/json' -d '{"prompt": "你好", "history": []}'
    

显存不足

若显存不足,可以使用加上 -int4 的模型:

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True).cuda()

参考资料