ChatGLM的部署
在本地部署ChatGLM模型。
简介
官网链接:
部署ChatGLM2-6B
创建python环境
conda create -n py310-cuda003 python=3.10
pip install -r requirements.txt
下载模型
pip install --upgrade huggingface_hub
- 运行python
from huggingface_hub import snapshot_download
snapshot_download(repo_id="THUDM/chatglm2-6b")
部署
git clone https://github.com/THUDM/ChatGLM2-6B
python cli_demo.py
API部署
pip install fastapi uvicorn
python api.py
使用以下命令测试 API:
curl -X POST "http://127.0.0.1:8000" -H 'Content-Type: application/json' -d '{"prompt": "你好", "history": []}'
显存不足
若显存不足,可以使用加上 -int4
的模型:
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True).cuda()