pip3 install "fschat[model_worker,webui]" - i https: // pypi. tuna. tsinghua. edu. cn/ simple/
启动控制器服务
python3 - m fastchat . serve. controller
启动 Model Worker 服务(可以通过CUDA_VISIBLE_DEVICES来指定显卡)
python3 - m fastchat . serve. model_worker - - model- path 【你的本地大模型路径】
启动 RESTFul API 服务(可以指定ip和端口,默认端口是8000)
python3 - m fastchat . serve. openai_api_server - - host 【你的ip】 - - port 【你的端口】
注意
–num-gpus 指定运行模型的gpu个数 –model-name 默认以部署的model-path作为模型名称,可通过–model-name修改,比如–model-name Qwen 在浏览器中访问http://【你的ip】:【你的端口】/docs
可以查看接口信息,这个服务即最终要用的LLM API 服务,它的接口跟OpenAI 的接口是兼容的 测试代码
import requests
import json
import openai
def get_completion_qwen_7B ( prompt) :
openai. api_key = "你的密钥"
openai. base_url = "http://【你的ip】:【你的端口】/v1/"
model = "Qwen2.5-7B-Instruct"
completion = openai. completions. create( model= model, prompt= prompt, max_tokens= 64 )
data = { "messages" : [ { "role" : "user" , "content" : prompt} ] }
completion = openai. chat. completions. create(
model= model,
messages= [ { "role" : "user" , "content" : prompt} ]
)
return completion. choices[ 0 ] . message. content