Originally created by: ludevica
例行检查
问题描述
本地Qwen2-72B-Instruct-GPTQ-Int8模型,stream=true情况下无返回,stream=false能正常返回。
换gpt-3.5-tubo,两种场景都可以返回。
复现步骤
oneapi配置的gpt-3.5-turbo
curl --location '10.81.1.66:3001/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Accept: text/event-stream' \
--header 'Authorization: Bearer sk-dyjZYJ8xdzcFPp8y5597E57eA5354a808bE82dC4D1982515' \
--data '{
"model": "gpt-3.5-turbo",
"temperature": 1,
"max_tokens": 512,
"stream": true,
"messages":
{
"role": "user",
"content": "1+98等于几"
}
}'
oneapi配置的qwen2
curl --location '10.81.1.66:3001/v1/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Accept: text/event-stream' \
--header 'Authorization: Bearer sk-dyjZYJ8xdzcFPp8y5597E57eA5354a808bE82dC4D1982515' \
--data '{
"model": "qwen2-72b-local",
"stream": true,
"messages":
{
"role": "user",
"content": "1+98等于几"
}
}'
预期结果
都能流式正常返回
相关截图
上图是不通过oneapi,直接访问模型,能正常流式输出,结果如下:
上图:通过onenapi,流式访问本地qwen模型,无返回内容
上图通过oneapi访问gpt-3.5-turbo,能正常返回,如下图:
如果没有的话,请删除此节。