https://github.com/ggml-org/llama.cpp/discussions/4130
参数选择
llama-server提供api接口,其中参数有parallel、ctx-size、batch-size、threads等
- 注意当ctx-size也占用了较大空间,显存剩余不多的情况下,如果将batch-size开得过大,那么推理时中间值存储空间可能不够,可能导致模型胡言乱语
https://github.com/ggml-org/llama.cpp/discussions/4130
llama-server提供api接口,其中参数有parallel、ctx-size、batch-size、threads等