ROCm分析
相比英伟达的TensorRT-LLM优化框架,AMD的ROCm生态仍显单薄。例如运行Llama 3-70B时,7900 XTX性能骤降40%,暴露出对复杂模型支持的短板。例如运行Llama 3-70B时,7900 XTX性能骤降40%,暴露出对复杂模型支持的短板。
ollama, 偏向个人用户,部署简单网络高效。主要在cpu上运行大模型,通过将部分参数卸载到gpu来提升运行速度。 Ollama迎来重大更新,引入flash attention修复和KV cache量化 sg-lang/vllm,偏向商用,并发性带宽高。主要在gpu上运行大模型,如果offload技术卸载部分参数到cpu进行执行。性能提升在kvcache的优化上。
croe build | |||
22226 | 2116345 | 5.14.0-556.el9.x86_64 | fail |
22016 | 2109964 | 5.14.0-547.el9.x86_64 | pass |