ROCm分析

相比英伟达的TensorRT-LLM优化框架，AMD的ROCm生态仍显单薄。例如运行Llama 3-70B时，7900 XTX性能骤降40%，暴露出对复杂模型支持的短板。例如运行Llama 3-70B时，7900 XTX性能骤降40%，暴露出对复杂模型支持的短板。

ollama, 偏向个人用户，部署简单网络高效。主要在cpu上运行大模型，通过将部分参数卸载到gpu来提升运行速度。 Ollama迎来重大更新，引入flash attention修复和KV cache量化 sg-lang/vllm，偏向商用，并发性带宽高。主要在gpu上运行大模型，如果offload技术卸载部分参数到cpu进行执行。性能提升在kvcache的优化上。