驾驭 vLLM 大模型推理:一次关于并发、长度与显存的探索之旅
深入探索 vLLM 推理框架的核心参数配置,包括 max-num-batched-tokens、max-num-seqs、max-model-len 和 gpu-memory-utilization 的原理和调优策略。
大语言模型技术的深度探索与实践
深入探索 vLLM 推理框架的核心参数配置,包括 max-num-batched-tokens、max-num-seqs、max-model-len 和 gpu-memory-utilization 的原理和调优策略。
深入探索 Elasticsearch 中 HNSW 算法的核心原理,从 RAG 检索效率瓶颈出发,详解分层导航小世界网络的构建与查询机制。
记录如何将 Qwen3-4B-Instruct 打造成稳定的指令模型,涵盖数据分析、LoRA 训练、推理上线与踩坑复盘,适合有基础的 AI 工程师快速复现。
深入探索 LLM 的部署、优化和推理技术,包括 vLLM、Transformers 等框架的使用心得。
从显存管理到并发处理,分享大模型部署和推理过程中的性能调优经验和最佳实践。
记录 LLM 在实际项目中的应用经验,包括模型选择、部署方案和效果评估等实战分享。