LLM 技术

大语言模型技术的深度探索与实践

技术分享

LLM 2025年07月22日

深入探索 vLLM 推理框架的核心参数配置，包括 max-num-batched-tokens、max-num-seqs、max-model-len 和 gpu-memory-utilization 的原理和调优策略。

vLLM 大语言模型推理优化 GPU 显存管理并发处理

LLM 2025年09月20日

深入探索 Elasticsearch 中 HNSW 算法的核心原理，从 RAG 检索效率瓶颈出发，详解分层导航小世界网络的构建与查询机制。

HNSW Elasticsearch 向量检索 RAG 算法优化 KNN 检索算法

LLM 2025年10月09日

记录如何将 Qwen3-4B-Instruct 打造成稳定的指令模型，涵盖数据分析、LoRA 训练、推理上线与踩坑复盘，适合有基础的 AI 工程师快速复现。

SFT Qwen3-4B-Instruct LoRA 指令模型 Hugging Face PyTorch Agent

🧠

深入探索 LLM 的部署、优化和推理技术，包括 vLLM、Transformers 等框架的使用心得。

⚡

从显存管理到并发处理，分享大模型部署和推理过程中的性能调优经验和最佳实践。

🚀

记录 LLM 在实际项目中的应用经验，包括模型选择、部署方案和效果评估等实战分享。