RAG 模式的架构演进
从简单的向量检索到混合检索,再到重排序策略,探讨如何大幅提升知识库问答的准确率。
从技术选型到工程落地,分享我在构建原生应用过程中的架构设计、性能优化以及踩过的那些坑。
工欲善其事,必先利其器。以下是我在项目中常用的技术组合。
不仅仅是代码,更是对问题的分析与解决方案的演进。
从简单的向量检索到混合检索,再到重排序策略,探讨如何大幅提升知识库问答的准确率。
如何通过 vLLM、FlashAttention 和 KV Cache 优化技术,将推理延迟降低 60%。
告别随机尝试,建立结构化的 Prompt 管理系统,提升编程的代码质量。
一个高可用的应用通常包含的模块与数据流向。
System Architecture Diagram (Simplified)
那些我在深夜 Debug 中总结出来的血泪经验。