2023 - 2024 年度总结

软件开发技术的
实战经验与思考

从技术选型到工程落地，分享我在构建原生应用过程中的架构设计、性能优化以及踩过的那些坑。

核心技术栈

工欲善其事，必先利其器。以下是我在项目中常用的技术组合。

🧠

Model Core

PyTorch, TensorFlow, LLM APIs (OpenAI/Anthropic)

⚡

Backend

FastAPI, Python 3.10+, Celery, Redis

🗄️

Data Layer

PostgreSQL (pgvector), Milvus, MinIO

🎨

Frontend

React, Next.js, Tailwind CSS, Shadcn UI

🐳

DevOps

Docker, Kubernetes, GitHub Actions, AWS

🔍

Observability

Prometheus, Grafana, LangSmith, W&B

深度心得与案例

不仅仅是代码，更是对问题的分析与解决方案的演进。

架构设计 2023-10-15

RAG 模式的架构演进

从简单的向量检索到混合检索，再到重排序策略，探讨如何大幅提升知识库问答的准确率。

性能优化 2023-11-02

LLM 推理延迟优化实战

如何通过 vLLM、FlashAttention 和 KV Cache 优化技术，将推理延迟降低 60%。

工程实践 2023-12-10

提示词工程在代码生成中的应用

告别随机尝试，建立结构化的 Prompt 管理系统，提升编程的代码质量。

典型系统架构

一个高可用的应用通常包含的模块与数据流向。

Client (Web/Mobile)

→

API Gateway

→

Service Layer

→

LLM Model

Vector DB

System Architecture Diagram (Simplified)

避坑指南

那些我在深夜 Debug 中总结出来的血泪经验。

Q: 模型幻觉太严重怎么办？

不要试图仅仅通过修改 Prompt 来解决。必须引入 RAG（检索增强生成）机制，并且严格限制模型的回答范围。在工程层面，添加事实核查层是非常必要的。

Q: 如何控制 Token 成本？

1. 建立缓存机制，避免重复请求相同的问题；2. 对长上下文进行智能截断；3. 针对简单任务使用小参数模型（如 Llama 3 8B），仅在复杂推理时调用 GPT-4。

Q: 开发环境和生产环境不一致？

坚决使用 Docker 容器化部署。确保 PyTorch/CUDA 版本在生产环境与训练环境完全一致。使用 requirements.txt 的 lock 版本或者 Poetry 管理依赖。

软件开发技术的实战经验与思考