2023 - 2024 年度总结

软件开发技术的
实战经验与思考

从技术选型到工程落地,分享我在构建原生应用过程中的架构设计、性能优化以及踩过的那些坑。

AI Software Development Dashboard

核心技术栈

工欲善其事,必先利其器。以下是我在项目中常用的技术组合。

🧠
Model Core
PyTorch, TensorFlow, LLM APIs (OpenAI/Anthropic)
Backend
FastAPI, Python 3.10+, Celery, Redis
🗄️
Data Layer
PostgreSQL (pgvector), Milvus, MinIO
🎨
Frontend
React, Next.js, Tailwind CSS, Shadcn UI
🐳
DevOps
Docker, Kubernetes, GitHub Actions, AWS
🔍
Observability
Prometheus, Grafana, LangSmith, W&B

深度心得与案例

不仅仅是代码,更是对问题的分析与解决方案的演进。

RAG Architecture
架构设计

RAG 模式的架构演进

从简单的向量检索到混合检索,再到重排序策略,探讨如何大幅提升知识库问答的准确率。

Model Performance
性能优化

LLM 推理延迟优化实战

如何通过 vLLM、FlashAttention 和 KV Cache 优化技术,将推理延迟降低 60%。

Prompt Engineering
工程实践

提示词工程在代码生成中的应用

告别随机尝试,建立结构化的 Prompt 管理系统,提升编程的代码质量。

典型系统架构

一个高可用的应用通常包含的模块与数据流向。

Client (Web/Mobile)
API Gateway
Service Layer
LLM Model
Vector DB

System Architecture Diagram (Simplified)

避坑指南

那些我在深夜 Debug 中总结出来的血泪经验。

Q: 模型幻觉太严重怎么办?
不要试图仅仅通过修改 Prompt 来解决。必须引入 RAG(检索增强生成)机制,并且严格限制模型的回答范围。在工程层面,添加事实核查层是非常必要的。
Q: 如何控制 Token 成本?
1. 建立缓存机制,避免重复请求相同的问题;2. 对长上下文进行智能截断;3. 针对简单任务使用小参数模型(如 Llama 3 8B),仅在复杂推理时调用 GPT-4。
Q: 开发环境和生产环境不一致?
坚决使用 Docker 容器化部署。确保 PyTorch/CUDA 版本在生产环境与训练环境完全一致。使用 requirements.txt 的 lock 版本或者 Poetry 管理依赖。