ALL ARTICLES

全部文章

探索 AI 大模型领域的 19 篇技术文章与深度解析

⌘ K

2026.06.15

Evaluation 📌 置顶

Agent 可观测性与调试：从黑盒到白盒的进阶之路

AI Agent 不再是传统软件，调试的是推理过程而非代码。本文详细探讨 Trajectory Evaluation、LLM-as-a-Judge 和主流 Agent 观测工具（LangSmith, Langfuse 等）的实战应用。

2026.06.15

AI Agent

Context Engineering 实战指南：把上下文窗口当 RAM 管理

2026 年最火的新概念，从 Prompt Engineering 进化到 Context Engineering。详解如何通过 Write/Select/Compress/Isolate 四大策略管理上下文窗口，解决长对话遗忘、幻觉与上下文污染。

2026.05.04

AI 工程

AI 编程驾驭指南：从「帮我写个 XX」到架构编排者

工具再多也没用——决定 AI 编程质量的是驾驭方法论。本文深入拆解六大核心方法（Spec-Driven、上下文工程、TDD 验证环、多 Agent 编排、高级 Prompt、会话卫生），附 20+ 工具矩阵、五大反模式避坑指南和完整实战工作流。

2026.04.22

Evaluation

拒绝榜单刷分：如何构筑契合业务的 LLM 评估体系

不再迷恋堆砌代码，建立大模型评估思维才是核心。本文深度剖析 LLM-as-a-Judge 的底层偏差、Ragas 算分的数学机制，以及如何用概率思维重塑 CI/CD 防线。

2026.04.22

量化部署

大模型量化实战手册：从零开始，四条路线全覆盖

告别理论焦虑，手把手教你量化大模型。从直接下载预量化模型，到自己用 AWQ/GPTQ/GGUF 动手压缩权重，再到 vLLM FP8 零校准生产部署和 QLoRA 微调——四条路线，每条都有可直接复制的完整代码和命令。

2026.04.15

行业趋势

AI 关键技术的历史抉择：为什么每次都选了「那一个」？

回顾 AI 七十年发展史上的六次关键技术岔路口，剖析每一次「历史选择」背后的算力约束、数据红利与可扩展性逻辑。

2026.04.14

推理部署

vLLM 在线推理服务实战：从架构原理到 Token 计费，一文搞定生产部署

深入浅出解析 vLLM 核心架构（PagedAttention、连续批处理、APC 前缀缓存、推测解码），面向在线推理服务场景，手把手教你搭建 OpenAI 兼容 API、调优性能参数、搭建 Token 计费体系。附完整 Docker 部署方案与 Prometheus 监控配置。

2026.04.05

GPU架构

NVIDIA GPU 驱动栈全视野解析：从内核模块到容器运行时的包关系图谱

深度拆解 Linux 下 NVIDIA GPU 烦杂的驱动包结构。本文为您详解 nvidia-dkms、libnvidia、nvidia-utils 与 driver metapackage 之间的五层架构，并按「Docker 模型服务器」、「个人桌面」、「DGX 算力集群」等核心场景提供企业级安装最佳实践和避坑指南。

2026.03.31

量化部署