大雄话AI — GPT-5.4 · Claude 4.6 · Gemini 3.1 技术博客

[ FEATURED / 精选推荐 ]

编辑精选

编辑精选的深度好文

HOT

量化部署 2026.04.22

大模型量化实战手册：从零开始，四条路线全覆盖

告别理论焦虑，手把手教你量化大模型。从直接下载预量化模型，到自己用 AWQ/GPTQ/GGUF 动手压缩权重，再到 vLLM FP8 零校准生产部署和 QLoRA 微调——四条路线，每条都有可直接复制的完整代码和命令。

阅读全文 →

4 实战路线

12+ 代码示例

8 工具覆盖

[ LATEST POSTS / 最新文章 ]

最新文章

探索 AI 技术的最新动态与深度解析

Evaluation 2026.04.22

拒绝榜单刷分：如何构筑契合业务的 LLM 评估体系

不再迷恋堆砌代码，建立大模型评估思维才是核心。本文深度剖析 LLM-as-a-Judge 的底层偏差、Ragas 算分的数学机制，以及如何用概率思维重塑 CI/CD 防线。

阅读全文 →

行业趋势 2026.04.15

AI 关键技术的历史抉择：为什么每次都选了「那一个」？

回顾 AI 七十年发展史上的六次关键技术岔路口，剖析每一次「历史选择」背后的算力约束、数据红利与可扩展性逻辑。

阅读全文 →

推理部署 2026.04.14

vLLM 在线推理服务实战：从架构原理到 Token 计费，一文搞定生产部署

深入浅出解析 vLLM 核心架构（PagedAttention、连续批处理、APC 前缀缓存、推测解码），面向在线推理服务场景，手把手教你搭建 OpenAI 兼容 API、调优性能参数、搭建 Token 计费体系。附完整 Docker 部署方案与 Prometheus 监控配置。

阅读全文 →

GPU架构 2026.04.05

NVIDIA GPU 驱动栈全视野解析：从内核模块到容器运行时的包关系图谱

深度拆解 Linux 下 NVIDIA GPU 烦杂的驱动包结构。本文为您详解 nvidia-dkms、libnvidia、nvidia-utils 与 driver metapackage 之间的五层架构，并按「Docker 模型服务器」、「个人桌面」、「DGX 算力集群」等核心场景提供企业级安装最佳实践和避坑指南。

阅读全文 →

量化部署 2026.03.31

大模型量化精度全景图：从 FP32 到 1-bit，精度损失到底有多大？

全面对比 FP32、BF16、FP16、FP8、INT8、INT4、NF4、FP4、1.58-bit 等所有主流量化精度格式，用真实 Benchmark 数据告诉你：每降低一级精度，模型到底会"变蠢"多少。含 FP8 vs INT8 深度技术对比。

阅读全文 →

AI Agent 2026.03.15

做 AI Agent 的 7 条运行时实践

基于一个真实数据分析智能体项目，总结 7 条可复用的 Agent Runtime 实践，包括状态暴露、工具设计、上下文治理、guardrail、delegate 和 trace 审计。

阅读全文 →

查看全部文章 →

[ MODEL COMPARISON / 模型对比 ]

模型对比

三大主流 AI 模型能力全景一览

🧠

GPT-5.4

OpenAI · 2026.03.05

上下文窗口 256K

多模态 ✓ 原生

代码能力 ★★★★★

推理深度 ★★★★★

Thinking Computer Use Codex 集成

POPULAR

🎭

Claude Sonnet 4.6

Anthropic · 2026.02.17

上下文窗口 1M (Beta)

多模态 ✓ 视觉推理

代码能力 ★★★★★

Agent 能力 ★★★★★

Computer Use 1M 上下文 Agentic

✨

Gemini 3.1 Pro

Google DeepMind · 2026.02.19

上下文窗口 2M

多模态 ✓ 全模态

代码能力 ★★★★★

推理速度 ★★★★★

Thinking Levels 视频/音频搜索整合

[ TECH DOMAINS / 技术领域 ]

主题探索

按技术领域分类浏览文章

💡 提示工程 12 篇 ⚙️ 模型微调 8 篇 🤖 AI Agent 10 篇 📚 RAG 应用 7 篇 🎨 多模态 6 篇 🏢 行业应用 9 篇

// ABOUT

关于本站

专注于 AI 大模型领域的技术研究与实践分享。
记录前沿技术的发展脉络，探索人工智能的应用边界。

50+ 技术文章

10+ 覆盖模型

6 核心专题

2K+ 月读者

深度技术文章

实战经验分享

前沿趋势洞察

开源项目实践

深入大模型世界

深入大模型世界

编辑精选

大模型量化实战手册：从零开始，四条路线全覆盖

最新文章

拒绝榜单刷分：如何构筑契合业务的 LLM 评估体系

AI 关键技术的历史抉择：为什么每次都选了「那一个」？

vLLM 在线推理服务实战：从架构原理到 Token 计费，一文搞定生产部署

NVIDIA GPU 驱动栈全视野解析：从内核模块到容器运行时的包关系图谱

大模型量化精度全景图：从 FP32 到 1-bit，精度损失到底有多大？

做 AI Agent 的 7 条运行时实践

模型对比

GPT-5.4

Claude Sonnet 4.6

Gemini 3.1 Pro

主题探索

关于本站

编辑精选

大模型量化实战手册：从零开始，四条路线全覆盖

最新文章

拒绝榜单刷分：如何构筑契合业务的 LLM 评估体系

AI 关键技术的历史抉择：为什么每次都选了「那一个」？

vLLM 在线推理服务实战：从架构原理到 Token 计费，一文搞定生产部署

NVIDIA GPU 驱动栈全视野解析：从内核模块到容器运行时的包关系图谱

大模型量化精度全景图：从 FP32 到 1-bit，精度损失到底有多大？

做 AI Agent 的 7 条运行时实践

模型对比

GPT-5.4

Claude Sonnet 4.6

Gemini 3.1 Pro

主题探索

订阅 AI 前沿速递

关于本站