使用 Docker Model Runner 在本地构建 GenAI 应用程序

作者：卢敏【编译】编辑：卢敏 2025-05-29 15:14 IT168网站原创

想要在本地运行大型语言模型（LLM）？以下是在您自己的桌面上设置 Docker Model Runner 并访问 LLM 的方法。

Docker Model Runner 是 Docker Desktop 的一项新功能，旨在简化在 Docker 生态系统中本地运行和测试 AI 模型的过程。它解决了开发人员在将生成式 AI 和大型语言模型集成到其工作流程中时面临的长期挑战，例如碎片化的工具、复杂的环境设置和不一致的模型管理。

通过将主机原生推理引擎直接嵌入到 Docker Desktop 中，Model Runner 无需容器化每个 AI 工作负载，这不仅提高了性能，还简化了用户体验。推理引擎目前构建在 llama.cpp 之上，在主机上作为本机进程运行。这种方法可确保模型权重得到有效加载，并且系统可以充分利用本地硬件，包括 Apple Silicon 系统上的直接 GPU 加速。这种原生执行绕过了与在容器或虚拟机内运行模型相关的传统开销，从而实现了更快的推理和更顺畅的开发周期。

Docker Model Runner 的先决条件

要运行 Docker Model Runner，您需要满足与 Docker 环境和硬件相关的几个先决条件。首先，您必须安装 Docker Desktop 版本 4.41 或更高版本。Docker Model Runner 作为一项功能集成到 Docker Desktop 中，因此早期版本不支持它。如果您计划将 Model Runner 与多容器应用程序或 Compose 文件一起使用，您还需要 Docker Compose 版本 2.35 或更高版本。

硬件兼容性至关重要。在 Mac 上，Docker Model Runner 需要 Apple 芯片（M1、M2 或更高版本）。在 Windows 上，您需要一个具有 NVIDIA GPU 的系统才能利用本地推理加速。该功能目前不适用于 Linux 或基于 Intel 的 Mac。

启用 Model Runner

如果您运行的是最新版本的 Docker Desktop，则可以访问 Dashboard 设置以启用 Model Runner。

在命令行中，运行以下命令以启用相同的功能：

docker desktop enable model-runner --tcp 12434

现在，您有一个在 macOS 上运行的 llama.cpp 推理引擎。您可以使用以下命令验证相同的内容：

docker model status

启用后，您可以按照熟悉的命令来拉取和运行模型。与 docker images list 命令类似，您可以运行 docker model list 列出所有下载的模型。

拉取和运行 Gemma LLM

与容器注册表类似，Docker 有一个用于生成式 AI 模型的注册表，可以在 hub.docker.com/u/ai 访问。模型以与容器映像相同的 OCI 格式存储。

让我们在本地拉取并运行 Gemma3 模型。

docker model pull ai/gemma3

下载模型后，您可以通过以下命令确认其可用性：

docker model list

现在，我们可以使用 cURL 命令通过兼容 OpenAI 的 API 终端节点访问模型。

curl http://localhost:12434/engines/llama.cpp/v1/chat/completions \-H "Content-Type: application/json" \
-d '{ "model": "ai/gemma3", "messages": [
 { "role": "system", "content": "You are a helpful assistant."
 },
 { "role": "user", "content": "Who was the captain of the Indian cricket team during the 1983 World Cup?"
 }
 ]
 }'

从 Hugging Face 拉取和运行嵌入模型

Docker Model Runner 支持直接从 Hugging Face 模型存储库中提取模型，前提是模型与 llama.cpp 兼容。在此示例中，我将从 Hugging Face 中提取 mxbai-embed-large-v1 嵌入模型。

docker model pull hf.co/mixedbread-ai/mxbai-embed-large-v1

由于它具有针对 CPU 优化的模型的 GGUF 风格，并且与 llama.cpp 引擎完全兼容，因此 Docker 成功下载了该模型。

您可以使用如下所示的命令对其进行测试。

curl http://localhost:12434/engines/llama.cpp/v1/embeddings \-H "Content-Type: application/json" \
-d '{ "model": "hf.co/mixedbread-ai/mxbai-embed-large-v1", "input": "Embeddings made easy"
 }'

您还可以在 Docker Desktop 控制面板中查看下载的模型。

通过在本地运行文本嵌入模型和 LLM，我们可以在开发计算机上开发 RAG 和代理应用程序，而无需使用远程推理引擎或终端节点。

Docker Model Runner 通过快速、简单和 Docker 生态系统集成，标志着本地 AI 开发的重大进步。它使开发人员能够直接在他们的机器上拉取、运行和管理 AI 模型，而无需复杂的传统基础设施设置或容器化推理的开销。通过利用主机原生推理引擎并支持直接 GPU 加速（尤其是在 Apple 芯片上），Model Runner 可提供高性能和高效的资源使用。模型作为 OCI 构件分发，支持标准化打包、版本控制以及与现有 Docker 工作流的无缝集成。使用与 OpenAI 兼容的 API 可确保轻松采用并与现有应用程序兼容。

关注我们