本地部署QWQ显存不够怎么办？-人工智能专区

本地部署QWQ显存不够怎么办？

作者：舒伯编辑：陶然 2025-03-12 22:27 阿里云开发者

　　近日，阿里云发布并开源了全新推理模型通义千问 QwQ-32B，在一系列权威基准测试中，千问QwQ-32B模型表现异常出色，几乎完全超越了OpenAI-o1-mini，性能比肩Deepseek-R1，且部署成本大幅降低。并集成了与智能体 Agent 相关的能力，够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B，本实践带您部署体验专属 QwQ-32B模型服务。

　　QwQ-32B 模型简介

　　3月6日，阿里云发布并开源了全新的推理模型通义千问QwQ-32B。通过大规模强化学习，千问QWQ-32B在数学、代码及通用能力上实现质的飞跃，整体性能比肩Deepseek-R1。在保持强劲性能的同时，千问QwQ-32B还大幅降低了部署使用成本。

　　在一系列权威基准测试中，千问QwQ-32B模型表现异常出色，几乎完全超越了OpenAI-o1-mini，比肩最强开源推理模型DeepSeek-R1：在测试数学能力的AIME24评测集上，以及评估代码能力的LiveCodeBench中，千问QwQ-32B表现与DeepSeek-R1相当，远胜于o1-mini及相同尺寸的R1蒸馏模型；在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，千问QwQ-32B的得分均超越了DeepSeek-R1。此外，千问QwQ-32B模型中还集成了与智能体Agent相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程。

　　PAI-Model Gallery 简介

　　Model Gallery 是阿里云人工智能平台 PAI 的产品组件，它集成了国内外 AI 开源社区中优质的预训练模型，涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配，用户可以以零代码方式实现从训练到部署再到推理的全过程，简化了模型的开发流程，为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

　　该平台具备灵活性和强大的技术支持，能够利用多种先进的部署框架来满足不同用户的需求。具体来说：

　　SGLang 提供了一种简化的配置方式，便于快速部署模型。

　　vLLM 针对大规模语言模型进行了优化，提高了推理速度和效率。

　　BladeLLM 是阿里云自主研发的高性能推理框架，专门为大规模语言模型提供高效的部署和推理能力。

　　PAI-Model Gallery 访问地址：https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models　　

　　PAI-Model Gallery 一键部署 QwQ-32B

　　1、进入 Model Gallery 页面（链接：https://pai.console.aliyun.com/?regionId=cn-hangzhou#/quick-start/models）

　　在顶部左上角根据实际情况选择地域（当前除北京地域外，都已支持QwQ-32B模型）。

　　在左侧导航栏选择工作空间列表，单击指定工作空间名称，进入对应工作空间内。

　　在左侧导航栏选择快速开始 > Model Gallery。　　

　　2、在 Model Gallery 页面的模型列表中，单击找到并点击 QwQ-32B 模型卡片，进入模型详情页面。　　

　　3、单击右上角部署，选择部署框架、配置推理服务名称以及部署使用的资源信息后，即可一键部署服务，将模型部署到 PAI-EAS 推理服务平台。当前平台已支持多种部署框架，包括SGLang加速部署、vLLM加速部署、BladeLLM加速部署（阿里云PAI自研高性能推理框架）。　　

　　4、使用推理服务。部署成功后，在服务页面可以点击“查看调用信息”获取调用的Endpoint和Token，想了解服务调用方式可以点击预训练模型链接，返回模型介绍页查看调用方式说明。　　

　　您也可以在 PAI-EAS 推理服务平台上在线调试已部署好的QwQ-32B模型服务。从图中可以看出模型回复具备较好的思维链能力。　　

关注我们