ChatGLM-6B 本地化部署体验

博主： F嘉阳
发布时间：2023 年 05 月 28 日
1949 次浏览
暂无评论
3591字数
分类：学习

背景

在ChatGPT引爆大语言模型热潮下，国内清华大学开源了包含62亿参数的GLM-6B，由于使用的参数较少，因此能支持在消费级显卡上私有化部署体验。

硬件

CPU：12700

内存：32G

GPU：RTX 2060 SUPER 8G

实践-ChatGLM-6B官方版本

介绍

GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 General Language Model (GLM) 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的博客。

部署

采用秋叶一键部署包，使用8G显存版本

启动成功，访问web-ui

对话

对话流畅度与chatgpt类似，精准度不如gpt4

chatglm-6b

由于显存限制，咨询过大的问题会直接导致爆显存无法回答

实践-闻达版本

介绍

GitHub - wenda-LLM/wenda: 闻达：一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作，实现不亚于于大模型的生成能力

闻达基于GLM-6B扩展，支持了本地知识库和联网知识库，提供了近似new bing的体验

部署

使用官方一键包，默认使用6g显存模型

启动成功

对话-离线

只使用已有模型数据，询问

回答内容文不对题

主动提供正确数据内容后再询问，此时回答正确

对话-使用在线知识库

打开联网知识库，清理历史后重新询问，不需要提供本地知识也可以自行通过网络检索后回答正确

系统设计问题

文档解析

直接读取文档

直接使用读取文档并对话的方式很容易脱离文档内容，导致答非所问

尽管使用的是6g显存的版本，读取较大的文档时也会爆显存

手动模拟文档读取

GLM文档分析实际上是将文档识别后转换为特定prompt进行问答对话

参考内嵌prompt

手动复制文档内容进行模拟对话，内容回答正确

类AutoGPT功能

使用wenda提供的“根据标题写论文功能”可自动触发AutoGPT模式

其会自己列提纲，并逐个扩展，无需手工操作

chatglm-6b-autogpt

总结

在消费级甜品卡上已经能实现接近chatgpt3的能力，ChatGLM-130B更是拥有1300亿参数的中英双语稠密模型，在能力上更进一步。

未来GLM企业级私有化部署可能会被包装为简单易用的产品向政府、企业推广，满足数据保密要求。

最后修改：2025 年 03 月 30 日

© 允许付费转载

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

ChatGLM-6B 本地化部署体验

F嘉阳 • 2023 年 05 月 28 日

<h2><a id="content-背景" href="#content-背景" class="heading-permalink" aria-hidden="true" title="Permalink"></a>背景</h2>
<p>在ChatGPT引爆大语言模型热潮下，国内清华大学开源了包含62亿参数的GLM-6B，由于使用的参数较少，因此能支持在消费级显卡上私有化部署体验。</p>
<h2><a id="content-硬件" href="#content-硬件" class="heading-permalink" aria-hidden="true" title="Permalink"></a>硬件</h2>
<p>CPU：12700</p>
<p>内存：32G</p>
<p>GPU：RTX 2060 SUPER 8G</p>
<h2><a id="content-实践-chatglm-6b官方版本" href="#content-实践-chatglm-6b官方版本" class="heading-permalink" aria-hidden="true" title="Permalink"></a>实践-ChatGLM-6B官方版本</h2>
<h3><a id="content-介绍" href="#content-介绍" class="heading-permalink" aria-hidden="true" title="Permalink"></a>介绍</h3>
<p><a rel="noopener noreferrer" href="https://github.com/THUDM/ChatGLM-6B">GitHub - THUDM/ChatGLM-6B: ChatGLM-6B: An Open Bilingual Dialogue Language Model | 开源双语对话语言模型</a></p>
<blockquote>
<p>ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型，基于 <a rel="noopener noreferrer" href="https://github.com/THUDM/GLM">General Language Model (GLM)</a> 架构，具有 62 亿参数。结合模型量化技术，用户可以在消费级的显卡上进行本地部署（INT4 量化级别下最低只需 6GB 显存）。 ChatGLM-6B 使用了和 ChatGPT 相似的技术，针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练，辅以监督微调、反馈自助、人类反馈强化学习等技术的加持，62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答，更多信息请参考我们的<a rel="noopener noreferrer" href="https://chatglm.cn/blog">博客</a>。</p>
</blockquote>
<h3><a id="content-部署" href="#content-部署" class="heading-permalink" aria-hidden="true" title="Permalink"></a>部署</h3>
<p>采用秋叶一键部署包，使用8G显存版本</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528172118422.png" alt="image-20230528172118422" loading="lazy"  style=""></p>
<p>启动成功，访问web-ui</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528172141100.png" alt="image-20230528172141100" loading="lazy"  style=""></p>
<h3><a id="content-对话" href="#content-对话" class="heading-permalink" aria-hidden="true" title="Permalink"></a>对话</h3>
<p>对话流畅度与chatgpt类似，精准度不如gpt4</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/chatglm-6b.gif" alt="chatglm-6b" loading="lazy"  style=""></p>
<p>由于显存限制，咨询过大的问题会直接导致爆显存无法回答</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528173346575.png" alt="image-20230528173346575" loading="lazy"  style=""></p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528122150070.png" alt="image-20230528122150070" loading="lazy"  style=""></p>
<h2><a id="content-实践-闻达版本" href="#content-实践-闻达版本" class="heading-permalink" aria-hidden="true" title="Permalink"></a>实践-闻达版本</h2>
<h3><a id="content-介绍-1" href="#content-介绍-1" class="heading-permalink" aria-hidden="true" title="Permalink"></a>介绍</h3>
<p><a rel="noopener noreferrer" href="https://github.com/wenda-LLM/wenda">GitHub - wenda-LLM/wenda: 闻达：一个LLM调用平台。为小模型外挂知识库查找和设计自动执行动作，实现不亚于于大模型的生成能力</a></p>
<p>闻达基于GLM-6B扩展，支持了本地知识库和联网知识库，提供了近似new bing的体验</p>
<h3><a id="content-部署-1" href="#content-部署-1" class="heading-permalink" aria-hidden="true" title="Permalink"></a>部署</h3>
<p>使用官方一键包，默认使用6g显存模型</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528173835563.png" alt="image-20230528173835563" loading="lazy"  style=""></p>
<p>启动成功</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528173915303.png" alt="image-20230528173915303" loading="lazy"  style=""></p>
<h3><a id="content-对话-离线" href="#content-对话-离线" class="heading-permalink" aria-hidden="true" title="Permalink"></a>对话-离线</h3>
<p>只使用已有模型数据，询问</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528121247875.png" alt="image-20230528121247875" loading="lazy"  style=""></p>
<p>回答内容文不对题</p>
<p>主动提供正确数据内容后再询问，此时回答正确</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528121339750.png" alt="image-20230528121339750" loading="lazy"  style=""></p>
<h3><a id="content-对话-使用在线知识库" href="#content-对话-使用在线知识库" class="heading-permalink" aria-hidden="true" title="Permalink"></a>对话-使用在线知识库</h3>
<p>打开联网知识库，清理历史后重新询问，不需要提供本地知识也可以自行通过网络检索后回答正确</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528121121124.png" alt="image-20230528121121124" loading="lazy"  style=""></p>
<p>系统设计问题</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528122234702.png" alt="image-20230528122234702" loading="lazy"  style=""></p>
<h3><a id="content-文档解析" href="#content-文档解析" class="heading-permalink" aria-hidden="true" title="Permalink"></a>文档解析</h3>
<h4><a id="content-直接读取文档" href="#content-直接读取文档" class="heading-permalink" aria-hidden="true" title="Permalink"></a>直接读取文档</h4>
<p>直接使用读取文档并对话的方式很容易脱离文档内容，导致答非所问</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528132251350.png" alt="image-20230528132251350" loading="lazy"  style=""></p>
<p>尽管使用的是6g显存的版本，读取较大的文档时也会爆显存</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528133754622.png" alt="image-20230528133754622" loading="lazy"  style=""></p>
<h4><a id="content-手动模拟文档读取" href="#content-手动模拟文档读取" class="heading-permalink" aria-hidden="true" title="Permalink"></a>手动模拟文档读取</h4>
<p>GLM文档分析实际上是将文档识别后转换为特定prompt进行问答对话</p>
<p>参考内嵌prompt</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528174537908.png" alt="image-20230528174537908" loading="lazy"  style=""></p>
<p>手动复制文档内容进行模拟对话，内容回答正确</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528132206338.png" alt="image-20230528132206338" loading="lazy"  style=""></p>
<h3><a id="content-类autogpt功能" href="#content-类autogpt功能" class="heading-permalink" aria-hidden="true" title="Permalink"></a>类AutoGPT功能</h3>
<p>使用wenda提供的“根据标题写论文功能”可自动触发AutoGPT模式</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/image-20230528175719724.png" alt="image-20230528175719724" loading="lazy"  style=""></p>
<p>其会自己列提纲，并逐个扩展，无需手工操作</p>
<p><img src="https://gitea.fjy8018.top/fjy8018/images/raw/branch/blog/img/chatglm-6b-autogpt.gif" alt="chatglm-6b-autogpt" loading="lazy"  style=""></p>
<h2><a id="content-总结" href="#content-总结" class="heading-permalink" aria-hidden="true" title="Permalink"></a>总结</h2>
<p>在消费级甜品卡上已经能实现接近chatgpt3的能力，ChatGLM-130B更是拥有1300亿参数的中英双语稠密模型，在能力上更进一步。</p>
<p>未来GLM企业级私有化部署可能会被包装为简单易用的产品向政府、企业推广，满足数据保密要求。</p>