简介
GLM-4的All Tools能力可以处理各种类型的任务,包括数据分析、图表绘制、PPT生成等常见的文件处理,旨在用自动化的方式解决提示词复杂这一痛点。
根据智谱AI官方披露,GLM-4的中文对齐能力总分超过了GPT-4,用数据集进行测试可以得出,GLM-4在中文专业能力、中文理解能力和角色扮演上的表现得分均高于GPT-4和GPT-4 Turbo。在多任务语言理解、提示词跟随、指令跟随等基准测试,以及包括GSM8K、Math等多项数据集当中,GLM-4的表现均优于GPT-3.5。
基本原理
智谱AI于2020年底开始研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023年推出基于千亿基座的对话模型ChatGLM,并开源单卡版模型ChatGLM-6B,使得研究者和个人开发者进行本地微调和部署成为可能。GLM-4支持128K的上下文窗口长度,单次提示词能处理的文本可达300页。在大海捞针压力测试(needle test)中,128K文本长度内,GLM-4模型均可做到几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降。
发展历程
2020年,智谱AI开始GLM预训练架构的研发,并训练了百亿参数模型GLM-10B。2022年8月,智谱AI的双语千亿级预训练模型GLM-130B正式上线。在当年的斯坦福大学大模型中心对全球主流大模型进行全方位评测中,GLM-130B成为亚洲唯一入选模型,并在准确性等部分标准方面被认为,已与GPT-3持平。
2023年10月27日,中国计算机大会论坛上,阿里、腾讯投资的智谱AI正式发布全新自研的第三代基座大模型ChatGLM3系列。
2024年1月16日,智谱AI首届技术开放日在京举办,智谱AI团队全面展示了其投身大模型事业三年多来所积累的技术成果,并发布了新一代基座大模型GLM-4。

功能和服务
通过GLM-4的智能体能力,GLM-4 All Tools可实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、Code Interpreter代码解释器和多模态文生图大模型以完成复杂任务。GLMs个性化智能体基于GLM-4模型的强大能力,用户只要用简单的提示词指令就能创建属于自己的GLM智能体,大幅降低了大模型使用门槛。GLM-4可以支持128k的上下文窗口长度,单次提示词可以处理的文本可以达到300页。同时在多模态能力方面,文生图和多模态理解都得到了增强。
GLM-4还具备All Tools能力——一个指令可以调动各种工具。得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂的指令,自由调用网页WebGLM搜索、Code Interpreter代码解释器和多模态形成的能力。GLM-4的All Tools能力可以处理各种类型的任务,包括数据分析、图表绘制、PPT生成等常见的文件处理,旨在用自动化的方式解决提示词复杂这一痛点。

模型优势
相较于前一代模型,GLM-4在整体性能上有了显著提升,不仅支持更长的上下文信息处理,推理速度也更为迅捷,有效降低了推理成本。GLM-4的中文对齐能力总分超过了GPT-4,用数据集进行测试可以得出,GLM-4在中文专业能力、中文理解能力和角色扮演上的表现得分均高于GPT-4和GPT-4 Turbo。在多任务语言理解、提示词跟随、指令跟随等基准测试,以及包括GSM8K、Math等多项数据集当中,GLM-4的表现均优于GPT-3.5。GLM-4相比上一代的性能全面提升近60%,它支持更长的上下文、更强的多模态支持和更快速的推理等。
功能名称 | 特点介绍 | 相关数据图 |
基础能力(英文) | GLM-4 在 MMLU、GSM8K、MATH、BBH、HellaSwag、HumanEval等数据集上,分别达到GPT-4 94%、95%、91%、99%、90%、100%的水平 | 
|
指令跟随能力 | GLM-4在IFEval的prompt级别上中、英分别达到GPT-4的88%、85%的水平,在Instruction级别上中、英分别达到GPT-4的90%、89%的水平 | 
|
对齐能力 | GLM-4在中文对齐能力上整体超过GPT-4 | 
|
长文本能力 | 在LongBench(128K)测试集上对多个模型进行评测,GLM-4性能超过 Claude 2.1;在「大海捞针」(128K)实验中,GLM-4的测试结果为 128K以内全绿,做到100%精准召回 | 
|
多模态-文生图 | CogView3在文生图多个评测指标上,相比DALLE3 约在 91.4% ~99.3%的水平之间 | 
|
All Tools -文生图 | ALL ToolsGLM-4 实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、Code Interpreter代码解释器和多模态文生图大模型,以完成复杂任务。简单来讲,即只需一个指令,GLM-4会自动分析指令,结合上下文选择决定调用合适的工具 | 
|
All Tools - 代码解释器 | LM-4能够通过自动调用python解释器,进行复杂计算(例如复杂方程、微积分等),在GSM8K、MATH、Math23K等多个评测集上都取得了接近或同等GPT-4 All Tools的水平 | 
|
All Tools - 网页浏览 | GLM-4 能够自行规划检索任务、自行选择信息源、自行与信息源交互,在准确率上能够达到 78.08,是GPT-4 All Tools 的116% | 
|
All Tools - Function Call | GLM-4 能够根据用户提供的Function描述,自动选择所需 Function并生成参数,以及根据 Function 的返回值生成回复;同时也支持一次输入进行多次 Function 调用,支持包含中文及特殊符号的 Function 名字。这一方面GLM-4 All Tools 与 GPT-4 Turbo 相当 | 
|
All Tools | -多工具自动调用。除了以上单项工具自动调用外,GLM-4 同样能够实现多工具自动调用,例如结合 网页浏览、CogView3、代码解释器等的调用方式 | 
|
GLMs & MaaS API | GLM-4的全线能力提升使得我们有机会探索真正意义上的GLMs。用户可以下载(更新)智谱清言 APP,进行体验,快速创建和分享自己的「智能体」 | 
|
参考资料