文心大模型（百度旗下的大模型）_百科资料

简介

2019年3月，百度发布了文心大模型1.0版本。2023年10月，文心大模型升级到4.0版。2024年4月16日，百度正式发布文心大模型4.0的工具版。截至目前，文心一言用户数已突破2亿。

文心大模型已经形成产业级知识增强大模型技术体系，包括自然语言处理、视觉、跨模态、生物计算、行业大模型，以及支撑大模型应用的工具平台。工具与平台层包括数据标注与处理、大模型精调、压缩、高性能部署、场景化工具。文心大模型已在能源、金融、航天、制造、传媒、城市、社科以及影视等领域广泛应用。

发展历程

2019年3月，发布文心大模型1.0版本。

2019年7月，发布文心大模型 2.0版本。

2019年11月，发布ERNIE语义理解开发套件。

2020年7月，提出知识增强视觉-语言预训练模型 ERNIE-ViL，首次将场景图知识融入多模态预训练，在 5 项多模态任务上刷新世界最好效果，并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构，登顶榜首。

2021年9月，百度发布了PLATO-XL，一举超过 Facebook Blender、谷歌 Meena和微软 DialoGPT，成为全球首个百亿参数中英文对话预训练生成模型。

2021年12月8日，百度联合鹏城实验室发布全球首个知识增强千亿大模型——鹏城-百度·文心（模型版本号：ERNIE 3.0 Titan），参数规模达到2600亿，是目前全球最大的中文单体模型。

2022年5月，发布融合任务相关知识的千亿大模型ERNIE 3.0 Zeus。

2023年3月，在ERNIE及PLATO系列模型基础上研发发布文心一言。

2023年5月，文心大模型迭代3.5版本，训练速度达到原来的3倍，推理速度达到原来的30多倍。

2023年8月，文心一言向全社会全面开放。

2023年10月，正式发布文心大模型4.0，实现基础模型的全面升级，在理解、生成、逻辑和记忆能力上都有明显提升。

2024年4月16日，正式发布文心大模型4.0工具版，可体验代码解释器功能，通过自然语言交互，实现对复杂数据和文件的处理与分析，还可以生成图表或文件，能够快速洞察数据中的特点、分析变化趋势、为后续的决策提供支撑。

文心全景

文心大模型已经形成产业级知识增强大模型技术体系，包括自然语言处理、视觉、跨模态、生物计算、行业大模型，以及支撑大模型应用的工具平台。

文心大模型

自然语言处理

文心一言 ERNIE Bot

文心一言是新一代知识增强大语言模型，也是百度继文心一格之后的又一个生成式AI产品，具备对话交互、内容创作、知识推理、多模态生成等能力。文心一言是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。

对话 PLATO-XL

PLATO-XL是世界首个基于隐变量的生成式开放域对话大模型，利用隐变量建模开放域对话中的一对多关系（一个输入对应多个正确输出），采用 Unified Transformer 框架共享生成模型中的编码器和解码器参数，通过课程学习方式提升模型训练效率，在精细化构建的大规模高质量对话语料上基于飞桨深度学习框架训练的对话大模型。 PLATO 具备接近真人水平的多轮流畅对话能力，开放域对话效果达到世界领先水平。可应用于情感陪伴、智能助手、智能音箱、车载对话、智能虚拟人、智能硬件等。

搜索 ERNIE-Search

为了提升 ERNIE 在检索领域的效果，ERNIE-Search 提出了使用预训练阶段细粒度交互向粗粒度交互蒸馏的策略。通过在训练过程中进行自蒸馏，在节省了传统方法中训练教师模型的开销之外，提高了 ERNIE-Search 的模型效果。

跨语言ERNIE-M

ERNIE-M 是面向多语言建模的预训练-微调框架。为了突破双语语料规模对多语言模型的学习效果限制，提升跨语言理解的效果，我们提出基于回译机制，从单语语料中学习语言间的语义对齐关系的预训练模型 ERNIE-M，显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的 5 种典型跨语言理解任务效果。

代码 ERNIE-Code

代码 ERNIE-Code是首个多自然语言多编程语言代码大模型，支持100多种自然语言和15种编程语言。ERNIE-Code采用多语言多任务联合训练的方式，在代码补全、代码搜索、代码摘要、代码修复等任务上取得领先效果，可应用于代码补全、代码搜索、代码生成、代码摘要、代码翻译、代码修复、缺陷检测、克隆检测等代码智能场景。

ERNIE 3.0

ERNIE 3.0是基于知识增强的多范式统一预训练框架。在 ERNIE 3.0 中，自回归和自编码网络被创新型地融合在一起进行预训练，其中自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务，持续的进行语义理解学习。通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务。同时，自编码网络创新性地增加了知识增强的预训练任务。自回归网络基于 Tranformer-XL 结构，支持长文本语言模型建模。多范式的统一预训练模式使得 ERNIE 3.0 能够在理解任务、生成任务和零样本学习任务上获取 SOTA 的表现。

ERNIE 3.0可支持智能创作、摘要生成、问答、语义检索、情感分析、信息抽取、文本匹配、文本纠错等各类自然语言理解和生成任务。

鹏城-百度·文心

鹏城-百度·文心（ERNIE 3.0 Titan）是全球首个知识增强千亿大模型，也是目前为止全球最大的中文单体模型，参数规模达到2600亿。

在算法框架上，该模型沿用ERNIE 3.0的海量无监督文本与大规模知识图谱的平行预训练算法，模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力，研究团队进一步设计了可控和可信学习算法。

在训练上，结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑Ⅱ”领先算力集群，解决了超大模型训练中的多个公认技术难题。

在应用上，首创大模型在线蒸馏框架，大幅降低了大模型落地成本。

鹏城-百度·文心在机器阅读理解、文本分类、语义相似度计算等60多项任务中取得最好效果，并在30余项小样本和零样本任务上刷新基准。

鹏城-百度·文心在大模型落地应用中，仅利用少量标注数据甚至无需标注数据，就能解决新场景的任务是AI工业大生产面临的关键问题。

ERNIE 3.5

与文心大模型3.0版本相比，文心大模型3.5版本在效果、功能、性能上全面提升，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，模型效果提升50%，训练速度提升2倍，推理速度提升30倍。在基础模型训练上，采用了飞桨最先进的自适应混合并行训练技术及混合精度计算策略，并采用多种策略优化数据源及数据分布，加快了模型迭代速度，显著提升了模型效果和安全性。同时，创新了多类型多阶段有监督精调、多层次多粒度奖励模型、多损失函数混合优化策略、双飞轮结合的模型优化等技术，进一步提升模型效果及场景适配能力。

ERNIE 4.0

ERNIE 4.0实现了基础模型的全面升级，理解、生成、逻辑和记忆四大能力都有提升。在万卡算力上运行飞桨平台，通过集群基础设施和调度系统、飞桨框架的软硬协同优化，支持了大模型的稳定高效训练。建设了多维数据体系，形成了数据挖掘、分析、合成、标注、评估闭环，充分释放数据价值，大幅提升模型效果。基于有监督精调、偏好学习、强化学习等技术进行多阶段对齐，保证模型更好地与人类的判断和选择对齐。可再生训练技术通过增量式的参数调优，有效节省了训练资源和时间，加快了模型迭代速度

视觉

OCR图像表征学习VIMER-StrucTexT 2.0

VIMER-StrucTexT 2.0 首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架，仅通过单一文档图像的输入，就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型，显著提高文档理解全景应用任务效果，包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR + NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题，能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。

多任务视觉表征学习VIMER-UFO 2.0

VIMER-UFO 2.0 技术方案的主要内容包括：1）All in One——行业最大 170 亿参数视觉多任务模型，覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务，单模型 28 个公开测试集效果 SOTA；2）One for All——首创针对视觉多任务的超网络与训练方案，支持各类任务、各类硬件的灵活部署，解决大模型参数量大，推理性能差的问题。

视觉处理多任务学习VIMER-TCIR

VIMER-TCIR视觉处理多任务学习大模型，通过利用Transformer局部注意力机制，结合RRDB卷积网络，降低视觉处理任务对于显存的需求，利用预训练技术提升模型拟合能力。

自监督视觉表征学习VIMER-CAE

VIMER-CAE 创新性地提出“在隐含的编码表征空间完成掩码预测任务”的预训练框架，基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升，在图像分类、目标检测、语义分割等经典下游任务上达到 SOTA 结果。

跨模态

文档智能ERNIE-Layout

RNIE-Layout首次将布局知识增强技术融入跨模态文档预训练，在 4 项文档理解任务上刷新世界最好效果，登顶 DocVQA 榜首。同时，ERNIE-Layout 已集成至百度智能文档分析平台 TextMind，助力企业数字化升级。

文图生成ERNIE-ViLG 2.0

文心 ERNIE-ViLG 2.0 采用基于知识增强算法的混合降噪专家建模，是全球首个知识增强的 AI 作画大模型，也是目前全球参数规模最大的 AI 作画大模型，在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了当前该领域的世界最好效果，并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。应用于图像生成、艺术创作、虚拟现实、AI 辅助设计等。

视觉-语言ERNIE-ViL

ERNIE-ViL 是业界首个融合场景图知识的多模态预训练模型。ERNIE-ViL将场景图知识融入到视觉-语言模型的预训练过程，学习场景语义的联合表示，显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务（VCR）上登顶榜首。应用于视觉常识推理、视觉问答、跨模态检索、引用表达式理解等。

语音-语言ERNIE-SAT

ERNIE-SAT 采用语音-文本联合训练的方式在中文和英文数据集上进行预训练。使得模型学到了语音和文本的对齐关系，并且生成频谱的精度更高，合成声音的质量更高。应用于语音编辑、语音生成、语音克隆、带语音克隆的语音到语音翻译。

生物计算

化合物表征学习HelixGEM-2

HelixGEM是业界首个基于几何构象增强的化合物表征模型，引入化合物的三维空间信息，在14个药物属性预测相关的benchmarks上效果达到业界最优，发表在 Nature Machine Intelligence 2022年2月刊。HelixGEM-2是业界首个考虑原子间多体交互、长程相互作用的模型，融合量子力学第一性原理，创新性地提出多轨机制，每个轨道对化合物的不同阶的多体集合进行长程建模，在量子化学属性预测和虚拟筛选双场景上达到领先效果。

蛋白质结构预测HelixFold

HelixFold端到端地学习蛋白质结构，通过协同学习蛋白质的多序列比对（MSA）和氨基酸对（pairwise）的表征，将蛋白质序列的进化信息、蛋白质结构的物理和几何约束信息结合到深度学习网络中。利用大规模无标注数据强化蛋白质表示能力，构建的全国产化软硬件适配的高效蛋白质结构分析大模型，在国产DCU环境下训练千万级别蛋白仅需到2.6天，在 GPU 上相同硬件环境配置下，训练性能和部分场景效果显著优于 AlphaFold2。

单序列蛋白质结构HelixFold-Single

HelixFold-Single是秒级别的蛋白结构预测模型，是业界首个开源的基于单序列语言模型的蛋白结构预测大模型，从近3亿的无标注蛋白质数据中隐式的学习MSA信息，在90% 的单体蛋白场景上预测效果持平AF2。在抗体结构预测场景下，比AlphaFold2预测结果更优。

行业大模型

截至2022年11月，文心已累计发布11个行业大模型，涵盖电力、燃气、金融、航天、传媒、城市、影视、制造、社科等领域，实现显著的效果提升，产业生态初步形成，正在成为加速推动行业智能化转型升级的重要力量。文心行业大模型是百度与行业头部企业、机构联合探索出的行之有效的大模型产业落地方式，让大模型在实际应用场景中“不但能用还便捷好用”。