百亿参数的中英文双语基座大模型

名称: /OpenBMB/CPM-Bee

地址: https://github.com/OpenBMB/CPM-Bee

fork: 43    star: 543    开发语言: Python

项目简介: 百亿参数的中英文双语基座大模型

CPM-Bee是一个完全开源、允许商用的百亿参数中英文基座模型,也是CPM-Live训练的第二个里程碑。它采用 Transformer 自回归架构(auto-regressive),在超万亿(trillion)高质量语料上进行预训练,拥有强大的基础能力。开发者和研究者可以在 CPM-Bee 基座模型的基础上在各类场景进行适配来以创建特定领域的应用模型。

CPM-Bee 是一个基座模型,即从零开始通过预训练得来。用户可以根据自己的场景和数据上适配/微调/对齐后再进行使用。例如,WebCPM 以 CPM-Bee 为基座,在人类网络检索的序列化数据上进行适配,获得了复杂问答和上网检索的能力。

  • 👐 开源可商用:OpenBMB 始终秉承“让大模型飞入千家万户”的开源精神,CPM-Bee 基座模型将完全开源并且可商用,以推动大模型领域的发展。我们鼓励全球范围内的科研机构、企业和个人开发者在遵守开源许可协议的前提下,自由地在 CPM-Bee 基座模型上进行创新。

  • 💫 中英双语性能优异:CPM-Bee 基座模型在预训练语料上进行了严格的筛选和配比,同时在中英双语上具有亮眼表现,具体可参见评测任务和结果

  • 📖 超大规模高质量语料:CPM-Bee 基座模型在超万亿语料进行训练,是开源社区内经过语料最多的模型之一。同时,我们对预训练语料进行了严格的筛选、清洗和后处理以确保质量。

  • 百亿参数的中英文双语基座大模型 OpenBMB 大模型系统生态支持:OpenBMB 大模型系统在高性能预训练、适配、压缩、部署、工具开发了一系列工具,CPM-Bee 基座模型将配套所有的工具脚本,高效支持开发者进行进阶使用。

  • 🔨 对话和工具使用能力:结合 OpenBMB 在指令微调和工具学习的探索,我们在 CPM-Bee 基座模型的基础上进行微调,训练出了具有强大对话和工具使用能力的实例模型,API 和内测将于近期开放。

模型

  • 模型权重下载链接

  • CPM-Bee 的基座模型可以准确地进行语义理解,高效完成各类基础任务,包括:文字填空、文本生成、翻译、问答、评分预测、文本选择题等等。

"填空":{"input": "心理学领域的研究人员发现,做出重要决定的最好方法之一,比如选择一所大学或,都涉及到使用决策工作表。研究优化的心理学家将与理论理想决策进行比较,看看它们有多相似。工作表程序的支持者认为它会产生最优的,也就是说,最好的决策。虽然有可以接受,但它们在本质上都是相似的。","":{"":"","":"","":""}},
"文本生成": {"input": "今天天气很好,我和妈妈一起去公园,", "prompt": "往后写约 100 字", "": ""}
"翻译": {"input": "北京是中国的首都", "prompt": "中翻英", "": ""}
"问答": {"input": "NGC 6231 是一个位于天蝎座的疏散星团,天球座标为赤经 16 时 54 分,赤纬-41 度 48 分,视觉观测大小约 45 角分,亮度约 2.6 视星等,距地球 5900 光年。NGC 6231 年龄约为三百二十万年,是一个非常年轻的星团,星团内的最亮星是 5 等的天蝎座 ζ1 星。用双筒望远镜或小型望远镜就能看到个别的行星。NGC 6231 在 1654 年被意大利天文学家乔瓦尼·巴蒂斯特·霍迪尔纳(Giovanni Battista Hodierna)以 Luminosae 的名字首次纪录在星表中,但是未见记载于夏尔·梅西耶的天体列表和威廉·赫歇尔的深空天体目录。这个天体在 1678 年被爱德蒙·哈雷(I.7)、1745 年被夏西亚科斯(Jean-Phillippe Loys de Cheseaux)(9)、1751 年被尼可拉·路易·拉卡伊(II.13)分别再次独立发现。", "question": "NGC 6231 的经纬度是多少?", "": ""}
"评分预测": {"input":"之前多次聚餐都选择这里,有各种大小的包房同时能容纳很多人,环境好有特色还有表演,整体聚餐氛围一下被带动起来。现在由于炭火改成了电烤羊,口感真的不如从前,不过其他菜品都还是不错,烤羊剩下的拆骨肉最后还能再加工一下椒盐的也很好吃。","question":"评分是多少?(1-5)","":""},
"选择题": {"input": "父母都希望自己的孩子诚实、勇敢、有礼貌。要想让孩子成为这样的人,父母首先得从自己做起,要是连自己都做不到,又怎能要求孩子做到呢?", "options": {"": "少提要求", "": "降低标准", "": "自己先做好", "": "让孩子拿主意"}, "question": "教育孩子时,父母应该:", "": ""}

百亿参数的中英文双语基座大模型 OpenBMB

基于 OpenBMB 的大模型系统生态,我们在训练 CPM-Bee 的过程中实现了全流程高效。同时提供了继续训练(基于 BMTrain)、微调(基于 OpenPrompt 和 OpenDelta)、工具使用(基于 BMTools)、模型压缩(基于 BMCook)、高效推理(基于 BMInf)的全套脚本,可以协助开发者快速上手和使用 CPM-Bee。

💫 性能表现

零样本评测

我们对 CPM-Bee 基座模型进行了全方位的中英文能力评测。在中文的 Zero-CLUE 评测基准上,CPM-Bee 可以大幅超越其他模型,位列中文大模型第一。在英文评测基准上,CPM-Bee 也展现出了和开源模型 LLaMA 相当的效果。

ZeroCLUE 中文评测

百亿参数的中英文双语基座大模型

英文评测

百亿参数的中英文双语基座大模型

更多内容,请到 github 观看:https://github.com/OpenBMB/CPM-Bee

END

© 版权声明

☆ END ☆
喜欢就点个赞吧
点赞0 分享
图片正在生成中,请稍后...