参数量再加大,百川智能发布13B中英文大模型,开源可商用|最前线
作者 | 周愚
编辑 | 邓咏仪
36氪获悉,7月11日,百川智能公司正式发布通用大语言模型Baichuan-13B-Base、对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本,参数量达130亿。
(资料图片仅供参考)
这是自今年4月成立以来,百川智能发布的第二款通用大语言模型。6月15日,百川智能推出首款70亿参数量中英文语言模型——Baichuan-7B,36氪此前也做过报道。
预训练模型“底座”因其灵活的可定制性,适合具有一定开发能力的开发者和企业,而普通用户则更关注具有对话功能的对齐模型。本次发布13B-Base的同时,百川智能也发布了其对话模型Baichuan-13B-Chat,对开发者而言部署简单、开箱即用。
而百川智能还同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本,可以被近乎无损地部署在如3090等的消费级显卡上。
相比此前发布的Baichuan-7B,这次发布的Baichuan-13B是参数量更大的版本。Baichuan-13B在1.4万亿token数据集上训练,参数量超过LLaMA-13B 40%。
据百川智能,Baichuan-13B在C-EVAL、MMLU等中、英文领域权威评测榜单上均进行了能力测试,测试结果位于国内外大模型的前列。
在中文C-EVAL评测中,Baichuan-13B-Base、Baichuan-13B-Chat分别取得53.4分、51.5分。来源:百川智能
比如,在中文领域权威评测C-EVAL中,Baichuan-13B得分在自然科学、医学、艺术、数学等领域,超过了Meta旗下的LLaMA-13B等同尺寸的大语言模型;而在社会科学、人文科学等领域,超过了ChatGPT。
而在英文权威评测榜单MMLU上,Baichuan-13B得分则在所有领域内,超过了包括LLaMA-13B在内的所有同尺寸开源模型。Baichuan-13B-Base和ChatGPT的得分,分别达51.6分和52.1分。
Baichuan-13B在中文评测C-EVAL上的表现。来源:百川智能
Baichuan-13B在英文评测MMLU上的表现。来源:百川智能
面向中文语言模型的C-Eval评测基准,是由上海交通大学、清华大学以及爱丁堡大学联合创建,覆盖了52个来自不同行业领域的学科。 MMLU则主要是对模型的英文跨学科专业能力进行深入测试,由加州大学伯克利分校等知名高校共同打造,集合了不同领域的57个学科。
在语言模型中,上下文窗口长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B上下文窗口长度为4096,不同于Baichuan-7B的RoPE编码方式,Baichuan-13B使用了ALiBi位置编码技术。
该技术能够处理长上下文窗口,甚至推断超出训练期间读取数据的上下文长度,从而更好捕捉文本中上下文的相关性,做出更准确的预测或生成。
此外,为了取得在中、英两种语言中的均衡表现,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料。
本次发布依然延续开源、可商用的原则。目前,Baichuan-13B-Base和Chat均已发布在Hugging Face、Github以及Model Scope平台上。该模型对学术研究完全开放,其他开发者在获得官方商用许可后,即可免费试用。
附项目开源地址:
Hugging Face:
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:https://github.com/baichuan-inc/Baichuan-13B
Model Scope:
预训练模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/
-
参数量再加大,百川智能发布13B中英文大模型,开源可商用|最前线
36氪 2023-07-11
-
将向中国车企购买电动车平台授权?奥迪称将携手各方共同制定战略方针
同花顺财经 2023-07-11
-
物价运行保持基本平稳
人民网 2023-07-11
-
江苏:以赛促训提升养老护理员技能水平_江苏频道
新华网 2023-07-11
-
徐璐魏哲鸣《披荆斩棘的大小姐》杀青 浴火复仇刷新爆爽上限
凤凰网 2023-07-11
-
博实股份与中石化镇海炼化签订6838万元重大合同
智通财经 2023-07-11
-
如何拌猪肉芹菜饺子馅?
南方养生网 2023-07-11
-
2023年7月份中旬各地养老金将迎来补发,企退工人们能涨多少钱呢?
社保网 2023-07-11
-
斗罗大陆COS:宁荣荣美如画3,水嫩肌肤和精致容颜,尽显高贵纯洁
漫画风云榜 2023-07-11
-
我的世界群峦传说次世代怎么炼制黑铜
MC百科 2023-07-11
-
参数量再加大,百川智能发布13B中英文大模型,开源可商用|最前线
36氪 2023-07-11
-
将向中国车企购买电动车平台授权?奥迪称将携手各方共同制定战略方针
同花顺财经 2023-07-11
-
物价运行保持基本平稳
人民网 2023-07-11
-
江苏:以赛促训提升养老护理员技能水平_江苏频道
新华网 2023-07-11
-
徐璐魏哲鸣《披荆斩棘的大小姐》杀青 浴火复仇刷新爆爽上限
凤凰网 2023-07-11
-
博实股份与中石化镇海炼化签订6838万元重大合同
智通财经 2023-07-11
-
如何拌猪肉芹菜饺子馅?
南方养生网 2023-07-11
-
2023年7月份中旬各地养老金将迎来补发,企退工人们能涨多少钱呢?
社保网 2023-07-11
-
斗罗大陆COS:宁荣荣美如画3,水嫩肌肤和精致容颜,尽显高贵纯洁
漫画风云榜 2023-07-11
-
我的世界群峦传说次世代怎么炼制黑铜
MC百科 2023-07-11
-
特斯拉“纯电越野玩具车”国内将上市
金融界 2023-07-11
-
寻味潮汕,哪座城市最对你的胃?
南方+ 2023-07-11
-
乡间小路上,暴雨狂风中,为特种车辆“护航”,180公里路开了11个小时
扬眼 2023-07-11
-
强化打防管控,全力维护社会大局稳定
江西日报-江西新闻客户端 2023-07-11
-
津城开启多雨模式 气温重回30℃线
天津日报 2023-07-11
-
转走!想看“西直门三太子”的注意了;知名航企摘牌退市;“王老吉”之争,加多宝被判赔;这家公司因“吹牛”收函|早餐
北京商报 2023-07-11
-
ps怎么切割图片快捷键 ps怎么切割图片
城市网 2023-07-11
-
商务印书馆发布7月十大好书 《古汉语大字典》等入选
人民网 2023-07-11
-
两部门:延长金融支持房地产有关政策期限
中国财富网 2023-07-11
-
创业板5大手势识别公司排名-创业板手势识别板块股票
南方财富网 2023-07-11
-
沪宁沿江高铁联调联试跑出385公里最高试验时速
中国产业经济信息网 2023-07-11
-
中国新歌声薛之谦那期(中国新歌声薛之谦是哪一期)
互联网 2023-07-11
-
网络 交换机(网络交换机的使用方法)
互联网 2023-07-11
-
媒体人:乔治和太阳的流言是假的 沃格尔和队内任何人从未谈论他
手机网易网 2023-07-11
-
7月10日基金净值:嘉实稳固收益债券A最新净值1.127,涨0.09%
证券之星 2023-07-11
-
老相识!周琦与范子铭曾在19-20赛季作为队友共同为新疆效力
直播吧 2023-07-10
-
每经热评丨强化企业科技创新主体地位 使企业实现从生产链主导到创新链主导
每日经济新闻 2023-07-10
-
全新英仕派的关注度,还原东风本田应有模样
汽车有智慧 2023-07-10
-
“祝融号”火星车还会再次苏醒吗?
看看新闻Knews 2023-07-10
-
卡塔尔与阿联酋签署长期凝析油供应协议
第一财经 2023-07-10