全球新动态:MosaicML 推出 300 亿参数模型,训练成本 70 万
(相关资料图)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
您可能也感兴趣:
为您推荐
这个端午节 四川发放消费券1.5亿元_天天视点
流动性与机构行为周度跟踪:税期后资金再度转松跨半年波动料将可控_环球速讯
每日消息!强降雨袭多地,6月24日预报
排行
最近更新
- 全球新动态:MosaicML 推出 300 亿参数模型,训练成本 70 万
- 焦点热文:一问“医”答丨高温热浪又双叒叕来了!如何防护?
- 环球播报:北京中考首日高温“烤验”突出 或现40℃三连击警惕中暑
- 巴中旅游景点大全排名(四川巴中旅游景点大全)|世界今日讯
- 2019款奔驰C260L 4MATIC怎么样及保时捷Cayenne 3.0T多少钱
- 上汽大众全新Polo Plus怎么样及广汽讴歌TLX-L 2.4L多少钱|天天资讯
- 山东农信网上银行下载(山东农信网上银行)|世界最资讯
- 讯息:澳芒为什么不甜(澳芒)
- 黄金消费旺 吉祥又时尚
- 端午档总票房达8.48亿,暂列影史第二_环球速读
- 每日消息!问天要地 “工业上楼”能否引领产业投资新风潮?
- 热头条丨事关你的房贷!疆内商业银行下调贷款利率
- 世界视讯!美失事潜艇5名富豪或0.03秒内死亡 专家猜测发生了...
- 创维EV6 II汽车上市:CLTC续航最高620公里,15.68万元起
- 全省城镇燃气安全工作专项督导,首站走进成都液化石油气充装...
- 正在播放绮丽叔母(正在播放叔母)
- 如何将excel转换成图片格式(如何将excel转换成图片)-天天即时
- 厦门会展走出去招展引展,“厦门之夜”亮相上海_世界讯息
- 播报:2023年中国建筑装饰行业现状分析:城市化率稳步提升,...
- 全球快看点丨《索尼克:未知边境》生日派对更新加入新游戏+模式
- ESPN晒灰熊新赛季潜在首发&替补:他们下赛季能赢多少场?
- 当前焦点!韩立明深入老旧小区农贸市场等察看城市环境整治情况
- 模块化大模型来了!IBM公开WastonX核心架构技术细节-天天快看点
- 会用五笔的人是不是很厉害? 现在还用五笔打字的,究竟是些什...
- 最普通简单的蝴蝶结系法?-热讯
- 系蝴蝶结的方法?_全球速读
- 方媛带俩女儿出游,郭富城视角下母女仨手牵手,同款双辫超可爱
- “电竞+文旅+体育” 乌鲁木齐市天山区首届电子竞技大赛举行-...
- 世界看点:南方16条河流发生超警洪水
- 全球今日讯!广西2023年普通高校招生录取最低控制分数线公布