世界热讯:MosaicML 推出 300 亿参数模型,训练成本 70 万
(资料图)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
您可能也感兴趣:
今日热点
为您推荐
2023年黑龙江省高考录取控制分数线划定|今日最新
快消息!感冒喝蜂蜜水有用不_感冒喝蜂蜜水有用
世界速递!福建2023年高考成绩下午可查 录取控制线傍晚或发布
排行
最近更新
- 世界热讯:MosaicML 推出 300 亿参数模型,训练成本 70 万
- 日本强推核污染水排海 日本民众:不应做危害子孙后代的事|焦...
- 今头条!合同因清偿而终止的情形有哪些
- 头条焦点:“蒙哥马利”为啥会被苏军解救?
- 房屋拆迁合同样本
- 天天实时:党建引领促共建 端午“粽”情暖民心
- 安全生产许可证查询系统专区 安全生产许可证查询系统 世界微资讯
- 合伙人利润分配计算公式 合伙人利润分配方案|环球今头条
- 汉阳:汉水公园荷花开满塘
- 天天关注:宋白釉莲口弦纹六管瓶
- 哈尔滨人才补贴_哈尔滨人才 环球热文
- 宋白釉瓷碗 全球速读
- 每日热议!让赵丽颖陪跑,51岁的吴越却是影视圈不一样的烟火 ...
- 环球热议:天天精选!如何办理手机电子证据保全公证
- 肺结核解除劳动合同可不可以?
- 【世界快播报】安徽农业大学贴吧2018_安徽农业大学贴吧
- 世界快资讯丨10省区市将现大到暴雨 上海广东等地局部有大暴雨
- Meta将在加拿大终止提供新闻服务|焦点速读
- 今日热门!驾驶证a2几年年审一次
- 全球资讯:女子到宾馆匆匆开房浙江老板娘报警 听到里面传出...
- 全球消息!杰特-霍华德:最期待和乔治交手 我看他的比赛&偷...
- 环球微速讯:国服关停5个月 暴雪禁止国内玩家参与暗黑4活动
- 0糖0脂0卡:旭日森林无糖乌龙茶2.33元/瓶官方狂促
- 巴媒列有资格参加2025世俱杯的32支球队:曼城、皇马、切尔西...
- 机构不看好?多只债基净值创新高后遭大额赎回 如何应对?-热点评
- 全球播报:俄罗斯首都莫斯科已加强安全措施
- 金针菇怎么保存? 金针菇放10天还能吃么?怎么看金针菇是不...
- 古老运动“火出圈” 龙舟也有“冷知识”-世界快消息
- 世界快资讯:保护知识产权激发创新活力
- 滴滴:端午休闲娱乐订单较节前增长80%