(資料圖)
編程客棧()5月11日 消息:MosaicML 的 MPT-7B 是一個具有近70億個參數(shù)的大型語言模型,該團隊在自己的近萬億個標(biāo)記的數(shù)據(jù)集上對其進行了訓(xùn)練。
MosaicML 遵循 Meta 的LLaMA模型的訓(xùn)練方案。培訓(xùn)花費近200,000美元,使用 MosaicML 平臺耗時9.5天。
MosaicML表示,MPT-7B 與 Meta 的70億參數(shù) LLaMA 模型的性能相匹配,使其成為第一個達到該水平的開源模型,領(lǐng)先于OpenLLaMA。與 Meta 的模型不同,MPT-7B 已獲得商業(yè)使用許可。
除了“MPT-7B Base”模型,MosaicML 還發(fā)布了三個變體:MPT-7B-StoryWritpythoner-65k+、MPT-7B-Instruct 和 MPT-7B-Chat。
借助 MPT-7B-StoryWriter-65k+,MosaicML 還發(fā)布了一個模型,該模型能夠讀取和寫入上android下文長度非常長的故事。為此,使用 books3數(shù)據(jù)集的子集對 MPT-7B 進行了微調(diào),上下文長度為65,000個標(biāo)記。OpenAI 最大的 GPT-4變體能夠處理32,000個標(biāo)記。
根據(jù) MosiacML 的說法,該模型可以通過js一些優(yōu)化擴展到超過65,000個token,并且該團隊已經(jīng)在使用 Nvidia A100-80GB GPU 的單個節(jié)點上展示了多達84,000個token。但即使有65,000個tokenjs,也可以閱讀整部小說并寫一篇結(jié)語。
項目網(wǎng)址:https:/php/github.com/mosaicml/llm-foundry