五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ChatGLM2-12B 效果怎么樣?官方公布

2023-07-28 00:03 作者:ChatGLM  | 我要投稿

ChatGLM2 系列模型發(fā)布月余,大家對(duì) ChatGLM2-6B 的效果已經(jīng)有較多認(rèn)知。我們現(xiàn)在公布 ChatGLM2-12B 在部分中英文典型數(shù)據(jù)集上的評(píng)測(cè)效果,供大家參考。這些數(shù)據(jù)集包括 MMLU(英文)、C-Eval(中文)、GSM8K(數(shù)學(xué)) 和 BBH(英文) 等。

ChatGLM2-12B 模型在這些數(shù)據(jù)集上取得了不錯(cuò)的成績(jī)。我們將繼續(xù)不斷改進(jìn)和優(yōu)化模型,以提供更優(yōu)質(zhì)的模型效果。

具體信息請(qǐng)參考:https://github.com/THUDM/ChatGLM2-6B


MMLU

Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法測(cè)試,Base 模型使用 few-shot answer-only 的方法測(cè)試。

C-Eval

Chat 模型使用 zero-shot CoT 的方法測(cè)試,Base 模型使用 few-shot answer only 的方法測(cè)試。

GSM8K

所有模型均使用 few-shot CoT 的方法測(cè)試,CoT prompt 來(lái)自??http://arxiv.org/abs/2201.11903

* 我們使用翻譯 API 翻譯了 GSM8K 中的 500 道題目和 CoT prompt 并進(jìn)行了人工校對(duì)。

BBH

所有模型均使用 few-shot CoT 的方法測(cè)試,CoT prompt 來(lái)自?

https://github.com/suzgunmirac/BIG-Bench-Hard/tree/main/cot-prompts

ChatGLM2-12B 效果怎么樣?官方公布的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
射洪县| 噶尔县| 林口县| 南丰县| 阳谷县| 桃园市| 法库县| 南丹县| 吴川市| 辰溪县| 临湘市| 鹤壁市| 永嘉县| 抚顺市| 崇明县| 辽中县| 舞阳县| 金湖县| 定兴县| 屏东县| 南江县| 兰溪市| 连南| 咸宁市| 甘南县| 阿克苏市| 武宣县| 黑河市| 昌宁县| 龙岩市| 大化| 搜索| 渑池县| 西林县| 陵川县| 丰都县| 漠河县| 松阳县| 剑河县| 定州市| 政和县|