当前位置:   article > 正文

llama2 代码实验记录_llama2测试代码

llama2测试代码

torchrun分布式启动,所以要想在云端的环境下在本地的IDE上debug,需要设置一下,具体可以参考这里,需要传入的路径参数全部使用绝对路径。

目录

1、传入的句子

2、tokenizer 的tokenization

3、model的主要组成部分

4、过程中自己的小实验

总结

模型结构(测试只搭建了16层 model)


1、传入的句子

即prompts,实例中的如下所示

['I believe the meaning of life is', 'Simply put, the theory of relativity states that ', 'A brief message congratulating the team on the launch:\n\n        Hi everyone,\n        \n        I just ', 'Translate English to French:\n        \n        sea otter => loutre de mer\n        peppermint => menthe poivrée\n        plush girafe => girafe peluche\n        cheese =>']

2、tokenizer 的tokenization

示例如下 

  1. # 传入
  2. 'I believe the meaning of life is'
  3. # tokenizer
  4. [306, 4658, 278, 6593, 310, 2834, 338]
  5. # 加入bos后
  6. [1, 306, 4658, 278, 6593, 310, 2834, 338]
  1. # 传入
  2. 'Simply put, the theory of relativity states that '
  3. #
  4. [3439, 17632, 1925, 29892, 278, 6368, 310, 14215, 537, 5922, 393, 29871]
  5. #
  6. [1, 3439, 17632, 1925, 29892, 278, 6368, 310, 14215, 537, 5922, 393, 29871]

 每个句子都被tokenizer用向量来表示。不过发现并不是逐词对应一个编码,有的对应了两个。其实这就涉及了sentencepiece的原理,见这里。由于兴趣使然,继续探索了一下

  1. 'I believe the meaning of life is'
  2. [306, 4658, 278, 6593, 310, 2834, 338]
  1. 'I believe, the meaning of life is '
  2. [306, 4658, 29892, 278, 6593, 310, 2834, 338, 29871]

 嗯,可以确定除了单词外,标点符号和空格也算做句子的一个部分。

  1. 'Simply' >> [3439, 17632]
  2. 'simply' >>[3763]
  3. 'Big' >>[7997]
  4. 'big' >>[4802]

不再继续探索了,详细的去查看sentencepiece原理,以及字节对编码 (BPE) (byte-pair-encoding (BPE)

3、model的主要组成部分

1、RSMNorm

一种标准化方法,详见这里

2、注意力运算

transformer decoder,应用掩码mask,主要的是采用RoPE位置编码方式,见这里

至于transformer的结构,见这里这里,不再详细赘述。

注意力运算方式采用GQA方式(Group Query Attention),至于相关的MHA,MQA的原理详见这里 

3、FeedForward

前向传播过程

主要是有个并行相乘的过程,激活函数采用 SiLU。

4、过程中自己的小实验

关于 sentencepiece的探讨

以下面文档为例训练了一下,其中包括中文和英文

  1. 一、一些注意事项
  2. 1.opencv默认读取的格式是BGR,也就是三通道的顺序。
  3. 2.而用matplotlib画的图是RGB的,所以其跟用opencv画的图颜色不太一样。
  4. cv2.waitKey(0)表示按键盘任意键后,显示的图片会消失。
  5. 如果cv2.waitKey(1000),则等1000ms后显示的图片自动消失。
  6. b,g,r三通道按顺序依次来。每个通道的形状都是一样的。b,g,r依次对应通道012,所以可以对其进行按通道处理,
  7. 即只保留其中的一个通道,使其它通道为全为0
  8. 注:图中的cv_show为一个自定义的函数。这就是对这个图像矩阵进行切片操作一样。
  9. 填充位置:上、下、左、右依次对应top_size,bottom_size,left_size,right_size
  10. cv2.copyMakeBorder(img,top_size,bottom_size,left_size,right_size,borderType=cv2.BORDER_REPLICATE)
  11. 加个常数,矩阵的每个位置都加10
  12. 其最大只能表示255,所以加和后的数为除256取余。
  13. 两个同型图片或者加个同型矩阵,表示为对应位置加和。其最大只能表示
  14. 311日下午三点半左右
  15. 菜鸟网络青岛即墨园区附近
  16. 一辆面包车发生交通事故
  17. 车头内凹受损严重
  18. 不明液体泄漏一地
  19. 驾驶员被困车内
  20. 此时
  21. 路过的多位热心人急伸援手
  22. 维持现场秩序
  23. 并及时找来工具砸车玻璃救人
  24. 不到十分钟
  25. 被困驾驶员便被救出
  26. 视频上传网络后
  27. 引发网友热议点赞
  28. 312日上午
  29. 记者联系到
  30. 参与救人的隋向坤等人
  31. 了解了当时
  32. 惊险又温暖的事发经过
  33. 网传:砸玻璃救被困司机现场视频热传获赞
  34. “我们一起把这个人救出来了,安全驾驶!”311日下午,网友“@TOP8小龙虾大闸蟹”发布视频,记录了其参与的一起马路救援。
  35. 网传视频时长17秒,在视频中,一辆面包车侧翻在马路上,周围洒落了很多撞击碎片和不明液体,面包车车头受损严重,凹陷进去一大块,一名白衣男子拿着一个工具,在砸前风挡玻璃。
  36. 很快,前风挡玻璃被砸开一个洞,车内的司机从驾驶室钻了出来。
  37. 从视频来看,尽管面包车已经面目全非,但是车内人员似乎受伤并不严重。
  38. 视频一经发布,立即引发广大网友的关注和热议。
  39. “车被撞成这样,即使车里的人没事,也要第一时间救人,因为车辆有自燃的可能,一旦发生起火,后果不堪设想。”
  40. “出门在外,一定要安全驾驶,带上平安上路,载着幸福回家。”
  41. “为这些及时伸出援手的热心人点赞。”
  42. 记者注意到,在视频下的留言中,除了点赞和安全提醒,还有网友“曝光”了白衣男子的身份,“救人的这个人叫隋向坤”“即墨移风店七级社区后吕村的”。
  43. 12日上午,记者辗转联系到了隋向坤,他介绍了当时的现场情况。“当时我们开车沿着北赵线行驶,当经过菜鸟网络青岛即墨园区附近时,发现路中间有一辆
  44. 面包车侧翻了。当时没想太多,我们抓紧时间停车,跑过去看看有没有人员受伤。过去后,
  45. 发现车内有个司机被困在驾驶室,他自己出不来,当时我和朋友一起,三个人抓紧想办法救人。”隋向坤说。

得到的词汇表结果如下

  1. <unk> 0
  2. <s> 0
  3. </s> 0
  4. , -2.70614
  5. ▁ -3.29977
  6. 。 -3.735
  7. 的 -3.88153
  8. t -4.52595
  9. _ -4.55706
  10. 1 -4.66518
  11. 了 -4.66623
  12. 一 -4.72225
  13. size -4.79318
  14. 为 -4.93599
  15. 后 -4.93599
  16. 车 -5.10193
  17. 有 -5.10267
  18. i -5.10269
  19. “ -5.26253
  20. ” -5.27607
  21. e -5.30048
  22. 其 -5.30267
  23. 上 -5.30268
  24. cv -5.30269
  25. R -5.3027
  26. g -5.3027
  27. m -5.30271
  28. 2. -5.30308
  29. 来 -5.36046
  30. b -5.42288
  31. 视频 -5.50133
  32. 不 -5.50318
  33. 在 -5.54744
  34. 和 -5.55094
  35. 网友 -5.55265
  36. 事 -5.55266
  37. 砸 -5.55266
  38. 隋向坤 -5.55267
  39. 被困 -5.55267
  40. a -5.55267
  41. 月 -5.55267
  42. 自 -5.55267
  43. 是 -5.55269
  44. B -5.55269
  45. r -5.55269
  46. y -5.55269
  47. l -5.5527
  48. 、 -5.55272
  49. 车内 -5.55382
  50. 通道 -5.57373
  51. 。” -5.5878
  52. 一个 -5.60327
  53. ▁“ -5.60654
  54. 中 -5.85697
  55. 出 -5.87985
  56. 人 -5.88318
  57. 这 -5.88391
  58. 时 -5.88421
  59. 2 -5.88449
  60. 被 -5.88597
  61. 即 -5.88597
  62. 3 -5.88599
  63. 大 -5.886
  64. 数 -5.886
  65. 矩阵 -5.886
  66. 没 -5.886
  67. 司机 -5.886
  68. 我们 -5.886
  69. 所以 -5.88601
  70. 现场 -5.88601
  71. h -5.88601
  72. w -5.88601
  73. 想 -5.88601
  74. 着 -5.88601
  75. : -5.88602
  76. 多 -5.88602
  77. 看 -5.88602
  78. 路 -5.88602
  79. E -5.88602
  80. 位置 -5.88602
  81. 按 -5.88602
  82. ( -5.88603
  83. T -5.88603
  84. 点赞 -5.88616
  85. 一样 -5.88848
  86. 一起 -5.88892
  87. op -5.97992
  88. to -6.2533
  89. 救人 -6.35325
  90. 三 -6.35584
  91. 0 -6.36683
  92. 当时 -6.37716
  93. 加 -6.38142
  94. 图 -6.38303
  95. 片 -6.38306
  96. ) -6.38325
  97. 面包车 -6.38459
  98. 全 -6.38492
  99. 经 -6.38519
  100. 注 -6.38519
  101. 使 -6.38596
  102. ▁网传 -6.38598
  103. 也 -6.38598
  104. 发生 -6.38598
  105. 安全驾驶 -6.38598
  106. 撞 -6.38598
  107. 日下午 -6.38598
  108. 白衣男子 -6.38598
  109. 要 -6.38598
  110. 工具 -6.38598
  111. 个同型 -6.38599
  112. 果 -6.38599
  113. 除 -6.38599
  114. 传 -6.386
  115. 伸 -6.386
  116. 到 -6.386
  117. 取 -6.386
  118. 可 -6.386
  119. 失 -6.386
  120. 定 -6.386
  121. 对 -6.386
  122. 并 -6.386
  123. 留 -6.386
  124. 些 -6.386
  125. 从 -6.38601
  126. 太 -6.38601
  127. 都 -6.38601
  128. 很 -6.38601
  129. G -6.38602
  130. K -6.38602
  131. O -6.38602
  132. s -6.38602
  133. 凹 -6.38602
  134. 消 -6.38602
  135. 用 -6.38602
  136. 等 -6.38602
  137. 键 -6.38602
  138. 他 -6.38603
  139. 右 -6.38603
  140. 开 -6.38603
  141. P -6.38604
  142. 下 -6.38604
  143. 左 -6.38604
  144. f -6.38605
  145. 救 -7.01003
  146. p -7.05187
  147. o -7.36039
  148. 个 -7.36221
  149. 辆 -7.37107
  150. 起 -7.37386
  151. 样 -7.37563
  152. 内 -7.37937
  153. 当 -7.38203
  154. 5 -7.38255
  155. 间 -7.38261
  156. . -7.38308
  157. 过 -7.38316
  158. 安 -7.38323
  159. 意 -7.38397
  160. 者 -7.38498
  161. 记 -7.385
  162. 去 -7.38528
  163. 行 -7.38529
  164. 进 -7.38529
  165. 点 -7.38531
  166. 赞 -7.38531
  167. 成 -7.3859
  168. ! -7.38595
  169. 7 -7.38595
  170. 七 -7.38595
  171. 份 -7.38595
  172. 光 -7.38595
  173. 叫 -7.38595
  174. 因 -7.38595
  175. 堪 -7.38595
  176. 店 -7.38595
  177. 把 -7.38595
  178. 曝 -7.38595
  179. 火 -7.38595
  180. 社 -7.38595
  181. 秒 -7.38595
  182. 移 -7.38595
  183. 第 -7.38595
  184. 级 -7.38595
  185. 蟹 -7.38595
  186. 设 -7.38595
  187. 身 -7.38595
  188. 还 -7.38595
  189. 醒 -7.38595
  190. 里 -7.38595
  191. 长 -7.38595
  192. 闸 -7.38595
  193. 风 -7.38595
  194. 家 -7.38597
  195. 快 -7.38597
  196. 6 -7.38599
  197. 两 -7.38599
  198. 保 -7.38599
  199. 只 -7.38599
  200. 广 -7.38599
  201. 或 -7.38599
  202. 立 -7.38599
  203. 持 -7.38599
  204. 8 -7.386
  205. @ -7.386
  206. M -7.386
  207. c -7.386
  208. 义 -7.386
  209. 交 -7.386
  210. 以 -7.386
  211. 位 -7.386
  212. 余 -7.386
  213. 作 -7.386
  214. 便 -7.386
  215. 像 -7.386
  216. 关 -7.386
  217. 函 -7.386
  218. 分 -7.386
  219. 切 -7.386
  220. 区 -7.386
  221. 十 -7.386
  222. 半 -7.386
  223. 吕 -7.386
  224. 周 -7.386
  225. 回 -7.386
  226. 围 -7.386
  227. 地 -7.386
  228. 外 -7.386
  229. 它 -7.386
  230. 小 -7.386
  231. 带 -7.386
  232. 常 -7.386
  233. 平 -7.386
  234. 幸 -7.386
  235. 序 -7.386
  236. 式 -7.386
  237. 录 -7.386
  238. 急 -7.386
  239. 找 -7.386
  240. 拿 -7.386
  241. 提 -7.386
  242. 援 -7.386
  243. 操 -7.386
  244. 故 -7.386
  245. 旦 -7.386
  246. 村 -7.386
  247. 格 -7.386
  248. 此 -7.386
  249. 泄 -7.386
  250. 洒 -7.386
  251. 洞 -7.386
  252. 漏 -7.386
  253. 热 -7.386
  254. 燃 -7.386
  255. 理 -7.386
  256. 福 -7.386
  257. 秩 -7.386
  258. 维 -7.386
  259. 而 -7.386
  260. 能 -7.386
  261. 色 -7.386
  262. 获 -7.386
  263. 落 -7.386
  264. 虾 -7.386
  265. 解 -7.386
  266. 言 -7.386
  267. 认 -7.386
  268. 说 -7.386
  269. 读 -7.386
  270. 通 -7.386
  271. 钟 -7.386
  272. 钻 -7.386
  273. 项 -7.386
  274. 颜 -7.386
  275. 龙 -7.386
  276. 又 -7.386
  277. 发 -7.386
  278. 暖 -7.386
  279. 温 -7.386
  280. 险 -7.386
  281. 惊 -7.38601
  282. 默 -7.38601
  283. 乎 -7.38602
  284. 任 -7.38602
  285. 会 -7.38602
  286. 似 -7.38602
  287. 但 -7.38602
  288. 办 -7.38602
  289. 动 -7.38602
  290. 友 -7.38602
  291. 处 -7.38602
  292. 如 -7.38602
  293. 尽 -7.38602
  294. 己 -7.38602
  295. 已 -7.38602
  296. 朋 -7.38602
  297. 法 -7.38602
  298. 盘 -7.38602
  299. 目 -7.38602
  300. 管 -7.38602
  301. 载 -7.38602
  302. 门 -7.38602
  303. 非 -7.38602
  304. 面 -7.38602
  305. A -7.38605
  306. C -7.38605
  307. D -7.38605
  308. k -7.38605
  309. 介 -7.38605
  310. 停 -7.38605
  311. 况 -7.38605
  312. 击 -7.38605
  313. 则 -7.38605
  314. 北 -7.38605
  315. 名 -7.38605
  316. 块 -7.38605
  317. 形 -7.38605
  318. 情 -7.38605
  319. 沿 -7.38605
  320. 状 -7.38605
  321. 碎 -7.38605
  322. 绍 -7.38605
  323. 赵 -7.38605
  324. 跑 -7.38605
  325. 跟 -7.38605
  326. 转 -7.38605
  327. 辗 -7.38605
  328. 陷 -7.38605
  329. 驶 -7.38605
  330. 填 -7.38607
  331. = -7.3861
  332. I -7.3861
  333. L -7.3861
  334. 充 -7.3861
  335. 线 -7.3861
  336. 鸟 -8.1869
  337. 马 -8.187
  338. 顺 -8.1871
  339. 青 -8.1872
  340. 附 -8.1873
  341. 近 -8.1874
  342. 议 -8.1875
  343. 衣 -8.1876
  344. 菜 -8.1877
  345. 联 -8.1878
  346. 翻 -8.1879
  347. 紧 -8.188
  348. 系 -8.1881
  349. 白 -8.1882
  350. 画 -8.1883
  351. 男 -8.1884
  352. 生 -8.1885
  353. 液 -8.1886
  354. 每 -8.1887
  355. 最 -8.1888
  356. 显 -8.1889
  357. 明 -8.189
  358. 损 -8.1891
  359. 挡 -8.1892
  360. 抓 -8.1893
  361. 手 -8.1894
  362. 心 -8.1895
  363. 引 -8.1896
  364. 布 -8.1897
  365. 工 -8.1898
  366. 岛 -8.1899
  367. 就 -8.19
  368. 室 -8.1901
  369. 子 -8.1902
  370. 头 -8.1903
  371. 型 -8.1904
  372. 园 -8.1905
  373. 同 -8.1906
  374. 及 -8.1907
  375. 参 -8.1908
  376. 前 -8.1909
  377. 具 -8.191
  378. 侧 -8.1911
  379. 体 -8.1912
  380. 伤 -8.1913
  381. 与 -8.1914
  382. n -8.1915
  383. d -8.1916
  384. 阵 -8.1917
  385. 重 -8.1918
  386. 置 -8.1919
  387. 络 -8.192
  388. 矩 -8.1921
  389. 次 -8.1922
  390. 机 -8.1923
  391. 所 -8.1924
  392. 应 -8.1925
  393. 墨 -8.1926
  394. 场 -8.1927
  395. 司 -8.1928
  396. 依 -8.1929
  397. 们 -8.193
  398. 严 -8.1931
  399. 隋 -8.1932
  400. 表 -8.1933
  401. 璃 -8.1934
  402. 玻 -8.1935
  403. 日 -8.1936
  404. 我 -8.1937
  405. 坤 -8.1938
  406. 困 -8.1939
  407. 员 -8.194
  408. 向 -8.1941
  409. 受 -8.1942
  410. 午 -8.1943
  411. 现 -8.1944
  412. 包 -8.1945
  413. 驾 -8.1946
  414. 示 -8.1947
  415. 道 -8.1948
  416. v -8.1949
  417. 频 -8.195
  418. 视 -8.1951
  419. z -8.1952
  420. 网 -8.1953

进行了一下测试

  1. if __name__ == '__main__':
  2. model_path = '************/model_output/Chinese.model'
  3. s = spm.SentencePieceProcessor(model_file=model_path)
  4. mm = s.EncodeAsPieces('测试一下,看看什么情况')
  5. print(mm)
  6. print('==================')
  7. word = '测试一下,看看什么情况'
  8. tokenizer = Tokenizer(model_path)
  9. token=tokenizer.encode(word, bos=True, eos=False)
  10. print(token)
  11. print('==================')
  12. decode_token = tokenizer.decode(token)
  13. print(decode_token)
  1. # 得到的输出
  2. ['▁', '测试', '一', '下', ',', '看', '看', '什么', '情', '况']
  3. ==================
  4. [1, 4, 0, 11, 141, 3, 76, 76, 0, 317, 310]
  5. ==================
  6. ⁇ 一下,看看 ⁇ 情况
  7. Process finished with exit code 0

不在词汇表中的token在decode时会显示??,0代表的是unseen的。这说明这个词汇表的长度还是太小了。这只是各测试,看看其中的过程。 

总结

 因为这只是测试,所以感觉没有什么太复杂的东西。真正的难点应该是训练的整体流程,需要克服许多困难。不过本次测试对llama也有了一定的了解,同时对大模型的一些使用的技术有了相关了解。(●ˇ∀ˇ●)

***

你看看现在哪有瓜啊,这都是大鹏的瓜,

***

model.args

ModelArgs(dim=4096, n_layers=32, n_heads=32, n_kv_heads=None, vocab_size=32000, multiple_of=256, ffn_dim_multiplier=None, norm_eps=1e-06, max_batch_size=4, max_seq_len=128)

模型结构(测试只搭建了16层 model)

  1. Transformer(
  2. (tok_embeddings): ParallelEmbedding()
  3. (layers): ModuleList(
  4. (0): TransformerBlock(
  5. (attention): Attention(
  6. (wq): ColumnParallelLinear()
  7. (wk): ColumnParallelLinear()
  8. (wv): ColumnParallelLinear()
  9. (wo): RowParallelLinear()
  10. )
  11. (feed_forward): FeedForward(
  12. (w1): ColumnParallelLinear()
  13. (w2): RowParallelLinear()
  14. (w3): ColumnParallelLinear()
  15. )
  16. (attention_norm): RMSNorm()
  17. (ffn_norm): RMSNorm()
  18. )
  19. (1): TransformerBlock(
  20. (attention): Attention(
  21. (wq): ColumnParallelLinear()
  22. (wk): ColumnParallelLinear()
  23. (wv): ColumnParallelLinear()
  24. (wo): RowParallelLinear()
  25. )
  26. (feed_forward): FeedForward(
  27. (w1): ColumnParallelLinear()
  28. (w2): RowParallelLinear()
  29. (w3): ColumnParallelLinear()
  30. )
  31. (attention_norm): RMSNorm()
  32. (ffn_norm): RMSNorm()
  33. )
  34. (2): TransformerBlock(
  35. (attention): Attention(
  36. (wq): ColumnParallelLinear()
  37. (wk): ColumnParallelLinear()
  38. (wv): ColumnParallelLinear()
  39. (wo): RowParallelLinear()
  40. )
  41. (feed_forward): FeedForward(
  42. (w1): ColumnParallelLinear()
  43. (w2): RowParallelLinear()
  44. (w3): ColumnParallelLinear()
  45. )
  46. (attention_norm): RMSNorm()
  47. (ffn_norm): RMSNorm()
  48. )
  49. (3): TransformerBlock(
  50. (attention): Attention(
  51. (wq): ColumnParallelLinear()
  52. (wk): ColumnParallelLinear()
  53. (wv): ColumnParallelLinear()
  54. (wo): RowParallelLinear()
  55. )
  56. (feed_forward): FeedForward(
  57. (w1): ColumnParallelLinear()
  58. (w2): RowParallelLinear()
  59. (w3): ColumnParallelLinear()
  60. )
  61. (attention_norm): RMSNorm()
  62. (ffn_norm): RMSNorm()
  63. )
  64. (4): TransformerBlock(
  65. (attention): Attention(
  66. (wq): ColumnParallelLinear()
  67. (wk): ColumnParallelLinear()
  68. (wv): ColumnParallelLinear()
  69. (wo): RowParallelLinear()
  70. )
  71. (feed_forward): FeedForward(
  72. (w1): ColumnParallelLinear()
  73. (w2): RowParallelLinear()
  74. (w3): ColumnParallelLinear()
  75. )
  76. (attention_norm): RMSNorm()
  77. (ffn_norm): RMSNorm()
  78. )
  79. (5): TransformerBlock(
  80. (attention): Attention(
  81. (wq): ColumnParallelLinear()
  82. (wk): ColumnParallelLinear()
  83. (wv): ColumnParallelLinear()
  84. (wo): RowParallelLinear()
  85. )
  86. (feed_forward): FeedForward(
  87. (w1): ColumnParallelLinear()
  88. (w2): RowParallelLinear()
  89. (w3): ColumnParallelLinear()
  90. )
  91. (attention_norm): RMSNorm()
  92. (ffn_norm): RMSNorm()
  93. )
  94. (6): TransformerBlock(
  95. (attention): Attention(
  96. (wq): ColumnParallelLinear()
  97. (wk): ColumnParallelLinear()
  98. (wv): ColumnParallelLinear()
  99. (wo): RowParallelLinear()
  100. )
  101. (feed_forward): FeedForward(
  102. (w1): ColumnParallelLinear()
  103. (w2): RowParallelLinear()
  104. (w3): ColumnParallelLinear()
  105. )
  106. (attention_norm): RMSNorm()
  107. (ffn_norm): RMSNorm()
  108. )
  109. (7): TransformerBlock(
  110. (attention): Attention(
  111. (wq): ColumnParallelLinear()
  112. (wk): ColumnParallelLinear()
  113. (wv): ColumnParallelLinear()
  114. (wo): RowParallelLinear()
  115. )
  116. (feed_forward): FeedForward(
  117. (w1): ColumnParallelLinear()
  118. (w2): RowParallelLinear()
  119. (w3): ColumnParallelLinear()
  120. )
  121. (attention_norm): RMSNorm()
  122. (ffn_norm): RMSNorm()
  123. )
  124. (8): TransformerBlock(
  125. (attention): Attention(
  126. (wq): ColumnParallelLinear()
  127. (wk): ColumnParallelLinear()
  128. (wv): ColumnParallelLinear()
  129. (wo): RowParallelLinear()
  130. )
  131. (feed_forward): FeedForward(
  132. (w1): ColumnParallelLinear()
  133. (w2): RowParallelLinear()
  134. (w3): ColumnParallelLinear()
  135. )
  136. (attention_norm): RMSNorm()
  137. (ffn_norm): RMSNorm()
  138. )
  139. (9): TransformerBlock(
  140. (attention): Attention(
  141. (wq): ColumnParallelLinear()
  142. (wk): ColumnParallelLinear()
  143. (wv): ColumnParallelLinear()
  144. (wo): RowParallelLinear()
  145. )
  146. (feed_forward): FeedForward(
  147. (w1): ColumnParallelLinear()
  148. (w2): RowParallelLinear()
  149. (w3): ColumnParallelLinear()
  150. )
  151. (attention_norm): RMSNorm()
  152. (ffn_norm): RMSNorm()
  153. )
  154. (10): TransformerBlock(
  155. (attention): Attention(
  156. (wq): ColumnParallelLinear()
  157. (wk): ColumnParallelLinear()
  158. (wv): ColumnParallelLinear()
  159. (wo): RowParallelLinear()
  160. )
  161. (feed_forward): FeedForward(
  162. (w1): ColumnParallelLinear()
  163. (w2): RowParallelLinear()
  164. (w3): ColumnParallelLinear()
  165. )
  166. (attention_norm): RMSNorm()
  167. (ffn_norm): RMSNorm()
  168. )
  169. (11): TransformerBlock(
  170. (attention): Attention(
  171. (wq): ColumnParallelLinear()
  172. (wk): ColumnParallelLinear()
  173. (wv): ColumnParallelLinear()
  174. (wo): RowParallelLinear()
  175. )
  176. (feed_forward): FeedForward(
  177. (w1): ColumnParallelLinear()
  178. (w2): RowParallelLinear()
  179. (w3): ColumnParallelLinear()
  180. )
  181. (attention_norm): RMSNorm()
  182. (ffn_norm): RMSNorm()
  183. )
  184. (12): TransformerBlock(
  185. (attention): Attention(
  186. (wq): ColumnParallelLinear()
  187. (wk): ColumnParallelLinear()
  188. (wv): ColumnParallelLinear()
  189. (wo): RowParallelLinear()
  190. )
  191. (feed_forward): FeedForward(
  192. (w1): ColumnParallelLinear()
  193. (w2): RowParallelLinear()
  194. (w3): ColumnParallelLinear()
  195. )
  196. (attention_norm): RMSNorm()
  197. (ffn_norm): RMSNorm()
  198. )
  199. (13): TransformerBlock(
  200. (attention): Attention(
  201. (wq): ColumnParallelLinear()
  202. (wk): ColumnParallelLinear()
  203. (wv): ColumnParallelLinear()
  204. (wo): RowParallelLinear()
  205. )
  206. (feed_forward): FeedForward(
  207. (w1): ColumnParallelLinear()
  208. (w2): RowParallelLinear()
  209. (w3): ColumnParallelLinear()
  210. )
  211. (attention_norm): RMSNorm()
  212. (ffn_norm): RMSNorm()
  213. )
  214. (14): TransformerBlock(
  215. (attention): Attention(
  216. (wq): ColumnParallelLinear()
  217. (wk): ColumnParallelLinear()
  218. (wv): ColumnParallelLinear()
  219. (wo): RowParallelLinear()
  220. )
  221. (feed_forward): FeedForward(
  222. (w1): ColumnParallelLinear()
  223. (w2): RowParallelLinear()
  224. (w3): ColumnParallelLinear()
  225. )
  226. (attention_norm): RMSNorm()
  227. (ffn_norm): RMSNorm()
  228. )
  229. (15): TransformerBlock(
  230. (attention): Attention(
  231. (wq): ColumnParallelLinear()
  232. (wk): ColumnParallelLinear()
  233. (wv): ColumnParallelLinear()
  234. (wo): RowParallelLinear()
  235. )
  236. (feed_forward): FeedForward(
  237. (w1): ColumnParallelLinear()
  238. (w2): RowParallelLinear()
  239. (w3): ColumnParallelLinear()
  240. )
  241. (attention_norm): RMSNorm()
  242. (ffn_norm): RMSNorm()
  243. )
  244. )
  245. (norm): RMSNorm()
  246. (output): ColumnParallelLinear()
  247. )

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/659724
推荐阅读
相关标签
  

闽ICP备14008679号