简介	这是一个从头开始实现的稀疏专家混合语言模型。灵感主要来自Andrej Karpathy的项目'makemore'，并借用了该实现的可重用组件。与makemore一样，makeMoE也是一个自回归的字符级语言模型，但使用了前述的稀疏专家混合架构。
对比	与makemore一样，pytorch是唯一的要求（所以希望从头开始的说法是合理的）。与makemore架构相比的重要变化： >> 稀疏专家混合代替独立的前馈神经网络。 >> Top-k门控和有噪声的Top-k门控实现。 >> 初始化 - 这里使用了Kaiming He初始化，但这个笔记本的目的是可黑客化的，所以你可以替换为Xavier Glorot等，并试试效果。
对比	与makemore相同的部分： >> 数据集、预处理（标记化）和Andrej最初选择的语言建模任务 - 生成类似莎士比亚的文本。 >> 因果自注意力实现 >> 训练循环 >> 推理逻辑
引用	>> "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-Of-Experts layer"：https://arxiv.org/pdf/1701.06538.pdf >> "Mixture of Experts"：https://arxiv.org/pdf/2401.04088.pdf

2、相关代码文件

makMoE_from_Scratch.ipynb文件

makMoE_from_Scratch.ipynb详细介绍了整个模型架构的直觉以及所有组件如何配合。建议从这里开始。

makeMoE_Concise.ipynb文件

makeMoE_Concise.ipynb是一个简洁的、可修改性的实现，我鼓励你去修改，理解，改进并使其成为你自己的。

makeMoE的安装和使用方法

1、基于Databricks使用单个A100进行开发

该代码完全在Databricks上使用单个A100进行开发。如果你在Databricks上运行这个代码，可以在你选择的云提供商上轻松地将其扩展到任意大的GPU集群上。

我选择使用MLFlow（在Databricks中预先安装）。这是完全开源的，你也可以在其他地方轻松pip install。我发现使用它来跟踪和记录所有必要的指标非常有帮助。这是完全可选的。

请注意，该实现强调可读性和可修改性而不是性能，因此有许多方法可以改进。请尝试并告诉我！

makeMoE的案例应用

更新中……

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

推荐阅读

article
Android多媒体功能开发(12)——使用Camera类拍照_android.hardware.camera.autofocus
使用Camera类调用摄像头进行拍照的基本流程是：打开Camera对象、设置预览控件、开始预览、拍照、停止预览、释放资源。拍照后会停止预览，所以如果需要多次拍照的话，需要再次开始预览。要切换摄像头的话，需要先释放当前摄像头，再重新打开新的摄... [详细]
赞
踩
article
window11安装docker小白教程_windows11安装docker
windows11安装docker并初步运行小白详细教程_windows11安装dockerwindows11安装dockerwindow11安装docker小白详细教程1、安装hyper-v2、安装wsl23、安装docker并初步运行1... [详细]
赞
踩
article
flask框架初学-11-解决跨域问题_flask跨域怎么解决
解决跨域问题_flask跨域怎么解决flask跨域怎么解决在前面的学习中，我们都是在本地起服务，再在本地访问资源及界面，但是实际当中都是开启多台服务器，提供给局域网外的用户访问。这就牵涉到了跨域问题，跨域问题来源于同源策略，同源策略是一种约... [详细]
赞
踩
article
FairGuard游戏加固入选《CCSIP 2023中国网络安全行业全景册（第六版）》
FairGuard游戏加固凭借多项创新技术和专业的服务，入选《CCSIP2023中国网络安全行业全景册(第六版)》「移动应用安全」、「应用加固」、「移动业务安全」、「业务反欺诈」、「威胁情报」五项细分领域。FairGuard游戏加固入选《C... [详细]
赞
踩
article
python安装anyjson模块报错
python安装anyjson报错问题解决办法python安装anyjson模块报错错误如下：Collectinganyjson==0.3.2 Downloadinganyjson-0.3.2.tar.gz(9.4kB) ... [详细]
赞
踩
article
GTX1660Ti 本地部署 Stable Diffusion踩坑记录_1660 cuda
StableDiffusion本地部署踩坑实录_1660cuda1660cuda踩坑记录通过GitHub以及csdn开始安装安装Anaconda，编译器以及CUDA、Cudnn编译器CUDA与Cudnn安装，**涉及电脑显卡的版本配置问题*... [详细]
赞
踩
article
Elasticsearch搜索引擎_搜索引擎elasticsearch
Elasticsearch搜索_搜索引擎elasticsearch搜索引擎elasticsearch目录1.Elasticsearch概述1.1搜索是什么1.2数据库做搜索弊端1.2.1 站内搜索(垂直搜索):数据量小，简单搜索，... [详细]
赞
踩
article
JavaWeb登录注册后端实现（MySQL+JDBC+Druid+Tomcat+Servlet综合应用）_servlet jdbc druid
用户登录案例需求：1.编写login.html登录页面username&password两个输入框2.编写logon.html注册页面3.使用Druid数据库连接池技术,操作mysql，USER数据库中MESSAGE表4.使用JdbcTem... [详细]
赞
踩
article
Microsoft Visual C++ 14.0 is required 的终极解决办法
在python安装包的过程中可能遇到MicrosoftVisualC++14.0isrequired的报错，原因是使用pipinstall安装的过程中需要c++编译，而且有些对编译器依赖有比较高。所以解决这种问题有两种方法。方法一也是比较快... [详细]
赞
踩
article
数据结构--树
性质3:对任何一棵二叉树T,如果其终端结点数为n0,度为2的结点数为n2,则n0=n2+1(度为0的结点数比度为2的结点数多1)二分搜索树的每个结点的值(大于其左子树的所有结点的值|小于其右子树的所有结点的值)性质1:在二叉树的第i层上至多... [详细]
赞
踩
article
基于STM32小车超声波避障实验（有代码）_超声波避障小车代码
超声波避障代码#include"sys.h" #include"delay.h" #defineEN1PAout(2)//L293D控制管脚定义#defineIN1PAout(3)//L293D控制管脚定义#defineIN2PAout(4... [详细]
赞
踩
article
Device收到通知时，通知指示灯不闪烁的问题
NotificationledDevice收到通知时，通知指示灯不闪烁的问题Issue:"ReproductionSteps:FlashthelatestproductbuildandboottosystemSendaskypecallfr... [详细]
赞
踩
article
《OpenCV3编程入门》学习笔记9 直方图与匹配（一&二）图像直方图概述&直方图的计算与绘制_opencv3第9章
第9章直方图与匹配9.1图像直方图（Histogram）概述1.作用：在每个兴趣点设置一个有相近特征的直方图所构成的标签，通过标记帧与帧之间显著的边缘、颜色、角度等特征的统计变化，来检测视频中场景的变化。2.概念：图像直方图是图像中... [详细]
赞
踩
article
德鲁伊(Druid)后台监控配置详细操作。生产环境定位问题方法_druid 1.2.16
从写System.out.println(“helloworld!”)开始，到现在我一直认为，一个项目的系统上线，完成CURD（增删改查）的代码远远不够。为便于项目快速定位问题、排查思路、压力监控、加载缓慢等疑难杂症，你们如今又留了几手去捕... [详细]
赞
踩
article
Ubuntu安装Nvidia-Docker_ubuntu nvidia-docker
Nvidia-Docker安装教程_ubuntunvidia-dockerubuntunvidia-docker安装前提：（1）已经在宿主机安装好了docker，可执行docker-v命令验证；（2）已经在宿主机上安装好了nvidia驱动，... [详细]
赞
踩
article
Docker（容器）部署安装_容器安装环境要求网络
一、Docker部署安装1、Docker的概念Docker是一个开源的应用容器引擎，让开发这可以打包他们的应用以及依赖包到一个可以移植的境相当中，然后发布到任何流行的Linux或者Windows机器上，也可以实现虚拟化。容器是完全使用沙箱机... [详细]
赞
踩
article
解决Windows10环境下ModuleNotFoundError: No module named ‘XXX‘问题_no module named 'minepy
python小白，记录一下解决此类问题的方法。以自己的报错ModuleNotFoundError:Nomodulenamed'minepy'为例进行说明。（错误尝试）根据报错提示，缺少minpy模块，首先想到去cmd或anaconda下执行... [详细]
赞
踩
article
Stable Diffusion - SD v1.6+ 版本导致 BLIP Interrogate CLIP (CLIP 反推) 功能 RuntimeError 异常_sd中反推框不见了
RuntimeError:Thesizeoftensora(2)mustmatchthesizeoftensorb(4)atnon-singletondimension0。解决方案：SD的CLIP反推功能，调用GitHub-salesfor... [详细]
赞
踩
article
爆肝整理，性能测试-场景设计/性能调优总结，一篇概全...
1、性能测试场景设计性能测试场景设计，是性能测试中的重要概念，性能测试场景设计，目的是要描述如何执行性能测试。通常来讲，性能测试场景设计主要会涉及以下部分：并发用户数是多少？测试刚开始时，以什么样的速率来添加并发用户？比如，每秒增加5个并发... [详细]
赞
踩
article
Docker仓库
仓库是集中存放镜像文件的场所。有时候会把仓库和仓库注册服务器（Registry）混为一谈，并不严格区分。实际上，仓库注册服务器上往往存放着多个仓库，每个仓库中又包含了多个镜像，每个镜像有不同的标签（tag）。仓库分为公开仓库（Public）... [详细]
赞
踩

LLM之makeMoE：makeMoE的简介、安装和使用方法、案例应用之详细攻略

makeMoE的简介

1、对比makemore

2、相关代码文件

makMoE_from_Scratch.ipynb文件

makeMoE_Concise.ipynb文件

makeMoE的安装和使用方法

1、基于Databricks使用单个A100进行开发

makeMoE的案例应用

Android多媒体功能开发(12)——使用Camera类拍照_android.hardware.camera.autofocus

window11安装docker小白教程_windows11安装docker

flask框架初学-11-解决跨域问题_flask跨域怎么解决

FairGuard游戏加固入选《CCSIP 2023中国网络安全行业全景册（第六版）》

python安装anyjson模块报错

GTX1660Ti 本地部署 Stable Diffusion踩坑记录_1660 cuda

Elasticsearch搜索引擎_搜索引擎elasticsearch

JavaWeb登录注册后端实现（MySQL+JDBC+Druid+Tomcat+Servlet综合应用）_servlet jdbc druid

Microsoft Visual C++ 14.0 is required 的终极解决办法

数据结构--树

基于STM32小车超声波避障实验（有代码）_超声波避障小车代码

Device收到通知时，通知指示灯不闪烁的问题

《OpenCV3编程入门》学习笔记9 直方图与匹配（一&二）图像直方图概述&直方图的计算与绘制_opencv3第9章

德鲁伊(Druid)后台监控配置详细操作。生产环境定位问题方法_druid 1.2.16

Ubuntu安装Nvidia-Docker_ubuntu nvidia-docker

Docker（容器）部署安装_容器安装环境要求网络

解决Windows10环境下ModuleNotFoundError: No module named ‘XXX‘问题_no module named 'minepy

Stable Diffusion - SD v1.6+ 版本导致 BLIP Interrogate CLIP (CLIP 反推) 功能 RuntimeError 异常_sd中反推框不见了

爆肝整理，性能测试-场景设计/性能调优总结，一篇概全...

Docker仓库