ai训练总结_pretrain finetune

作者：凡人多烦事01 | 2024-06-17 17:41:56

踩

pretrain finetune

batchsize算法：4*1*8卡
loss：收敛越来越小
精度如何看
没有精度值，看loss值，越来越小，收敛到一定规模（pretrain 0.00x，finetune收敛到1.7~1.8
pretrain和finetune的区别
参数规模：pretrain全参数量一起训练、lora是使用一部分参数来训练

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/凡人多烦事01/article/detail/732186

推荐阅读

article 这些内网穿透工具你都知道吗？_内网穿透软件...
在日常工作中我们需要将本地的某些端口如22803306等端口分享。让别人或者不在同一局域网内的设备访问。_内网穿透软件内...
赞
踩
article 手机远程连接window界面或ubuntu界面_安卓连接远程ubuntu桌面...
背景有些场景，可能用手机处理更方便。例如一台设备装着ubuntu系统，然后这时候手头上没有鼠标、键盘或屏幕，只知道该设备...
赞
踩
article CentOS7详细安装教程--图文介绍超详细_centos7安装教程...
本文超详细的将CentOS 7的安装过程做了详细的记录，从下载镜像文件到安装CentOS再到最后的配置，手把手教学，保证...
赞
踩
article sx：快速强大易于使用的现代化网络扫描器_linux下sx扫描器使用...
运行速度比Nmap要快30倍；ARP扫描：支持扫描本地网络以检测活动设备；ICMP扫描：使用高级ICMP扫描技术来检测活...
赞
踩
article git submodule使用方法_git submodule push...
1. submodule简介submodule是一种git特性，用以将一部分公共代码从主项目中抽离出来成为一个独立的gi...
赞
踩
article 开发者分享：20个关于Unity使用建议和技巧...
本文讲的是开发者分享：20个关于Unity使用建议和技巧，Unity 是一款非常流行的游戏开发软件。它的功能令人印象深刻...
赞
踩
article 动态规划课堂6-----回文串问题_java 算法:给你一个字符串 s ,每一次操作你都可以在字符串...
本文详细介绍了关于回文串dp问题，通过把回文串的子串是否是回文信息存储在dp表中，利用dp表再完成动态规划，本题所有例题...
赞
踩
article 分类网络知识蒸馏【附代码】_知识蒸馏代码...
知识蒸馏属于模型的压缩一种方法，但其实这种方法又属于一种伪压缩，是将一个性能较好的teacher网络“压缩”进一个性能较...
赞
踩
article python中split函数_python split...
Python中split()：split() 方法可以实现将一个字符串按照指定的分隔符切分成多个子串，这些子串会被保存到...
赞
踩
article Python+xlrd读取Excel文件_python xlrd 能读取xlsx...
xlrd是一个用于读取xls文件数据的第三方库，可以实现对指定表单、指定单元格的读取。_python xlrd 能读取x...
赞
踩
article 基于单片机智能扫地机器人控制系统设计_清扫机器人结构设计及驱动控制系统设计...
本文介绍了基于单片机的智能扫地机器人控制系统的设计，涵盖了设计背景、系统组成、工作原理、功能特点、软件设计（包括Alti...
赞
踩
article 物联网TCP、UDP、CoAP、LwM2M、MQTT协议简单对比_coap和lwm2m的区别...
物联网各协议对比，TCP、UDP、MQTT、LWm2m、Coap_coap和lwm2m的区别coap和lwm2m的区别 ...
赞
踩
article 使用deepsort重新训练自己的多目标跟踪模型，以及Market1501和MARS数据集的介绍_d...
文章目录：1、deepsort目标跟踪项目1.1 deepsort项目介绍1.2 deepsort项目的使用2 自己重新...
赞
踩
article 移动端的接口测试--代理charles使用_移动端代理测试...
1.PC端设置PC端的设置主要为Charles配置分为以下几个步骤：安装Charles具体详见抓包工具的下载进入Char...
赞
踩
article yolov5知识蒸馏1：基础原理讲解及yolov5项目实战介绍...
知识蒸馏(Knowledgedistillation)是提升网络性能的方法，通过一个教师网络指导学生网络的学习，教师网络...
赞
踩
article 自然语言处理中的语言模型预训练方法--ELMO_elmo有预训练模型吗?需要自己搭建模型然后训练吗?...
自然语言处理中的语言模型预训练方法--ELMO1.引言2. ELMO3. ELMO 方法4 ELMO使用5. 总结1.引...
赞
踩
article 轻松玩转2.5GHz 12nm双核CPU实战—Black Box...
而 FN，FS，FW，FE 则代表 Flip North，Flip South，Flip West，Flip East，...
赞
踩
article 【模型压缩】（四）——知识蒸馏_网络模型知识蒸馏过程...
一、概述一句话概括：将一个复杂模型的预测能力转移到一个较小的网络上；（复杂模型称为教师模型，较小模型称为学生模型）Tea...
赞
踩
article 定义tabbar，以及解决原生微信小程序使用vant的tabbar的bug（点击俩次图标才正确激活）...
custom-tab-bar用自定义组件的方式编写即可，用自定义组件的方式编写即可，该自定义组件完全接管 tabBar ...
赞
踩
article 华为OD刷题C卷 - 每日刷题 27（游戏分组，分配土地）_游戏分组 dfs...
它提供了一个Java类Main，其中包含main方法和getResult方法，以及一个辅助方法dfs，用于计算将10名游...
赞
踩