当前位置:   article > 正文

PointNet系列代码复现详解(1)—PointNet分类部分_pointnet++复现

pointnet++复现

想尽快入门点云,因此就从这个经典的点云处理神经网络开始。源码已经有了中文注释,但在一些对于自己不理解的地方添加了一些注释。欢迎大家一起讨论。

代码是来自githubGitHub - yanx27/Pointnet_Pointnet2_pytorch: PointNet and PointNet++ implemented by pytorch (pure python) and on ModelNet, ShapeNet and S3DIS.

PointNet系列代码复现详解(2)—PointNet++part_seg_葭月甘九的博客-CSDN博客

先学习的是分类部分代码

train_classification.py

下面代码就是获取当前文件所在的路径,赋值给BASE_DIRROOT_DIR被赋值为BASE_DIR,表示当前文件所在的目录为根目录。将models目录添加到根目录下,并使用sys.path.append()将该路径添加到Python解释器的搜索路径中,以便于在程序中导入models目录下的模块和类。

  1. BASE_DIR = os.path.dirname(os.path.abspath(__file__))
  2. ROOT_DIR = BASE_DIR
  3. sys.path.append(os.path.join(ROOT_DIR, 'models'))

下面就是一些命令行参数,设置一些训练网络的基本参数

比如是否使用GPU,训练批次大小,模型,训练总轮数,以及优化器,训练日志保存路径等等。具体看代码后。

  1. def parse_args():
  2. '''PARAMETERS'''
  3. parser = argparse.ArgumentParser('training')
  4. parser.add_argument('--use_cpu', action='store_true', default=False, help='use cpu mode')
  5. parser.add_argument('--gpu', type=str, default='0', help='specify gpu device')
  6. parser.add_argument('--batch_size', type=int, default=24, help='batch size in training')
  7. parser.add_argument('--model', default='pointnet_cls', help='model name [default: pointnet_cls]')
  8. parser.add_argument('--num_category', default=40, type=int, choices=[10, 40], help='training on ModelNet10/40')
  9. parser.add_argument('--epoch', default=200, type=int, help='number of epoch in training')
  10. parser.add_argument('--learning_rate', default=0.001, type=float, help='learning rate in training')
  11. parser.add_argument('--num_point', type=int, default=1024, help='Point Number')
  12. parser.add_argument('--optimizer', type=str, default='Adam', help='optimizer for training')
  13. parser.add_argument('--log_dir', type=str, default=None, help='experiment root')
  14. parser.add_argument('--decay_rate', type=float, default=1e-4, help='decay rate')
  15. parser.add_argument('--use_normals', action='store_true', default=False, help='use normals')
  16. parser.add_argument('--process_data', action='store_true', default=False, help='save data offline')
  17. parser.add_argument('--use_uniform_sample', action='store_true', default=False, help='use uniform sampiling')
  18. return parser.parse_args()
  • --use_cpu:是否使用CPU模式。
  • --gpu:指定GPU设备的编号。
  • --batch_size:训练时的批大小。
  • --model:指定使用的模型名称。
  • --num_category:指定数据集的类别数,可选值为10和40。
  • --epoch:训练的轮数。
  • --learning_rate:学习率。
  • --num_point:点云中的点数。
  • --optimizer:优化器类型,默认为Adam。
  • --log_dir:实验的根目录。
  • --decay_rate:衰减率。
  • --use_normals:是否使用法向量。
  • --process_data:是否将数据离线保存。
  • --use_uniform_sample:是否使用均匀采样策略

下面就是主函数里网络训练的设置

1.log_string(str)用于记录训练数据,然后是读取命令行参数,调用gpu

  1. def log_string(str):
  2. logger.info(str)
  3. print(str)
  4. '''调用显卡 gpu'''
  5. os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu

下面就是创建训练记录文件夹,记录训练过程的信息 

  1. '''CREATE DIR'''
  2. # 创建文件夹 记录信息
  3. timestr = str(datetime.datetime.now().strftime('%Y-%m-%d_%H-%M')) # 获取当前时间并转换为标准字符串(年-月-日-时-分)
  4. exp_dir = Path('./log/') # 使用 Path 类创建一个路径对象 exp_dir,指定日志文件存储的根目录为 './log/'
  5. exp_dir.mkdir(exist_ok=True) # 目录存在正常返回,不存在创建
  6. exp_dir = exp_dir.joinpath('classification') # 在 exp_dir 变量所代表的目录路径下创建一个名为 'classification' 的子目录
  7. exp_dir.mkdir(exist_ok=True)
  8. if args.log_dir is None:
  9. exp_dir = exp_dir.joinpath(timestr)
  10. else:
  11. exp_dir = exp_dir.joinpath(args.log_dir)
  12. exp_dir.mkdir(exist_ok=True)
  13. checkpoints_dir = exp_dir.joinpath('checkpoints/')
  14. checkpoints_dir.mkdir(exist_ok=True)
  15. log_dir = exp_dir.joinpath('logs/')
  16. log_dir.mkdir(exist_ok=True)
  1. '''LOG 日志记录'''
  2. args = parse_args()
  3. logger = logging.getLogger("Model") # 创建了一个名为 "Model" 的日志记录器 logger
  4. logger.setLevel(logging.INFO) # 设置了日志记录器 logger 的日志级别为 INFO,即只记录 INFO 级别及以上的日志信息。
  5. formatter = logging.Formatter(
  6. '%(asctime)s - %(name)s - %(levelname)s - %(message)s') # 日志格式化器 设置日志记录的格式。 时间-记录器名称-日志级别-内容
  7. file_handler = logging.FileHandler('%s/%s.txt' % (log_dir, args.model)) # 文件处理器,用于将日志信息写入到文件中
  8. file_handler.setLevel(logging.INFO)
  9. file_handler.setFormatter(formatter)
  10. logger.addHandler(file_handler)
  11. log_string('PARAMETER ...')
  12. log_string(args)

数据读取

  1. '''DATA LOADING'''
  2. log_string('Load dataset ...')
  3. data_path = 'data/modelnet40_normal_resampled/'
  4. train_dataset = ModelNetDataLoader(root=data_path, args=args, split='train', process_data=args.process_data)
  5. test_dataset = ModelNetDataLoader(root=data_path, args=args, split='test', process_data=args.process_data)
  6. # 分批训练数据 打乱输入的数据 开4线程 可丢弃一些数据
  7. trainDataLoader = torch.utils.data.DataLoader(train_dataset, batch_size=args.batch_size, shuffle=True,
  8. num_workers=4, drop_last=True)
  9. # 分批测试数据 不打乱输入的数据 开4线程
  10. testDataLoader = torch.utils.data.DataLoader(test_dataset, batch_size=args.batch_size, shuffle=False,
  11. num_workers=4)

 下面代码就是把训练的模型复制到对应的目录下,以便以后查看和对比,然后就获取对应的分类模型以及损失函数,激活函数。

  1. '''MODEL LOADING '''
  2. num_class = args.num_category
  3. model = importlib.import_module(args.model)
  4. shutil.copy('./models/%s.py' % args.model, str(exp_dir))
  5. shutil.copy('models/pointnet2_utils.py', str(exp_dir))
  6. shutil.copy('./train_classification.py', str(exp_dir))
  7. # 定义了模型、损失函数和激活函数。
  8. classifier = model.get_model(num_class, normal_channel=args.use_normals)
  9. criterion = model.get_loss()
  10. classifier.apply(inplace_relu)

 使用gpu训练,并且查看是否有预训练模型。

  1. # gpu训练
  2. if not args.use_cpu:
  3. classifier = classifier.cuda()
  4. criterion = criterion.cuda()
  5. try:
  6. checkpoint = torch.load(str(exp_dir) + '/checkpoints/best_model.pth')
  7. start_epoch = checkpoint['epoch']
  8. classifier.load_state_dict(checkpoint['model_state_dict']) # 将模型的参数设置为加载的状态字典
  9. log_string('Use pretrain model')
  10. except:
  11. log_string('No existing model, starting training from scratch...') # 无预训模型
  12. start_epoch = 0

这里就是优化器选择,以及一些优化器参数的设置

  1. # 优化器
  2. if args.optimizer == 'Adam':
  3. optimizer = torch.optim.Adam(
  4. classifier.parameters(),
  5. lr=args.learning_rate,
  6. betas=(0.9, 0.999),
  7. eps=1e-08,
  8. weight_decay=args.decay_rate
  9. )
  10. else:
  11. optimizer = torch.optim.SGD(classifier.parameters(), lr=0.01, momentum=0.9)
  1. # 调度器 防止陷入训练循环
  2. # 将 optimizer 设置为之前定义的 Adam 优化器,step_size 设置为 20,gamma 设置为 0.7,表示每隔 20 个 epoch,将学习率乘以 0.7 进行调整。
  3. scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=20, gamma=0.7)
  4. global_epoch = 0
  5. global_step = 0
  6. best_instance_acc = 0.0
  7. best_class_acc = 0.0

下面就是主要训练网络片段 ,可以查看注释。上面一些基本工作准备完成后,开始训练。主要就是先记录一下训练轮次等基本信息,开启训练模式,更新学习率,然后开始一轮训练,优化器清零,然后数据增强,然后进行训练,一轮训练结束后会进行一次检测,最后检测结果与以前训练数据进行比较,保存最好的那个。

  1. '''TRANING'''
  2. logger.info('Start training...')
  3. for epoch in range(start_epoch, args.epoch):
  4. log_string('Epoch %d (%d/%s):' % (global_epoch + 1, epoch + 1, args.epoch))
  5. mean_correct = [] # 存储每个 batch 中预测正确的样本数
  6. classifier = classifier.train() # 训练模式
  7. # 更新当前的学习率。在每个 epoch 结束时,调用 scheduler.step() 方法,将当前 epoch 的信息传递给学习率调度器,从而更新当前的学习率。
  8. scheduler.step()
  9. # tqdm进度条
  10. for batch_id, (points, target) in tqdm(enumerate(trainDataLoader, 0), total=len(trainDataLoader),
  11. smoothing=0.9):
  12. # 优化器清零
  13. optimizer.zero_grad()
  14. # 数据增强
  15. points = points.data.numpy()
  16. points = provider.random_point_dropout(points) # 随机点丢失
  17. points[:, :, 0:3] = provider.random_scale_point_cloud(points[:, :, 0:3]) # 随机缩放
  18. points[:, :, 0:3] = provider.shift_point_cloud(points[:, :, 0:3]) # 随机偏移
  19. points = torch.Tensor(points) # 将 points 转换为 Tensor
  20. points = points.transpose(2, 1) # (24,1024,4)->(24,3,1024) 转置
  21. # 用于检查是否使用CPU模式,如果没有指定使用CPU模式,则将点云数据和目标值加载到GPU上进行训练。
  22. if not args.use_cpu:
  23. points, target = points.cuda(), target.cuda()
  24. pred, trans_feat = classifier(points)
  25. loss = criterion(pred, target.long(), trans_feat)
  26. pred_choice = pred.data.max(1)[1]
  27. # 准确率 可以使用sklearn
  28. correct = pred_choice.eq(target.long().data).cpu().sum()
  29. mean_correct.append(correct.item() / float(points.size()[0]))
  30. loss.backward()
  31. optimizer.step()
  32. global_step += 1
  33. train_instance_acc = np.mean(mean_correct)
  34. log_string('Train Instance Accuracy: %f' % train_instance_acc)
  35. # 模式测试 classifier.eval()用于将模型设置为评估模式
  36. with torch.no_grad():
  37. instance_acc, class_acc = test(classifier.eval(), testDataLoader, num_class=num_class)
  38. # 保存训练参数 通用写法
  39. if (instance_acc >= best_instance_acc):
  40. best_instance_acc = instance_acc
  41. best_epoch = epoch + 1
  42. if (class_acc >= best_class_acc):
  43. best_class_acc = class_acc
  44. log_string('Test Instance Accuracy: %f, Class Accuracy: %f' % (instance_acc, class_acc))
  45. log_string('Best Instance Accuracy: %f, Class Accuracy: %f' % (best_instance_acc, best_class_acc))
  46. if (instance_acc >= best_instance_acc):
  47. logger.info('Save model...')
  48. savepath = str(checkpoints_dir) + '/best_model.pth'
  49. log_string('Saving at %s' % savepath)
  50. state = {
  51. 'epoch': best_epoch,
  52. 'instance_acc': instance_acc,
  53. 'class_acc': class_acc,
  54. 'model_state_dict': classifier.state_dict(),
  55. 'optimizer_state_dict': optimizer.state_dict(),
  56. }
  57. torch.save(state, savepath)
  58. global_epoch += 1

 然后这是测试部分,部分代码解释见后面:

  1. def test(model, loader, num_class=40):
  2. mean_correct = []
  3. class_acc = np.zeros((num_class, 3))
  4. classifier = model.eval() # 模型设置为评估模式
  5. for j, (points, target) in tqdm(enumerate(loader), total=len(loader)):
  6. if not args.use_cpu:
  7. points, target = points.cuda(), target.cuda()
  8. points = points.transpose(2, 1) # 将点云数据的坐标轴从(x,y,z)转换为(x,z,y)的顺序,这是因为在点云数据处理中,通常将y轴作为垂直方向
  9. pred, _ = classifier(points)
  10. pred_choice = pred.data.max(1)[1]
  11. for cat in np.unique(target.cpu()):
  12. classacc = pred_choice[target == cat].eq(target[target == cat].long().data).cpu().sum()
  13. class_acc[cat, 0] += classacc.item() / float(points[target == cat].size()[0])
  14. class_acc[cat, 1] += 1
  15. correct = pred_choice.eq(target.long().data).cpu().sum()
  16. mean_correct.append(correct.item() / float(points.size()[0]))
  17. class_acc[:, 2] = class_acc[:, 0] / class_acc[:, 1]
  18. class_acc = np.mean(class_acc[:, 2])
  19. instance_acc = np.mean(mean_correct)
  20. return instance_acc, class_acc

代码首先使用np.unique()方法获取目标值中的不同类别。代码先通过target == cat选出该类别对应的样本,然后使用pred_choice[target == cat]获取分类器在该类别上的预测结果,target[target == cat].long().data获取该类别中所有样本的目标值,并使用eq()方法比较分类器的预测结果和目标值是否相等。接着,使用cpu().sum()方法计算分类正确的样本数,再除以该类别中的总样本数,即可得到分类器在该类别上的准确率。最后,将该类别的准确率和样本数量保存到class_acc数组中。其中,class_acc是一个二维数组,其形状为(num_class, 2),表示每个类别的准确率和样本数量。第一列表示每个类别的准确率,第二列表示每个类别中的总样本数。

  1. for cat in np.unique(target.cpu()):
  2. classacc = pred_choice[target == cat].eq(target[target == cat].long().data).cpu().sum()
  3. class_acc[cat, 0] += classacc.item() / float(points[target == cat].size()[0])
  4. class_acc[cat, 1] += 1
  5. unqiue()示例:
  6. arr = np.array([1, 2, 3, 2, 4, 5, 4, 6])
  7. unique_arr = np.unique(arr)
  8. print(unique_arr)
  9. 结果:[1 2 3 4 5 6]

 pointnet_cls.py

下面就是分类的整个网络,第一个if判断用于根据是否包含法向量信息来确定输入数据的通道数。具体而言,如果normal_channelTrue,则输入数据包含法向量信息,通道数为6;否则,输入数据不包含法向量信息,通道数为3。之后就是一些基本网络组成块。在前向传播中,首先先进行从输入点云数据中提取特征,其中通过global_feat=True指定输出全局特征,即对输入点云数据进行全局特征池化;通过feature_transform=True指定使用特征变换模块,即对提取出的特征进行空间变换,增强模型的鲁棒性;通过channel=channel指定输入数据的通道数,即根据输入数据是否包含法向量信息来确定通道数。获取到特征后就是全连接层,最后输出的是类别。

  1. class get_model(nn.Module):
  2. def __init__(self, k=40, normal_channel=True):
  3. super(get_model, self).__init__()
  4. if normal_channel:
  5. channel = 6
  6. else:
  7. channel = 3
  8. self.feat = PointNetEncoder(global_feat=True, feature_transform=True, channel=channel)
  9. self.fc1 = nn.Linear(1024, 512)
  10. self.fc2 = nn.Linear(512, 256)
  11. self.fc3 = nn.Linear(256, k)
  12. self.dropout = nn.Dropout(p=0.4)
  13. self.bn1 = nn.BatchNorm1d(512)
  14. self.bn2 = nn.BatchNorm1d(256)
  15. self.relu = nn.ReLU()
  16. def forward(self, x):
  17. x, trans, trans_feat = self.feat(x)
  18. x = F.relu(self.bn1(self.fc1(x)))
  19. x = F.relu(self.bn2(self.dropout(self.fc2(x))))
  20. x = self.fc3(x)
  21. x = F.log_softmax(x, dim=1)
  22. return x, trans_feat

损失函数  交叉熵损失+正交化规范处理的损失

  1. class get_loss(torch.nn.Module):
  2. def __init__(self, mat_diff_loss_scale=0.001):
  3. super(get_loss, self).__init__()
  4. self.mat_diff_loss_scale = mat_diff_loss_scale
  5. def forward(self, pred, target, trans_feat):
  6. loss = F.nll_loss(pred, target)
  7. mat_diff_loss = feature_transform_reguliarzer(trans_feat)
  8. total_loss = loss + mat_diff_loss * self.mat_diff_loss_scale
  9. return total_loss

 pointnet_utils.py

 下面就是特征提取的代码

  1. class PointNetEncoder(nn.Module):
  2. def __init__(self, global_feat=True, feature_transform=False, channel=3):
  3. super(PointNetEncoder, self).__init__()
  4. self.stn = STN3d(channel)
  5. self.conv1 = torch.nn.Conv1d(channel, 64, 1)
  6. self.conv2 = torch.nn.Conv1d(64, 128, 1)
  7. self.conv3 = torch.nn.Conv1d(128, 1024, 1)
  8. self.bn1 = nn.BatchNorm1d(64)
  9. self.bn2 = nn.BatchNorm1d(128)
  10. self.bn3 = nn.BatchNorm1d(1024)
  11. self.global_feat = global_feat
  12. self.feature_transform = feature_transform
  13. if self.feature_transform:
  14. self.fstn = STNkd(k=64)
  15. def forward(self, x):
  16. B, D, N = x.size()
  17. trans = self.stn(x)
  18. x = x.transpose(2, 1) # 交换2,3维
  19. # 判断D的大小是因为在使用空间变换网络(STN)对输入图像进行变换时,只需要对图像的空间维度进行变换,而不需要对通道维度进行变换。
  20. # 因此,如果输入图像的通道数大于3,则需要将通道数超过3的部分分离出来,并在变换后再次拼接回去,以保持通道数不变。
  21. # 因此,如果输入图像的通道数小于等于3,则不需要进行通道数的分离和拼接操作,否则需要进行相应的操作,以保证空间变换网络的正确性。
  22. if D > 3:
  23. feature = x[:, :, 3:]
  24. x = x[:, :, :3]
  25. x = torch.bmm(x, trans)
  26. if D > 3:
  27. x = torch.cat([x, feature], dim=2)
  28. x = x.transpose(2, 1)
  29. x = F.relu(self.bn1(self.conv1(x)))
  30. if self.feature_transform:
  31. trans_feat = self.fstn(x)
  32. x = x.transpose(2, 1)
  33. x = torch.bmm(x, trans_feat)
  34. x = x.transpose(2, 1)
  35. else:
  36. trans_feat = None
  37. pointfeat = x
  38. x = F.relu(self.bn2(self.conv2(x)))
  39. x = self.bn3(self.conv3(x))
  40. x = torch.max(x, 2, keepdim=True)[0]
  41. x = x.view(-1, 1024)
  42. if self.global_feat:
  43. return x, trans, trans_feat
  44. else:
  45. x = x.view(-1, 1024, 1).repeat(1, 1, N)
  46. return torch.cat([x, pointfeat], 1), trans, trans_feat

 下面就是特征提取当中第一个T-Net网络,第二天T-Net网络大同小异,只是改变了输入和输出。

  1. class STN3d(nn.Module):
  2. def __init__(self, channel):
  3. super(STN3d, self).__init__()
  4. self.conv1 = torch.nn.Conv1d(channel, 64, 1)
  5. self.conv2 = torch.nn.Conv1d(64, 128, 1)
  6. self.conv3 = torch.nn.Conv1d(128, 1024, 1)
  7. self.fc1 = nn.Linear(1024, 512)
  8. self.fc2 = nn.Linear(512, 256)
  9. self.fc3 = nn.Linear(256, 9)
  10. self.relu = nn.ReLU()
  11. self.bn1 = nn.BatchNorm1d(64)
  12. self.bn2 = nn.BatchNorm1d(128)
  13. self.bn3 = nn.BatchNorm1d(1024)
  14. self.bn4 = nn.BatchNorm1d(512)
  15. self.bn5 = nn.BatchNorm1d(256)
  16. def forward(self, x):
  17. batchsize = x.size()[0]
  18. x = F.relu(self.bn1(self.conv1(x)))
  19. x = F.relu(self.bn2(self.conv2(x)))
  20. x = F.relu(self.bn3(self.conv3(x)))
  21. x = torch.max(x, 2, keepdim=True)[0]
  22. x = x.view(-1, 1024)
  23. x = F.relu(self.bn4(self.fc1(x)))
  24. x = F.relu(self.bn5(self.fc2(x)))
  25. x = self.fc3(x)
  26. iden = Variable(torch.from_numpy(np.array([1, 0, 0, 0, 1, 0, 0, 0, 1]).astype(np.float32))).view(1, 9).repeat(
  27. batchsize, 1)
  28. if x.is_cuda:
  29. iden = iden.cuda()
  30. x = x + iden
  31. x = x.view(-1, 3, 3)
  32. return x

test_classification.py 这个测试文件里的就是加载刚刚训练的最好模型,与训练的代码大同小异,就没有看,如果有时间看了再更新吧。 

下面是分类网络鉴于个人理解画的图,如有错误,欢迎指正。 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/101780
推荐阅读
相关标签
  

闽ICP备14008679号