IT小白

这个屌丝很懒，什么也没留下！

热门标签

建筑类AIGC图像微调模型（LoRA）训练经验介绍_lora建筑模型训练

作者：IT小白 | 2024-08-06 06:22:56

踩

lora建筑模型训练

前言

AIGC大模型正广泛应用于各行业，包括建筑设计。运用这些大模型，设计师可以在设计早期阶段进行方案探索和优化，提高设计效率和满足实际需求。然而，要充分发挥大模型的优势，需要进行微调以适应特定设计任务。这是一项技术挑战，也是创新机会。

AIGC大模型辅助方案设计

LoRA（Low-Rank Adaptation，低秩自适应）是目前最常用的图像大模型微调方法，其背后的原理是通过识别和删除大模型中的冗余信息，创建一个更有效的模型，保留其原始性能，但只需要更少的资源来训练。

目前开源的LoRA模型已经丰富，但不能完全满足多样化的设计需求。因此，通常需要根据具体需求来训练和优化模型。

国内某AI模型网站

根据经验，像建筑风格/建筑师/建筑材料（幕墙、砖、半透明材料）/ 建筑类型（体育场、乡建、更新）/ 场景类型（景观、室内、鸟瞰、中庭）都是可以训练的。

通常lora训练包括素材图片准备，素材图片打标，训练工具设置这三步，下面将分别进行介绍。

步骤一：素材图片准备

想要训练一个有效的lora模型，训练集图片素材的选择是至关重要的。通过前期对素材的筛选，可以让AI更准确地学习，从而提高模型训练的成功率。就好像质量高、覆盖面广的教材，可以更好地提高小朋友的知识水平一样。

通常一个训练集大概需要30-100张图片，一般来说，训练越简单的概念，需要的图片数越少。

根据经验，可以从以下四个方面来判断素材是否满足要求：

1. 图片是否清晰

2. 特征是否显著

3. 边缘是否明确

4. 环境是否稳定

首先是图片是否清晰，这个比较好理解的。越清晰、分辨率越高的图片，包含越多的图像信息，即使AI出现学习效率不高的情况，依然可以学到不少图片信息。分辨率下限是512，越高越好。

然后是特征是否显著，这个可以理解为你想要训练的概念，对应的特征信息在图片上的占比。不同的训练目标，占比是不太一样的。以训练建筑类lora为例，建筑是无法与环境脱离开的，所以选择建筑类训练素材时，除了主体外一定要有一定的建筑环境。如果是训练建筑概念，建筑主体的比例可以大一些，如果是训练画风或者鸟瞰视角，环境的比例可以大一些。具体的配比相对主观，根据经验可以以1/3为单位去调整。当然也没必要太精确，毕竟炼丹本身就是玄学…

之后边缘与环境的要求，其实都是对特征是否显著的补充。边缘越清晰，越能将不同的特征区分开。在叠加controlnet进行生图时，也能更好地匹配lora模型中的特征。环境越稳定，特征就越统一。比如说阴天的铝板反射低，就不太容易和涂料墙面区分开，AI就可能学错特征。

特别说明一下，以上的选图策略，都是针对相对单一的概念训练的（单一建筑师风格，甚至某个特定项目的风格），最终生图的风格会比较固定。如果想要追求泛化性，玄学成分更高，失败的概率也比较大，建议先从单一概念练手。

**步骤二：**素材图片打标

训练集图片选择后，需要进行“打标”，即添加文字描述，帮助AI模型理解图片特征，如物体形状、颜色、位置，场景环境，图片风格等。打标原则是越详细越好，以提供丰富的特征描述，使AI模型从多角度理解图片。例如，建筑设计图不仅可标注类型、风格，还可标注材料、结构，让AI模型生成更符合设计需求的方案。

打标的过程也是一个需要精细工作和专业知识的过程。既要根据训练需求选择合适的标注，又要保证标注的质量和一致性，以避免引入误导性的信息。

市面上的打标工具有很多，目前我尝试过的效果不错的打标器有Qwen-vl-max，gemini-pro-vision，gpt4-vision，以这张水上乐园的图片为例，各个打标器的对比效果如下：

水上乐园-由MJv6生成

打标效果对比

很明显GPT4V打的标最详细，不过考虑到易用性及成本，建议使用国产大模型Qwen-vl-max,效果也是很不错的。

打标器生成图片相应的tag后，还需要人工处理。主要包括两点，一是按重要性由高到低将tag排序，二是把含糊、笼统、错误的tag删掉，并补充重要的tag。以上面Qwen打标的水上乐园的图片tag为例，人工处理后为：

Pirates theme, wooden buildings, water park, boat, slide, lighthouse, castle, fantasy architecture, turquoise water, red slide, flags, sunny, first-person perspective

海盗主题，水上乐园，木制建筑，船，滑梯，灯塔，城堡，奇幻建筑，绿松石水，红色滑梯，旗帜，晴天，第一人称视角

因为训练的是海盗主题水上乐园，所以将这个tag放到了最前面，接下来是对建筑的描述，后面是对配景的描述，最后补充了天气和景别的描述，这样组成了一串完整的图片tag。

最后将所有图片和tag的文本文件放到同一个文件夹里，就组成了我们的训练集。

步骤三：训练工具设置

接下来就是设置训练工具了，目前最受好评的是秋叶的公开免费训练脚本，这个工具版本更新快，防呆设计优秀，同时参数调整基本能满足一般lora训练及进阶训练所需。

目前我们也在开发自有训练平台中，会内置更适合建筑类lora的训练参数，进一步训练LoRA的门槛。

即使到最低的训练门槛，仍然有几个至关重要的训练参数不得不理解一下：

1. 单张重复次数（repeat），即AI在每张图片上学习的次数，通常越写实的训练集，学习次数越高，建筑类通常在20-50次之间。在秋叶脚本中，需在在训练集文件夹前增加一个数字前缀，即参数repeat

2. 循环轮次（epochs），即整个训练过程中，在训练集上循环学习的次数。假设最大训练epoch为10，即训练过程中将会进行10次完整的训练集循环。这个参数可以根据实际情况进行调整，以达到更好的模型效果。对于建筑类的训练，通常的循环轮次在10次左右。

3. 每 N epoch（轮）自动保存一次模型，会在整个训练过程中随着循环训练的次数保存多个模型，假设epochs是10，每2轮保存一次模型，最后会保存10/2=5个模型，这样我们可以对多个模型进行测试，从而找到最合适的epoch。

4. 学习率（lr），学习率是训练神经网络时一个很重要的超参数，控制着权重的更新速度。用通俗的话来理解，学习率越高，学习得越全面，但容易以偏盖全，学不到各个素材间的共同点。学习率越低，会更容易获取整体特征，但也容易囫囵吞枣，理解不够深刻。因此，学习率的大小需要根据具体情况进行调整，以获得最佳的学习效果。通常建筑类可以设置为8e-5（科学计数法，即0.00008），以2e-5为一个单位进行上下调整。

如何判断一个模型训练是否成功？

最有效的方法是直接测试模型生图效果，看是否能够还原出自己想要训练的特征。这里可以使用SD中的XY plot对循环过程过程中的多个模型进行对比测试，找到效果最好的模型。

另外还可以通过观察和分析学习曲线，帮助我们判断模型的学习效果和性能。学习曲线是以训练轮次（epochs）为横坐标，以模型的学习指标（损失值loss）为纵坐标绘制的曲线。通过观察学习曲线，我们可以了解模型的学习进度和状态，从而进行合理的参数调整和优化。这里主要需要留意学习曲线的形状及每次模型保存的loss值。

1. 观察学习曲线的形状

学习曲线的平滑度反映学习率的合理性，平滑曲线意味着合适的学习率和训练集特征统一性。学习率决定模型权重更新速度，过高或过低的学习率可能导致曲线剧烈震荡。

训练集大小影响学习曲线形状，更多的图片可能导致震荡，因为增加了模型的学习复杂度。建议从少量图片和简单概念开始训练，降低学习难度，稳定模型学习。

2. 观察每次模型保存的loss值

损失值（LOSS）是衡量模型预测与实际标签差异的重要指标。理论上，损失值越低，模型的学习效果越好，预测结果与训练集特征越接近。但在实际应用中，过低的损失值可能导致模型过度拟合训练数据，忽视数据的一般性特征，从而降低对新数据的预测性能。因此，需要找到一个合适的损失值，既能学习训练数据的特征，又能保持对新数据的预测性能。

对于建筑类的LoRA模型训练，通常来说，损失值在0.04上下是比较合适的。这个值可以作为一个参考标准，但具体的合适损失值还需要对LoRA的生图效果进行对比测试，最终找到效果最优的模型。

训练和应用建筑类AIGC图像微调模型（LoRA），对建筑师来说是一个全新的领域，需要设计师理解训练原理，精心准备训练素材，多次调整训练参数，并通过不断的试验和调整，找到最能还原设计特征的模型。

希望这篇文章能为您在这个过程中提供有价值的参考和帮助。同时，我们也在开发自有训练平台，降低训练门槛，让设计师可以更多地关注到设计本身，更好地利用AI技术，实现更优秀的建筑设计。

写在最后

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

感兴趣的小伙伴，赠送全套AIGC学习资料和安装工具，包含AI绘画、AI人工智能等前沿科技教程，模型插件，具体看下方。