Guff_9hys

这个屌丝很懒，什么也没留下！

热门标签

端到端大模型 vs. 自己训练专用模型

作者：Guff_9hys | 2024-08-08 20:30:16

踩

端到端大模型

训练自己的 AI 模型比你想象的要容易得多。

我将向你展示如何仅使用基本的开发技能来做到这一点，对我们来说，这种方式比使用 OpenAI 提供的现成大型模型更快、更便宜、效果更好。

但首先，为什么不直接使用 LLM？

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、为什么不直接使用 LLM？

根据我们的经验，我们尝试将 LLM 应用于我们的问题，例如 OpenAI 的 GPT-3 或 GPT-4，但结果对我们的用例非常令人失望。它非常慢、非常昂贵、非常不可预测，并且很难定制。

因此，我们改为训练自己的模型。

这并不像我们预期的那么具有挑战性，而且由于我们的模型很小且很专业，因此结果就是它们的速度快了 1,000 倍以上，而且成本更低。

它们不仅更好地满足了我们的用例，而且更可预测、更可靠，当然，可定制性也更高。

那么，让我们来分析一下如何像我们一样训练自己的专用 AI 模型。

2、分解问题

首先，你需要将问题分解成更小的部分。在我们的案例中，我们希望采用任何 Figma 设计并将其自动转换为高质量代码。

为了解决这个问题，我们首先探索了各种选择。

3、首先尝试一个已建立的模型

我建议你首先尝试的是……基本上是我刚才建议不要做的事情，即看看你是否可以使用现有模型解决问题。

如果你发现这种方法有效，它可以使你更快地将产品推向市场并在真实用户身上进行测试，同时了解竞争对手复制这种方法的难易程度。

如果你发现这种方法对你很有效，但我提到的一些缺点（例如成本、速度或定制）会成为问题，你可以一边训练自己的模型，一边不断改进它，直到它的表现优于你首先尝试的 LLM。

但在很多情况下，你可能会发现这些流行的通用模型根本不适合你的用例。

在我们的案例中，我们尝试将 Figma 设计作为原始 JSON 数据输入，并要求另一端输出 React 组件，但坦率地说，效果非常糟糕。

我们还尝试了 GPT-4V，截取 Figma 设计的屏幕截图，并从另一端输出代码，同样，结果非常难以预测，而且往往非常糟糕。

因此，如果你不能直接拿起并使用现成的模型，那么现在我们需要探索训练我们自己的模型会是什么样子。

4、训练自己的模型

很多人直觉地认为他们应该只制作一个巨大的模型，其中输入是 Figma 设计，输出是完整的代码。我们只需应用数百万个 Figma 设计和数百万个代码片段，就可以了；AI 模型将解决我们所有的问题！

现实比这要微妙得多。

首先，训练大型模型非常昂贵。模型越大，需要的数据越多，训练和运行的成本就越高。

大型模型也需要大量时间来训练，因此随着你进行迭代和改进，你的迭代周期可能需要几天才能等待训练完成。

即使你可以负担得起那么多的时间费用，并且拥有制作这些大型复杂自定义模型所需的专业知识，你也可能无法生成所需的所有数据。

如果你在开放的网络上找不到这些数据，那么你真的会付钱给数千名开发人员，让他们手动将数百万个 Figma 设计编码到 React 或任何其他框架中吗？更不用说所有不同的样式选项，例如 tailwind、emotion 和 CSS 模块？

这只是一个难以解决的复杂问题。因此，一个为我们完成所有事情的超级模型可能不是正确的方法。至少现在不是。

5、尝试在没有AI的情况下解决你的问题

当你遇到这样的问题时，我强烈建议你尝试将钟摆摆到另一端，尽可能地在不使用AI的情况下解决尽可能多的问题。

这迫使你将问题分解成许多离散的部分，你可以为这些部分编写正常的传统代码，看看你能解决到什么程度。

根据我的经验，无论你认为你能解决到什么程度，只要经过一些迭代和创造性，你就能取得比你想象的更远的成就。

当我们尝试将这个问题分解成简单的代码时，我们意识到我们必须解决几个不同的具体问题。

我们发现，五个问题中至少有两个问题可以用代码轻松解决：将样式应用于 Figma 和 CSS/原生样式，以及从预定义的布局层次结构生成基本代码。

我们遇到的挑战是在其他三个领域：识别图像、构建布局层次结构和自定义最终代码输出。

因此，让我们迈出识别图像的第一步，并介绍如何训练我们自己的专用模型来解决这个用例。

6、训练专用模型

如今，训练自己的模型实际上只需要两个关键要素。首先，你需要确定适合你的用例的模型类型；其次，你需要生成大量数据示例。

在我们的案例中，我们能够找到人们训练的一种非常常见的模型类型，即对象检测模型，它可以拍摄图像并返回一些在其中包含特定类型对象的边界框。

因此我们问自己，我们是否可以在一个稍微新颖的用例上进行训练，即采用 Figma 设计，它在整个过程中使用了数百个矢量，但对于我们的网站或移动应用程序，其中某些组应该被压缩成一张图像，它能否识别这些图像点的位置，以便我们可以将它们压缩成一个并相应地生成代码。

因此，这引出了第二步。我们需要生成大量示例数据，并查看相应地训练此模型是否适合我们的用例。

7、生成数据集

因此，我们想，等一下，我们能从某个地方，某个公开且免费的地方获取这些数据吗？

就像 OpenAI 等工具所做的那样，它们在网络和 GitHub 上抓取大量公开数据，并将其用作训练的基础。

最终，我们意识到，是的！

我们编写了一个简单的爬虫，它使用无头浏览器将网站拉入其中，然后评估页面上的一些 JavaScript 以识别图像的位置及其边界框，这能够非常快速地为我们生成大量训练数据。

现在，请记住一件至关重要的事情：模型的质量完全取决于数据的质量。

让我大声说出来：

模型的质量完全取决于数据的质量

不要犯这样的错误：在不完美的数据上花费昂贵的训练时间，最终只会给你（在最好的情况下）一个不完美的模型，其准确性仅与输入的数据一样。

因此，在我们生成的数百个示例中，我们手动检查并使用工程师来验证每个边界框每次都是正确的，并使用可视化工具随时纠正不正确的情况。

根据我的经验，这可能成为机器学习中最复杂的领域之一。即构建自己的工具来生成、QA 和修复数据，以确保数据集尽可能完美，从而使你的模型具有最高质量的信息。

现在，就这个对象检测模型而言，幸运的是，我们使用了 Google 的 Vertex AI，它内置了该工具。

事实上，我们通过 Vertex AI 上传了所有数据并训练模型，甚至根本不需要在代码中执行这些操作。

8、开始训练

你可以使用许多工具来训练自己的模型，从托管云服务到大量优秀的开源库。我们之所以选择 Vertex AI，是因为它让我们能够非常轻松地选择模型类型、上传数据、训练模型并部署模型。

因此，我将详细介绍我们如何使用 Vertex AI 做到这一点，但实际上，相同的步骤可以应用于任何类型的训练。

要开始训练，首先我们需要将数据集上传到 Google Cloud。

你需要做的就是转到 Google Cloud 控制台的 Vertex AI 部分并上传我们的数据集：

你可以通过从计算机中选择文件来手动完成此操作，然后使用其可视化工具来概述对我们重要的区域，这是一个巨大的帮助，我们不必自己构建。

或者在我们的例子中，因为我们以编程方式生成了所有数据，所以我们可以以这种格式将其上传到 Google Cloud，你可以在其中提供图像的路径，然后列出要识别的对象的边界框。


{
  "imageGcsUri": "gs://ml-image-data-test/test1/Visual%20Editor%20%7C%20Builder.io.png",
  "boundingBoxAnnotations": [
    {
      "displayName": "image",
      "yMin": 0.0083,
      "xMin": 0.01465,
      "yMax": 0.03955,
      "xMax": 0.12695
    },
    {
      "displayName": "image",
      "yMin": 0.2998,
      "xMin": 0.01953,
      "yMax": 0.3918,
      "xMax": 0.32129
    },
    ...
  ]
}