当前位置:   article > 正文

数据优先于模型:默默无闻的英雄们,他们解锁了真正的AI成果

数据优先于模型:默默无闻的英雄们,他们解锁了真正的AI成果

机器学习和人工智能的魅力是不可否认的。想象一下,算法从您的数据中提取见解、预测客户行为并优化运营——纯金,对吧?但是,在你为一个训练有素的科学家的职位发布之前,请考虑以下几点:为了拥有产生真实结果的成功模型,他们将需要大量干净、可靠的数据。

能够产生和维护这种坚实基础的人是不同的专业人士——数据工程师。

干净的数据助力机器学习成功

ML 模型就像优雅的赛车,一旦有了正确的数据,就能够实现惊人的壮举。但是,将一辆原始的法拉利托付给崎岖不平的田野道路是灾难的根源。这就是数据工程师的用武之地,为您的 ML/AI 铺平了真正闪耀所需的平坦沥青高速公路。

不难想象,这两个密切相关且经常重叠的工作角色可以由同一个人完成,特别是如果你是一个不了解数据的业务失败者。但是,现实情况是,这是两种不同的技能组合,都需要大量的时间和技能才能正确执行。这就像让你的沥青车也驾驶你的赛车一样。他们也许可以做到,但两项工作都不会做得很好。

数据工程师的工作

数据工程的问题在于,在团队之外,组织中的人很少知道甚至理解你在做什么,除非出现问题。不幸的是,数据管道是数据工程师的面包和黄油,就像垃圾人一样。当他们工作时,你甚至没有注意到,但当他们不工作时,它很臭

那么究竟谁是数据工程师呢?他们是:

数据耳语者:原始数据是混乱的、不一致的,并且可能存在偏见。数据工程师对这些原材料进行整理、清理和构建,以满足 ML 模型的特定需求。数据工程师处理缺失值、异常值和数据不一致等问题,确保模型仅接收最高质量的数据,以获得准确的预测和见解。关于模型,一个不幸且经常被忽视的事实是,垃圾的输入等同于垃圾的输出。因此,为您的 ML/AI 工程师提供他们取得成功所需的工具,以干净数据的畅通之路和为数据工程师提供快乐、良好的服务。

数据基础架构架构师:重要的不仅仅是道路的平整性,还有它的形式和功能。数据工程师是总体规划师,负责构建用于存储、组织和管理数据的基础架构。想想数据湖、对象存储、管道和仓库,这些都是保持数据可访问并准备好用于 ML/AI 的基本系统。ML/AI 工程师通常不接触基础设施,他们使用其他工程师设计和构建的系统。你有没有注意到,ML/AI工程师不会回答为什么他们的项目需要这么长时间的问题?他们忙于等待查询完成运行,不知道如何加快速度。

特征工程师:从原始数据中提取有意义的特征对于有效的 ML/AI 至关重要。数据工程师充当特征工程师,识别和提取捕获数据中基本模式和关系的相关特征。这些功能可作为模型理解的语言,使它们能够提出正确的问题并生成准确的见解。

数据管道优化器 数据工程师是竞赛工程师,监控和优化数据管道,确保流畅流动并最大限度地减少延迟。节省的每一毫秒都意味着更快的洞察力和更快的行动。良好的数据质量可以带来快速、正确的决策。数据质量差会导致事后讨论,试图找出问题所在。当您雇用数据工程师时,您是在招聘数据质量和可靠性。

面向未来的人:数据有一个核心事实:它永远不会变小,只会增长。数据工程师处于调整和扩展基础架构以满足这种不断增长的需求的最前沿。他们研究和实施新技术,监控数据增长和资源利用率,并确保您的数据基础设施保持强大和灵活。这些是组织中的专业人员,他们参加有关数据和分析的会议,并与其他领域的同事会面,讨论数据基础架构的趋势。不要把你的未来交到那些认为这些目标次要或不重要的专业人士手中——与数据工程师一起投资你的未来。

坚实的基础

在我们提出建议时,请考虑您的 AI 战略的基础不仅是您的人员,还包括您的平台。在高性能的开源对象存储上构建数据湖,以避免供应商锁定、查询速度慢和其他基础架构问题的陷阱。询问您的数据工程师他们更喜欢哪个平台 - 只有一个平台会在他们的列表中名列前茅,那就是 MinIO。

您会惊讶地发现,当您的数据基础设施旨在蓬勃发展而不仅仅是生存时,您的 ML/AI 工程师的旅程会更加顺畅。有问题吗?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/64960
推荐阅读
相关标签
  

闽ICP备14008679号