【大数据架构】基于流式数据的大数据架构升级

作者：2023面试高手 | 2024-06-13 08:13:01

踩

背景

团队在升级大数据架构，摒弃了原来基于hadoop的架构，因此抛弃了hive，hdfs，mapreduce这一套，在讨论和摸索中使用了新的架构。

后端使用kafka流式数据通过rest catalog写入iceberg，存储于minio。在写入iceberg的时候，首先是写data数据文件，然后再写iceberg的metadata文件，分两步走，在kafka中有两个topic，一个负责些data数据文件，一个负责些iceberg的metadata文件。

当然这样会产生大量的小文件，那么我们还有一个程序使用网易的amro来监控数据库表的data目录，设置好参数实时的去合并这些小文件，总体效果不错。

前端使用trino查询，对trino也进行了很多优化，目前测试来看，运行还算稳定，但是不可避免的trino的任务总会出现失败的情况。原来的架构是trino失败后去跑hive，而hive是跑mapreduce依赖于hadoop，新架构摒弃了hadoop，当然也没法用hive跑了，因此目前看较好的办法是使用spark sql来替代。

参考我另一边文章

【kyuubi-spark】从0-

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/711537