当前位置:   article > 正文

Datagen-CDP平台的模拟数据生成器

datagen

Datagen

Datagen 是一个项目,旨在提供一个用户友好、可定制的界面,以将数据生成到各种 Cloudera CDP平台服务中。(甚至在平台之外)。

它是什么 ?

它是一个公开的 API 以生成数据的 Web 服务。

生成的数据在所谓的模型中形成。它带有预建模型,但任何人都可以定义自己的模型并提供它以在任何服务中生成数据。

数据可以生成到 HDFS(CSV、Avro、Parquet、JSON、ORC)、HBase、Hive、Solr、Kudu、Kafka、Ozone(CSV、Avro、Parquet、JSON、ORC)和本地文件(CSV、Avro、Parquet JSON, ORC)中。

数据生成也可以安排为定期运行。

要求

  • JDK 11

Datagen 设计为在 CDP 上原生运行,因此通常需要 CDP 平台:

  • 可访问的 Cloudera Manager管理的 CDP 7.1.7+ 平台

但是,您始终可以将应用程序作为独立的 Web 服务器运行,但您需要自己进行所有配置。

如果您打算从源代码构建它:

  • Maven 3.6+

  • Ansible 2.10+

  • Jmespath

存储库

Datagen 代码可在此处公开获得:https

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/391192
推荐阅读
相关标签