spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

作者：AI编程探险家 | 2023-01-18 14:20:12

踩

python,apache-spark,pyspark,scala,spark,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix时间戳,在线开发工具,前端开发工具,开发人员工具,站长工具

据我所知,distinct()散列分区RDD以识别唯一键.但它是否优化了每个分区只移动不同的元组？

想象一下具有以下分区的RDD

[1,2,2,1,4,2,2]

[1,3,3,5,4,5,5,5]

在这个RDD的一个独特的地方,所有重复的密钥(分区1中的2s和分区2中的5s)是否会被混洗到它们的目标分区,或者只有每个分区的不同密钥被洗牌到目标？

如果所有键都被洗牌,那么带有set()操作的aggregate()将减少shuffle.

def set_update(u, v):
    u.add(v)
    return u
rdd.aggregate(set(), set_update, lambda u1,u2: u1|u2)

zero323.. 6

unique通过实现 reduceByKey在(element, None)对.因此,它每个分区只会刷新唯一值.如果重复数量很少,那么仍然是相当昂贵的操作.

有些情况下使用set可能很有用.特别是如果你打电话distinct,PairwseRDD你可能更喜欢aggregateByKey/ combineByKey同时通过键同时实现重复数据删除和分区.特别考虑以下代码:

rdd1 = sc.parallelize([("foo", 1), ("foo", 1), ("bar", 1)])
rdd2 = sc.parallelize([("foo", "x"), ("bar", "y")])
rdd1.distinct().join(rdd2)

它必须洗牌rdd1两次 - 一次换distinct一次换一次join.相反,你可以使用combineByKey:

def flatten(kvs):
    (key, (left, right)) = kvs
    for v in left:
        yield (key, (v, right))

aggregated = (rdd1
    .aggregateByKey(set(), set_update, lambda u1, u2: u1 | u2))

rdd2_partitioned = rdd2.partitionBy(aggregated.getNumPartitions())

(aggregated.join(rdd2_partitioned)
    .flatMap(flatten))

注意:

joinScala中的逻辑与Python中的稍微不同(PySpark使用union后跟groupByKey,参见Spark RDD groupByKey +加入vs连接性能的Python和Scala DAG),因此我们必须RDD在调用join之前手动分区第二个.

1> zero323..：

unique通过实现 reduceByKey在(element, None)对.因此,它每个分区只会刷新唯一值.如果重复数量很少,那么仍然是相当昂贵的操作.

rdd1 = sc.parallelize([("foo", 1), ("foo", 1), ("bar", 1)])
rdd2 = sc.parallelize([("foo", "x"), ("bar", "y")])
rdd1.distinct().join(rdd2)

它必须洗牌rdd1两次 - 一次换distinct一次换一次join.相反,你可以使用combineByKey:

def flatten(kvs):
    (key, (left, right)) = kvs
    for v in left:
        yield (key, (v, right))

aggregated = (rdd1
    .aggregateByKey(set(), set_update, lambda u1, u2: u1 | u2))

rdd2_partitioned = rdd2.partitionBy(aggregated.getNumPartitions())

(aggregated.join(rdd2_partitioned)
    .flatMap(flatten))

注意:

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/blog/PYTHON/detail/3363

推荐阅读

PYTHON
在列表python中查找包含0-23中所有值的列表
如何解决《在列表python中查找包含0-23中所有值的列表》经验，为你挑选了1个好方法。python,list,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix时间戳,在线开发工具... [详细]
赞
踩
PYTHON
当引用相同的变量时,Swift Array内存地址会发生变化
如何解决《当引用相同的变量时,SwiftArray内存地址会发生变化》经验，为你挑选了1个好方法。pointers,memory-address,ios,swift,python,objective-c,DevBox,在线流程图,编程,编程... [详细]
赞
踩
PYTHON
IPython Notebook：在下一步之前“实时”显示循环图像
如何解决《IPythonNotebook：在下一步之前“实时”显示循环图像》经验，为你挑选了0个好方法。for-loop,matplotlib,ipython-notebook,jupyter,python,DevBox,在线流程图,编程,... [详细]
赞
踩
PYTHON
使用flask-script和template-filter
如何解决《使用flask-script和template-filter》经验，为你挑选了1个好方法。python,flask,https,git,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生... [详细]
赞
踩
PYTHON
如何为QTableWidget创建过滤器？
如何解决《如何为QTableWidget创建过滤器？》经验，为你挑选了1个好方法。python,qt,qtableview,pyside,qsortfilterproxymodel,DevBox,在线流程图,编程,编程问答,程序员,开发者工... [详细]
赞
踩
PYTHON
Javascript在Python中给出了相同算法的不同答案
如何解决《Javascript在Python中给出了相同算法的不同答案》经验，为你挑选了2个好方法。javascript,python,algorithm,dynamic-programming,rosalind,DevBox,在线流程图,... [详细]
赞
踩
PYTHON
Django ManyToMany字段的bulk_create的正确方法？
如何解决《DjangoManyToMany字段的bulk_create的正确方法？》经验，为你挑选了1个好方法。python,django,many-to-many,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,j... [详细]
赞
踩
PYTHON
Python线程名称不会显示在ps或htop上
如何解决《Python线程名称不会显示在ps或htop上》经验，为你挑选了3个好方法。python,multithreading,htop,debian,ubuntu,bash,https,bootstrap,安全,DevBox,在线流程图... [详细]
赞
踩
PYTHON
使用run_in_executor和asyncio时超时处理
如何解决《使用run_in_executor和asyncio时超时处理》经验，为你挑选了1个好方法。python,python-asyncio,python-3.5,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,j... [详细]
赞
踩
PYTHON
Django - 更改字段验证消息
如何解决《Django-更改字段验证消息》经验，为你挑选了1个好方法。python,django,django-forms,https,git,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成... [详细]
赞
踩
PYTHON
你如何验证/检查kivy版本？
如何解决《你如何验证/检查kivy版本？》经验，为你挑选了1个好方法。kivy,python,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix时间戳,在线开发工具,前端开发工具,开发... [详细]
赞
踩
PYTHON
如何使用时区感知时间戳列附加到数据框？
如何解决《如何使用时区感知时间戳列附加到数据框？》经验，为你挑选了0个好方法。python,pytz,pandas,macos,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix时间戳... [详细]
赞
踩
PYTHON
在django-rest-framework中解析multipart/form-data
如何解决《在django-rest-framework中解析multipart/form-data》经验，为你挑选了0个好方法。python,django,django-rest-framework,json,服务器,DevBox,在线流程... [详细]
赞
踩
PYTHON
在python3.5 osx上安装pygame
如何解决《在python3.5osx上安装pygame》经验，为你挑选了1个好方法。python,macos,pygame,https,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,uni... [详细]
赞
踩
PYTHON
当我在python和pyqt中关闭app时,没有运行类析构函数
如何解决《当我在python和pyqt中关闭app时,没有运行类析构函数》经验，为你挑选了1个好方法。python,multithreading,pyqt,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析... [详细]
赞
踩
PYTHON
使用Word2VecModel.transform()在map函数中不起作用
如何解决《使用Word2VecModel.transform()在map函数中不起作用》经验，为你挑选了1个好方法。python,apache-spark,word2vec,pyspark,apache-spark-mllib,DevBox... [详细]
赞
踩
PYTHON
pywinauto 32位用户警告
如何解决《pywinauto32位用户警告》经验，为你挑选了1个好方法。python,pywinauto,tomcat,apache,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix... [详细]
赞
踩
PYTHON
在python中反转列表切片
如何解决《在python中反转列表切片》经验，为你挑选了1个好方法。python,reverse,slice,DevBox,在线流程图,编程,编程问答,程序员,开发者工具,开发工具,json解析,二维码生成,unix时间戳,在线开发工具,前... [详细]
赞
踩
PYTHON
DjangoRestFramework ModelSerializer DateTimeField仅在创建对象时转换为当前时区
如何解决《DjangoRestFrameworkModelSerializerDateTimeField仅在创建对象时转换为当前时区》经验，为你挑选了1个好方法。django,serialization,datetime,django-re... [详细]
赞
踩
PYTHON
解包嵌套列表以获取map()的参数
如何解决《解包嵌套列表以获取map()的参数》经验，为你挑选了1个好方法。python,arguments,list,argument-unpacking,map-function,DevBox,在线流程图,编程,编程问答,程序员,开发者工... [详细]
赞
踩