赞
踩
mapreduce功能强大,可以处理大量离线数据。业务场景是要统计每个订单中数量情况,并将对应的商品id抽取出来。
数据格式为.csv文件,类型如下所示:
order_id,product_id,add_to_cart_order,reordered
1,49302,1,1
1,11109,2,1
1,10246,3,0
1,49683,4,0
1,43633,5,1
1,13176,6,0
1,47209,7,0
1,22035,8,1
36,39612,1,0
36,19660,2,1
36,49235,3,0
36,43086,4,1
36,46620,5,1
36,34497,6,1
36,48679,7,1
36,46979,8,1
38,11913,1,0
38,18159,2,0
38,4461,3,0
38,21616,4,1
38,23622,5,0
38,32433,6,0
38,28842,7,0
38,42625,8,0
38,39693,9,0
生成的结果格式
1 49302_11109_10246_49683_43633_13176_47209_22035 8
36 39612_19660_49235_43086_46620_34497_48679_46979 8
38 11913_18159_4461_21616_23622_32433_28842_42625_39693 9
数据预处理:需去除.csv文件第一行的表头
sed 1d order_products.csv > order_produc.csv
map函数:对数据进行转换
- import sys
-
- for line in sys.st
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。