当前位置:   article > 正文

Pandas数据入Doris库----Doris超级低配版_doris pandas

doris pandas

导入所需要的包,链接数据库

import time
import pandas as pd
import warnings,datetime
import pymysql
import os,glob
warnings.filterwarnings('ignore')  # 忽略掉一些红头警告

conn = pymysql.connect(host="you datebaes host", user="username", passwd="password", db="db_name", port=9030)
cursor = conn.cursor()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

获取表中最大 ID ,因为搭建Doris的技术问题,无法实现ID自增

def get_max_id(datebase_name):
	mycursor.execute(f"select MAX(id) from <you_db_name>.{datebase_name};")
	result = mycursor.fetchall()
    return result[0][0]
  • 1
  • 2
  • 3
  • 4

获取指定文件夹下子文件夹的文件

folder_paths = r'C:\阿里妈妈'
# 获取文件夹下所有文件和文件夹的名字
filenames = os.listdir(folder_paths)
# 过滤出文件做拼接,生成列表
files = [os.path.join(folder_paths,file_name) for file_name in filenames]
# 循环列表中所有文件
for file in files:
    file_pathz = glob.glob(file+'/*')
    # 因为解压出来的是一个文件,如果多个文件需要再加个循环就行
    if len(file_pathz) == 1:
        shop_data(file_pathz[0])
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

计算时间差

# 使用Today-1天的时间减去传输过来的时间
def ex_date(s):
	# 格式化日期
    strp_s = datetime.datetime.strptime(s, '%Y-%m-%d')
    d_value = datetime.date.today() + datetime.timedelta(days=-1) - strp_s.date()
    return d_value.days
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

pandas处理数据表格

folder_path = "C:\阿里妈妈\内容营销短直联动_珍致旗舰店_2024-07-08\多多客服-客服数据-客服绩效数据-客服绩效详情.csv"
# 读取表格,个别需要进行指定编码格式
data = pd.read_csv(folder_path,encoding = 'gb2312')
# 根据自己所需,从路径中获取信息
shop_name = folder_path.split('\\')[2].split('_')[1]
# 由于需要存入数据库,所以字段名需要跟数据库中的字段对应,做个修改即可
data.rename(columns={'日期': 'RiQi', '场景ID': 'ChangJingId', '场景名字': 'ChangJingMingZi', '计划ID': 'JiHuaId',
                     '计划名字': 'JiHuaMingZi', '主体ID': 'ZhuTiId', '主体类型': 'ZhuTiLeiXing'}, inplace=True)
# 将日期做时间差处理,确保最新采集的数据
data['extratime'] = data['RiQi'].apply(lambda s: ex_date(s))
# 将所有NaN值改成0
data.fillna(value=0, inplace=True)
# 或将所有NaN值改成0
data.fillna(value='', inplace=True)
# 去除所有换行符
data.replace('\n', '', regex=True, inplace=True)
data.replace('\t', '', regex=True, inplace=True)
# 判断返回值,如果是NaN,说明数据库中没数据
if get_max_id(you_datebase_name) == None:
    time_id = 0
else:
    time_id = int(get_max_id(you_datebase_name))+1
# 根据表格数据量进行累加组成一个ID列表
id_list = [time_id+i for i in range(data.count()[0])]
# 自定义字段
data['id'] = id_list
data['shop_name'] = shop_name
# 将DataFrame表中的Key获取到
valuez = str(tuple(data.keys())).replace("'",'`')
# 规定格式
sql_text = f"INSERT INTO {datebase} {valuez} VALUES"
# 循环DataFrame每一列数据,进行拼接
for column_name, column_data in data.iterrows():
     sql_text += f"{tuple(column_data)},"
# 由于拼接后面有个逗号,需要把后面的逗号去掉后入库
cursor.execute(sql_text[:-1])
# 删除掉文件
os.remove(folder_path)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/煮酒与君饮/article/detail/973155
推荐阅读
相关标签
  

闽ICP备14008679号