赞
踩
有一个几十M的TXT文件,每一行都蕴含坐标轴,X,Y以及对应的数据,时间啊,电压电流等等,X坐标轴从0--107,Y坐标轴也是0---107,X,Y为一组,相同的X,Y的组数据放一起。最终放入excel表格,XY坐标,后面就说各个XY组的数据依次排列在行的后面。
这个需求比较复杂,因为手动复制是很费时费力的,而且通过不好操作,所以需要分步骤实现我们的需求。
1,把X坐标相同的全部提取单独的文件中,X从0---107,所以我们会有107个文件
2,在各个文件里面,再去对Y进行分类排序,将Y相同的放一起
3,最后就简单了,107个文件,每个文件XY都按照预期放好了,
那么我们只需要提取我们需要的数据,X,Y坐标,以及每一组的我们需要的值即可,然后放入excel文件
- def X_select(wafer_XY_input_txt,wafer_XY_output_folder):
- wafer_XY_output_txt = wafer_XY_output_folder + '/xvalue_'
- # 读取原始文本文件
- with open(wafer_XY_input_txt, "r") as file:
- lines = file.readlines()
- # 提取并存储符合条件的行
- for line in lines:
- match = re.search(r'--X:\s+(\d+)-', line)
- if match:
- x_value = int(match.group(1))
- if 1 <= x_value <= 107:
- file_name = wafer_XY_output_txt + str(x_value) + '.txt'
- with open(file_name, 'a') as file:
- file.write(line)
注释:(1)只读方式打开需要处理的文件并存入缓存数据结构
(2)循环读取并操作每一行
(3)结合正则表达式,识别X的坐标为多少(我用是两个特定符号之间来缩小判断的数,当然可以有其他方法,空格也算分隔符,逗号在CSV中也算是一种分隔符)
(4)从字符型转换为int类型并作数据,X坐标多少就写入对应的TXT文件
X已经分好类了,但是里面的Y坐标还是杂乱无章的并不是相同的Y都在一起,所以需要整理。
- def Y_sort(wafer_XY_output_folder, X_START , X_END , XY_value_num):
- # ----2-----------整理Y值,相同放一起,Y从小到大
- import re
- from collections import defaultdict
- # 函数用于处理和重写单个文件
- def process_and_rewrite_file(filename):
- with open(filename, 'r') as file:
- lines = file.readlines()
-
- # 使用字典来存储相同数值的行,键为数值,值为行列表
- grouped_lines = defaultdict(list)
-
- # 读取并分组所有行
- for line in lines:
- match = re.search(r"Y: (.*?)--S", line)
- if match:
- value = match.group(1).strip()
- grouped_lines[value].append(line)
-
- # 写入新的整理过的数据到文件
- with open(filename, 'w') as file:
- for value in sorted(grouped_lines.keys(), key=float): # 假设数值可以转化为浮点型并进行排序
- # 限制写入每个数值的前--12/18/7---个元素
- for line in grouped_lines[value][:XY_value_num]:
- file.write(line)
-
- # 处理 xvalue_1.txt 到 xvalue_107.txt 文件 /1_2TD
- for i in range(X_START, X_END):
- process_and_rewrite_file(wafer_XY_output_folder + f"/xvalue_{i}.txt")

注释:
(1)打开文件存入缓存数据结构(这个在超大文件时不可用,详情见文章一),并定义字典
(2)正则表达式,提取Y值并作判断,每个Y坐标作为一个键,将这一行作为值存入字典
(3)最后打开原文件并写入字典数据覆盖
(4)最后实现从0---107个文件的顺序执行
前面数据都归类整理好了,最后就是指定数据处理了,
我们需要X,Y坐标以及XY相同组的数据写到一起,比如X,Y相同的组有12个,18个,4个,等等都可以,需要提前看一下源文件(这个算是小的不太完美的地方),然后定义每一组有都少个数据
同时X也未必只有0--107或者小于,或者大于,这个留了接口,可自动调整
(1)打开文件,提取数据到缓存数据结构
(2)处理每一组数据,提取第一行X,Y坐标,以及每一组的我们需要的值,电流,电压,时间等等
(3)提取的数据存入单元格内容的列表,并存入excel文件
(4)当然,数据可以作图或者,其他操作都可以,看情况
- def XY_output_excel(wafer_XY_output_folder,wafer_XY_output_excel,X_START,X_END,XY_value_num):
- # # ----4----------最终成品,写到Excel文件中,并且X,Y分开写
- import re
- from openpyxl import Workbook
- # 创建Excel工作簿
- wb = Workbook()
- ws = wb.active
- # Excel文件名
- excel_file_name = wafer_XY_output_excel
- # 遍历所有文件
- for i in range(X_START, X_END):
- filename = wafer_XY_output_folder + f"/xvalue_{i}.txt"
- try:
- with open(filename, 'r') as file:
- lines = file.readlines()
-
- # 按组处理数据,每12行一组
- for j in range(0, len(lines), XY_value_num):
- group_lines = lines[j:j + XY_value_num]
-
- # 确保数据完整
- if len(group_lines) < XY_value_num:
- continue
-
- # 提取X和Y的值
- x_match = re.search(r'X: (.*?)-Y', group_lines[0])
- y_match = re.search(r'Y: (.*?)--S', group_lines[0])
-
- # 如果匹配成功
- if x_match and y_match:
- x_value = x_match.group(1).strip()
- y_value = y_match.group(1).strip()
-
- # 准备单元格内容列表
- row_data = [x_value, y_value]
-
- # 从每一行提取'--------'之后的数据
- for line in group_lines:
- value_match = re.search(r'--------(.*)', line)
- if value_match:
- value = value_match.group(1).strip()
- row_data.append(value)
- # 将键和值写入工作表的一行
- ws.append(row_data)
- except FileNotFoundError:
- print(f"File {filename} not found. Skipping.")
- # 保存Excel文件
- wb.save(filename=excel_file_name)

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。