当前位置:   article > 正文

Python数据处理(二)-txt文件指定数据提取处理_python txt导出指定区域数据

python txt导出指定区域数据

系列文章:

0、基本常用功能及其操作(本文操持更新)

1,20Gtxt文件提取并分类整理输出作图

2,数据的归类并处理(本文)

3,txt文件指定数据提取并可视化作图

4,上万行log数据提取并作图进阶版

5、上万行数据提取并分类进阶版

6、.......... (待定)

 

一,数据格式及需求

 有一个几十M的TXT文件,每一行都蕴含坐标轴,X,Y以及对应的数据,时间啊,电压电流等等,X坐标轴从0--107,Y坐标轴也是0---107,X,Y为一组,相同的X,Y的组数据放一起。最终放入excel表格,XY坐标,后面就说各个XY组的数据依次排列在行的后面。

二,分布实现需求

这个需求比较复杂,因为手动复制是很费时费力的,而且通过不好操作,所以需要分步骤实现我们的需求。

1,把X坐标相同的全部提取单独的文件中,X从0---107,所以我们会有107个文件

2,在各个文件里面,再去对Y进行分类排序,将Y相同的放一起

3,最后就简单了,107个文件,每个文件XY都按照预期放好了,

    那么我们只需要提取我们需要的数据,X,Y坐标,以及每一组的我们需要的值即可,然后放入excel文件

三,需求的各个步骤的实现

1,X的分类,这个很简单,只要把不同的X放入对应的TXT即可

  1. def X_select(wafer_XY_input_txt,wafer_XY_output_folder):
  2. wafer_XY_output_txt = wafer_XY_output_folder + '/xvalue_'
  3. # 读取原始文本文件
  4. with open(wafer_XY_input_txt, "r") as file:
  5. lines = file.readlines()
  6. # 提取并存储符合条件的行
  7. for line in lines:
  8. match = re.search(r'--X:\s+(\d+)-', line)
  9. if match:
  10. x_value = int(match.group(1))
  11. if 1 <= x_value <= 107:
  12. file_name = wafer_XY_output_txt + str(x_value) + '.txt'
  13. with open(file_name, 'a') as file:
  14. file.write(line)

注释:(1)只读方式打开需要处理的文件并存入缓存数据结构

           (2)循环读取并操作每一行

           (3)结合正则表达式,识别X的坐标为多少(我用是两个特定符号之间来缩小判断的数,当然可以有其他方法,空格也算分隔符,逗号在CSV中也算是一种分隔符)

           (4)从字符型转换为int类型并作数据,X坐标多少就写入对应的TXT文件

 

2,python进行0--107个txt文件的数据整理

 X已经分好类了,但是里面的Y坐标还是杂乱无章的并不是相同的Y都在一起,所以需要整理。

  1. def Y_sort(wafer_XY_output_folder, X_START , X_END , XY_value_num):
  2. # ----2-----------整理Y值,相同放一起,Y从小到大
  3. import re
  4. from collections import defaultdict
  5. # 函数用于处理和重写单个文件
  6. def process_and_rewrite_file(filename):
  7. with open(filename, 'r') as file:
  8. lines = file.readlines()
  9. # 使用字典来存储相同数值的行,键为数值,值为行列表
  10. grouped_lines = defaultdict(list)
  11. # 读取并分组所有行
  12. for line in lines:
  13. match = re.search(r"Y: (.*?)--S", line)
  14. if match:
  15. value = match.group(1).strip()
  16. grouped_lines[value].append(line)
  17. # 写入新的整理过的数据到文件
  18. with open(filename, 'w') as file:
  19. for value in sorted(grouped_lines.keys(), key=float): # 假设数值可以转化为浮点型并进行排序
  20. # 限制写入每个数值的前--12/18/7---个元素
  21. for line in grouped_lines[value][:XY_value_num]:
  22. file.write(line)
  23. # 处理 xvalue_1.txt 到 xvalue_107.txt 文件 /1_2TD
  24. for i in range(X_START, X_END):
  25. process_and_rewrite_file(wafer_XY_output_folder + f"/xvalue_{i}.txt")

注释:

(1)打开文件存入缓存数据结构(这个在超大文件时不可用,详情见文章一),并定义字典

(2)正则表达式,提取Y值并作判断,每个Y坐标作为一个键,将这一行作为值存入字典

(3)最后打开原文件并写入字典数据覆盖

(4)最后实现从0---107个文件的顺序执行

3,数据处理并导出

 前面数据都归类整理好了,最后就是指定数据处理了,

我们需要X,Y坐标以及XY相同组的数据写到一起,比如X,Y相同的组有12个,18个,4个,等等都可以,需要提前看一下源文件(这个算是小的不太完美的地方),然后定义每一组有都少个数据

 同时X也未必只有0--107或者小于,或者大于,这个留了接口,可自动调整

(1)打开文件,提取数据到缓存数据结构

(2)处理每一组数据,提取第一行X,Y坐标,以及每一组的我们需要的值,电流,电压,时间等等

(3)提取的数据存入单元格内容的列表,并存入excel文件

(4)当然,数据可以作图或者,其他操作都可以,看情况

  1. def XY_output_excel(wafer_XY_output_folder,wafer_XY_output_excel,X_START,X_END,XY_value_num):
  2. # # ----4----------最终成品,写到Excel文件中,并且X,Y分开写
  3. import re
  4. from openpyxl import Workbook
  5. # 创建Excel工作簿
  6. wb = Workbook()
  7. ws = wb.active
  8. # Excel文件名
  9. excel_file_name = wafer_XY_output_excel
  10. # 遍历所有文件
  11. for i in range(X_START, X_END):
  12. filename = wafer_XY_output_folder + f"/xvalue_{i}.txt"
  13. try:
  14. with open(filename, 'r') as file:
  15. lines = file.readlines()
  16. # 按组处理数据,每12行一组
  17. for j in range(0, len(lines), XY_value_num):
  18. group_lines = lines[j:j + XY_value_num]
  19. # 确保数据完整
  20. if len(group_lines) < XY_value_num:
  21. continue
  22. # 提取X和Y的值
  23. x_match = re.search(r'X: (.*?)-Y', group_lines[0])
  24. y_match = re.search(r'Y: (.*?)--S', group_lines[0])
  25. # 如果匹配成功
  26. if x_match and y_match:
  27. x_value = x_match.group(1).strip()
  28. y_value = y_match.group(1).strip()
  29. # 准备单元格内容列表
  30. row_data = [x_value, y_value]
  31. # 从每一行提取'--------'之后的数据
  32. for line in group_lines:
  33. value_match = re.search(r'--------(.*)', line)
  34. if value_match:
  35. value = value_match.group(1).strip()
  36. row_data.append(value)
  37. # 将键和值写入工作表的一行
  38. ws.append(row_data)
  39. except FileNotFoundError:
  40. print(f"File {filename} not found. Skipping.")
  41. # 保存Excel文件
  42. wb.save(filename=excel_file_name)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/373553
推荐阅读
相关标签
  

闽ICP备14008679号