当前位置:   article > 正文

pandas 用read_csv读取txt文件时,部分行丢失_pandas读取txt文件不全

pandas读取txt文件不全

用pandas 的 read_csv 来读取txt文件时,出现了部分行丢失的情况。
原因是某行中有单个英文引号,导致\n换行符失效。
多行连成了一行,直到遇到下一个单个引号。

例如:

.txt文件如下:
	这里有一个未闭合的引号"就是它!
	这是正常的第二行
	这是正常的“第三行”
	这是带着"英文引号"的第四行
	这是第五行
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

如果存在不闭合的英文引号,行与行之间会“粘”在一起,看起来就是丟行了:

import pandas as pd
df = pandas.read_csv('test.txt', names=['sentences'])

# 结果
# 这里有一个未闭合的引号"就是它!\r这是正常的第二行\r这是正常的“第三行”\r这是带着"英文引号"的第四行
# 这是第五行
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

解决办法:设置quoting参数

# 方法一: 加 quoting=3
import pandas as pd
df = pandas.read_csv('test.txt', names=['sentences'], quoting=3)

# 方法二:
import csv
import pandas as pd
df = pandas.read_csv('test.txt', names=['sentences'], quoting=csv.QUOTE_NONE)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/木道寻08/article/detail/851753
推荐阅读
相关标签
  

闽ICP备14008679号