当前位置:   article > 正文

用xlwt和xlrd在不修改Excel单元格格式的情况下修改单元格内容_xlwt修改xls文件保留格式

xlwt修改xls文件保留格式

一、问题的来源以及网上的错误方法

最近遇到了一个问题,给定了一个Excel模板,修改表格里面的内容,但是不能修改Excel表格的格式。用pywin32太慢,用xlrd只能读,用xlwt只能写。

很快,我查到了网上“修改Excel内容但保留格式”的方法,大概是需要用到另一个辅助的库xlutils,并为formatting_info参数配置为True,代码大概是这样的:

  1. import xlrd
  2. import xlwt
  3. from xlutils.copy import copy
  4. rb = xlrd.open_workbook('open.xls', formatting_info=True)
  5. wb = copy(rb)
  6. sheet = wb.get_sheet(0)
  7. for r in range(8):
  8.     for c in range(5):
  9.         sheet.write(r, c, 'R%sC%s'%(r+1, c+1))
  10. wb.save('save.xls')

大部分格式的确是保住了,但是“修改了”的部分的格式惨不忍睹,一看这就是默认格式嘛。

于是继续查找,发现xlwt.Worksheet(工作表)对象的write函数的用法参数说明为:

write(r, c, label='', style=<xlwt.Style.XFStyle object at 0x0186A530>)

网上找到的教程也有说明,只要配置xlwt库的XFStyle类,并为write函数的第4个参数赋值,就可以为新写入的单元格设置单元格格式了。代码类似于这样,这段代码实现了对RC位置的单元格设置了20号宋体、上下水平居中、四边边框

  1. style = xlwt.XFStyle()
  2. style.font.height = 400
  3. style.font.name = '宋体'
  4. style.alignment.horz = xlwt.Alignment.HORZ_CENTER
  5. style.alignment.vert = xlwt.Alignment.VERT_CENTER
  6. style.borders.left    = xlwt.Borders.THIN
  7. style.borders.right   = xlwt.Borders.THIN
  8. style.borders.top     = xlwt.Borders.THIN
  9. style.borders.bottom  = xlwt.Borders.THIN
  10. sheet.write(r, c, 'R%sC%s'%(r+1, c+1), style)

然而众所周知,xlwt库只能写不能读,相当于我在设置单元格的样式的,原表格的样式对我是“盲”的。虽然我可以“手动”地记下来所有单元格的格式,然后“抄”过去,但是这多蛋疼啊。

于是继续网上查找资料,全部都是答非所问的结果,要么告诉我“怎么复制原表格而保留样式”,要么告诉我“如何修改单元格同时配置格式”,但没有一个是回答“如何修改单元格而保留格式”的。

二、根据属性名猜可以用的函数

没办法,代码小白的我,只好继续猜,猜猜看那个函数能做到这样的配置。

首先我尝试为工作表对象sheet的sheet.write函数的第4个参数配置“默认”项,企图让它“write”单元格的时候“不修改”格式,比如False啊、0啊、None啊、-1啊,都试过了,全部报错。

那么尝试找xlrd读取的单元格的cell对象,看看里面有没有存储格式信息。但是cell对象中的属性不多,很快就爬干净了,没有存储格式这样如此“细致”的内容。

线索断了,我只好穷举用xlrd读取的工作簿rb的所有属性函数,突然发现了一个看起来很像记录格式的东西,rb.xf_list,其中是一个大列表,里面记录的全是“xlrd.formatting.XF”类型的对象,而字体格式的对象名字不是叫做“XFStyle”吗,这可是非常一致了。

这可是一个很大的突破,我猜想Excel中的单元格格式,不是分别记录到各个单元格的对象的属性中,而是将工作簿中出现的样式汇总,再通过另一个方法把各个单元格设定的格式的“索引编号”读出来,于是就做到了记录各个单元格的格式信息。

得到了线索就有了进展,我找到xlrd读取的工作表sheet对象有一个sheet.cell_xf_index(rowx, colx)函数,返回结果是一个数值,而且针对相同格式的单元格布局,这个结果在相同格式单元格中计算返回的索引编号很一致!那么结果肯定是这个了!

于是我急急忙忙把rb.xf_list[sheet.cell_xf_index(rowx, colx)]赋值到了sheet.write函数的style参数上,期待奇迹的发生。

三、瞎猫碰不到死耗子,那就硬着头皮爬源码

果不其然,事情的进展不会这么顺利,果然出现了报错。

我突然想起来了write函数的说明,style的默认参数设置是“style=<xlwt.Style.XFStyle object at 0x0186A530>”,而我赋值的是“xlrd.formatting.XF”对象,这都不是一个库的东西,怎么能直接用呢。

但是我坚定一个信念,既然通过xlutils.copy库的copy函数可以把格式“复制”过去,那么肯定在某个时候发生了读取和写入,这个格式读写的“管道”肯定是通的,关键是我要找到它。

于是我撑住头皮,开始爬xlutils库的代码,xlutils.copy库的内容很干净,代码只有这些:

  1. from xlutils.filter import process,XLRDReader,XLWTWriter
  2. def copy(wb):
  3.     w = XLWTWriter()
  4.     process(
  5.         XLRDReader(wb,'unknown.xls'),
  6.         w
  7.         )
  8.     return w.output[0][1]

于是转头去爬这里引用了的xlutils.filter库。既然知道了rb.xf_list存储了xlrd格式的“单元格样式”,那么就找找看它什么时候转化为了xlwt格式的“单元格样式”。

按照关键词搜索,果然找了一系列的判断和转换,代码段大概是这样的:

  1. for rdxf in rdbook.xf_list:
  2.     wtxf = xlwt.Style.XFStyle()
  3.     ... 各种判断和转换
  4.     self.style_list.append(wtxf)

那么很显然,我要找的就是self.style_list了。

那么按理说,我只要获取到“self.style_list”的“self”,也就是它的父对象“BaseWriter”的实例,就能获取到这个属性了(也只有这个方法)。但是我惊讶地发现BaseWriter里面有一个close方法,里面赫然写着“del self.style_list”,这可了得,我虽然不知道它是在什么时候调用了,但是一旦调用了,那不就功亏一篑了,这个列表删掉了那不就全完了。

再看看xlutils.copy库里的内容,找到对应的定义:

  1. class XLWTWriter(BaseWriter):
  2.     def __init__(self):
  3.         self.output = []
  4.     def close(self):
  5.         if self.wtbook is not None:
  6.             self.output.append((self.wtname,self.wtbook))
  7.             del self.wtbook

最终copy函数中的定义中返回的是“w.output[0][1]”,那实际上就是“self.wtbook”这个东西了。

接着找相关定义,可以看到这样一段:

  1. ...
  2. self.wtbook = xlwt.Workbook(style_compression=2)
  3. self.wtbook.dates_1904 = rdbook.datemode
  4. self.wtname = wtbook_name
  5. self.style_list = []
  6. ...

这可麻烦了呀,wtbook和style_list是BaseWriter类下的两个平级的属性,并没有相互的联系,并且wtbook是一个xlwt.Workbook类型的对象,自然不可能提供获取其父对象的方法(确认了属性也确实没有),这可咋办,进度又陷入了停滞。

于是我又灵机一动,“copy”函数虽然是已经封装好的,但是我也可以把它拆开,就比方说这样:

  1. from xlutils.filter import process, XLRDReader, XLWTWriter
  2. rb = xlrd.open_workbook('open.xls', formatting_info=True)
  3. w = XLWTWriter()
  4. process(XLRDReader(rb, 'unknown.xls'), w)
  5. wb = w.output[0][1]

w是一个XLWTWriter类的对象,而XLWTWriter继承于BaseWriter,BaseWriter有style_list属性。那么我尝试访问其style_list属性,也就是“w.style_list”,并按照之前猜想的方法,将sheet.cell_xf_index函数获取到的每个单元格的对应数字,认为是“w.style_list”列表中的查询单元格样式的序列号,写入程序:

  1. style_list = w.style_list
  2. sheet2 = wb.get_sheet(0)
  3. style = style_list[sheet.cell_xf_index(r, c)]
  4. sheet2.write(r, c, sheet.cell_xf_index(r, c), style)

再次打开生成的保存文件,发现格式完美地保留了下来,而内容却如我设定地修改了,至此,程序调试任务完成!

四、终于可以运行的完整代码

完整样例代码是:

可以用xlrd获取打开的Excel的每个单元格的格式,并转化为xlwt写入单元格时支持的XFStyle样式参数。

代码可以实现用xlrd打开Excel后,用xlwt写入单元格内容,而不修改单元格的格式(如果要修改部分原始单元格的格式也可以,只要修改获取到的style的部分属性就可以)

  1. import xlrd
  2. from xlutils.filter import process, XLRDReader, XLWTWriter
  3. rb = xlrd.open_workbook('open.xls', formatting_info=True)
  4. # 参考xlutils.copy库内的用法 参考xlutils.filter内的参数定义style_list
  5. w = XLWTWriter()
  6. process(XLRDReader(rb, 'unknown.xls'), w)
  7. wb = w.output[0][1]
  8. style_list = w.style_list
  9. for n, sheet in enumerate(rb.sheets()):
  10.     sheet2 = wb.get_sheet(n)
  11.     for r in range(sheet.nrows):
  12.         for c, cell in enumerate(sheet.row_values(r)):
  13.             style = style_list[sheet.cell_xf_index(r, c)]
  14.             sheet2.write(r, c, sheet.cell_xf_index(r, c), style)
  15. wb.save('save.xls')

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号