当前位置:   article > 正文

关于Execl导入大数据量文件的处理思路(实战经验)_excel导入csv文件数据过多

excel导入csv文件数据过多
关于Execl导入大数据量文件的处理思路(实战经验)

Execl作为微软的早期产品,功能强大的同时,性能也相应的差很多,处理大数据量时
尤其明显。最近项目中有一个需求,要求导入人员信息,Execl的数据量大概5000左右,
但是会关联其他表,查询出100万级别的数据量,插入到值表。并且这个过程是系统管理
人员每月不定期在页面导入的。系统设计的要求是10秒内完成。

简单说一下我们的思路,这里主要说思路,更细节的技术问题,可以和我联系:
第一步:把Excel转成CSV文件,这里可以是系统使用人员手动转换,也可以由程序来转换。
然后先导入Excel中的5000条信息到人员信息表。后台数据库用存储过程实现,使用merge的
方式进行增量导入。
第二步:关联其他表,然后将符合条件的结果集作为值直接插入到临时表,这个过程也是在
存储过程中实现。这里有一个技巧,把SELECT的结果集,作为INSERT语句的VALUES,这样
能比逐条处理速度要快很多。
第三步:使用MERGE的方式,将临时表的数据,增量导入目标表。这个过程也在存储过程中
实现。

以上的案例,数据校验的逻辑不是很多,只有一个重复性校验,所以使用的是MERGE方式。
如果业务上的数据校验逻辑比较复杂,可能性能就会降低很多,这时就要考虑其他解决
方案。

上面的SQL关键代码,基本上都放在了存储过程中,之所以这样做,就是为了提高性能。
在进行大数据量的操作时,每减少一次数据库交互,可能就会明显提高性能。我们都知道,
存储过程存储在数据库服务器端,属于已经预编译过的SQL,当调用存储过程时,只需要
传递参数,而不需要再重新编译SQL。并且,把多个SQL放在一个存储过程中,减少了应用
服务器与数据库服务器的交互次数。

关于上面的案例,还有2点要说明。
1,在处理大数据量的文件时,尽量减少逐行扫描的方式,,而是采用批量LOAD/IMPORT,
或者批量MERGE/INSERT的方式。
2,建适当数量的索引,无论对于INSERT操作,还是MERGE操作,都会起到事半功倍的效果。

最近项目中在进行性能优化,关于Execl的导入导出,以及大数据量的查询,都研究了好长
时间,之前的查询慢、导入慢,导出慢的问题,基本上都解决了,性能提高了不少,后面
有时间会慢慢和大家分享。



声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/88811
推荐阅读
相关标签
  

闽ICP备14008679号