当前位置:   article > 正文

关于jdbc批量操作(addBatch, executeBatch)的测试

executebatch

由于项目上有大批量数据插入和更新的操作,所以使用了jdbc的批量操作功能。在此之前参考了很多文章包括jdbc的手册(https://www.tutorialspoint.com/jdbc/jdbc-batch-processing.htm),有说需要使用事务的,也有的文章没有使用事务,试了很久,发现代码一直没有按照期望的执行,还是逐条操作数据库。后来在偶然间看到了文章提到需要设置rewriteBatchedStatements为true,加上该参数后搞定!这里记录一下我所做个几个场景的实验,并配有抓包的记录,以显示jdbc批量操作的过程。


测试使用的表结构如下:

  1. create table employees (
  2. id int(11) unsigned not null auto_increment,
  3. user_id int(20) not null,
  4. age int(10) not null,
  5. first_name varchar(20) not null,
  6. second_name varchar(20) not null,
  7. date date not null,
  8. PRIMARY KEY (id)
  9. ) ENGINE=InnoDB CHARSET=utf8;

使用tcpdump抓包,并在wireshark下做分析


场景一:不使用事务,不添加rewriteBatchedStatements=true参数

代码隐去数据库ip、库名、账户名和密码

  1. package jdbcbatchtest;
  2. import java.sql.Connection;
  3. import java.sql.DriverManager;
  4. import java.sql.PreparedStatement;
  5. import java.sql.SQLException;
  6. public class Main {
  7. public static void main(String[] args) {
  8. Connection conn = null;
  9. PreparedStatement pst = null;
  10. try {
  11. Class.forName("com.mysql.jdbc.Driver");
  12. conn = DriverManager.getConnection("jdbc:mysql://********:3306/****", "****", "****");
  13. String sql = "insert into employees (user_id, age, first_name, second_name, date) values(?,?,?,?,?)";
  14. pst = conn.prepareStatement(sql);
  15. int loop = 0;
  16. for(loop = 0; loop < 1000; loop++) {
  17. pst.setInt(1, loop);
  18. pst.setInt(2, 18);
  19. pst.setString(3, "roger");
  20. pst.setString(4, "zhang");
  21. pst.setString(5, "2017-01-17");
  22. pst.addBatch();
  23. }
  24. pst.executeBatch();
  25. } catch (ClassNotFoundException e) {
  26. e.printStackTrace();
  27. } catch (SQLException e) {
  28. e.printStackTrace();
  29. } finally {
  30. if(pst != null) {
  31. try {
  32. pst.close();
  33. } catch (SQLException e) {
  34. e.printStackTrace();
  35. }
  36. }
  37. if(conn != null) {
  38. try {
  39. conn.close();
  40. } catch (SQLException e) {
  41. e.printStackTrace();
  42. }
  43. }
  44. }
  45. }
  46. }

抓包结果:


从图片中的抓包结果可以看出,sql语句是逐条被提交到mysql服务器的,该操作一共执行了1000次。

场景二:使用事务,不添加rewriteBatchedStatements=true参数

  1. package jdbcbatchtest;
  2. import java.sql.Connection;
  3. import java.sql.DriverManager;
  4. import java.sql.PreparedStatement;
  5. import java.sql.SQLException;
  6. public class Main {
  7. public static void main(String[] args) {
  8. Connection conn = null;
  9. PreparedStatement pst = null;
  10. try {
  11. Class.forName("com.mysql.jdbc.Driver");
  12. conn = DriverManager.getConnection("jdbc:mysql://********:3306/****", "****", "****");
  13. String sql = "insert into employees (user_id, age, first_name, second_name, date) values(?,?,?,?,?)";
  14. conn.setAutoCommit(false);
  15. pst = conn.prepareStatement(sql);
  16. int loop = 0;
  17. for(loop = 0; loop < 1000; loop++) {
  18. pst.setInt(1, loop);
  19. pst.setInt(2, 18);
  20. pst.setString(3, "roger");
  21. pst.setString(4, "zhang");
  22. pst.setString(5, "2017-01-17");
  23. pst.addBatch();
  24. }
  25. pst.executeBatch();
  26. conn.commit();
  27. } catch (ClassNotFoundException e) {
  28. e.printStackTrace();
  29. } catch (SQLException e) {
  30. e.printStackTrace();
  31. try {
  32. conn.rollback();
  33. } catch (SQLException e1) {
  34. e1.printStackTrace();
  35. }
  36. } finally {
  37. if(pst != null) {
  38. try {
  39. pst.close();
  40. } catch (SQLException e) {
  41. e.printStackTrace();
  42. }
  43. }
  44. if(conn != null) {
  45. try {
  46. conn.close();
  47. } catch (SQLException e) {
  48. e.printStackTrace();
  49. }
  50. }
  51. }
  52. }
  53. }


抓包结果:


和场景一一样,sql语句还是逐条发送到mysql服务器,不同点在于最有有一条commit的数据包,提交事务。

场景三:不使用事务,添加rewriteBatchedStatements=true参数

  1. package jdbcbatchtest;
  2. import java.sql.Connection;
  3. import java.sql.DriverManager;
  4. import java.sql.PreparedStatement;
  5. import java.sql.SQLException;
  6. public class Main {
  7. public static void main(String[] args) {
  8. Connection conn = null;
  9. PreparedStatement pst = null;
  10. try {
  11. Class.forName("com.mysql.jdbc.Driver");
  12. conn = DriverManager.getConnection("jdbc:mysql://********:3306/****?rewriteBatchedStatements=true", "****", "****");
  13. String sql = "insert into employees (user_id, age, first_name, second_name, date) values(?,?,?,?,?)";
  14. pst = conn.prepareStatement(sql);
  15. int loop = 0;
  16. for(loop = 0; loop < 1000; loop++) {
  17. pst.setInt(1, loop);
  18. pst.setInt(2, 18);
  19. pst.setString(3, "roger");
  20. pst.setString(4, "zhang");
  21. pst.setString(5, "2017-01-17");
  22. pst.addBatch();
  23. }
  24. pst.executeBatch();
  25. } catch (ClassNotFoundException e) {
  26. e.printStackTrace();
  27. } catch (SQLException e) {
  28. e.printStackTrace();
  29. } finally {
  30. if(pst != null) {
  31. try {
  32. pst.close();
  33. } catch (SQLException e) {
  34. e.printStackTrace();
  35. }
  36. }
  37. if(conn != null) {
  38. try {
  39. conn.close();
  40. } catch (SQLException e) {
  41. e.printStackTrace();
  42. }
  43. }
  44. }
  45. }
  46. }


抓包结果:


从抓包结果可以看出,jdbc将1000条insert语句拆分成了10条报文分批发送到mysql服务器(这里做了几次试验发现每次操作报文的大小和个数都不是固定的),每发送一次报文便插入一批数据进入数据库,实现了批量的操作。这里需要注意的是,在我的理解看来,这10条消息是立即生效的,也就是说如果中间某条消息中的插入操作发生了异常,那么之前的操作是无法回滚的。这也便引出了下面的第四种场景。

场景四:使用事务,添加rewriteBatchedStatements=true参数

  1. package jdbcbatchtest;
  2. import java.sql.Connection;
  3. import java.sql.DriverManager;
  4. import java.sql.PreparedStatement;
  5. import java.sql.SQLException;
  6. public class Main {
  7. public static void main(String[] args) {
  8. Connection conn = null;
  9. PreparedStatement pst = null;
  10. try {
  11. Class.forName("com.mysql.jdbc.Driver");
  12. conn = DriverManager.getConnection("jdbc:mysql://********:3306/****?rewriteBatchedStatements=true", "****", "****");
  13. String sql = "insert into employees (user_id, age, first_name, second_name, date) values(?,?,?,?,?)";
  14. conn.setAutoCommit(false);
  15. pst = conn.prepareStatement(sql);
  16. int loop = 0;
  17. for(loop = 0; loop < 1000; loop++) {
  18. pst.setInt(1, loop);
  19. pst.setInt(2, 18);
  20. pst.setString(3, "roger");
  21. pst.setString(4, "zhang");
  22. pst.setString(5, "2017-01-17");
  23. pst.addBatch();
  24. }
  25. pst.executeBatch();
  26. conn.commit();
  27. } catch (ClassNotFoundException e) {
  28. e.printStackTrace();
  29. } catch (SQLException e) {
  30. e.printStackTrace();
  31. try {
  32. conn.rollback();
  33. } catch (SQLException e1) {
  34. e1.printStackTrace();
  35. }
  36. } finally {
  37. if(pst != null) {
  38. try {
  39. pst.close();
  40. } catch (SQLException e) {
  41. e.printStackTrace();
  42. }
  43. }
  44. if(conn != null) {
  45. try {
  46. conn.close();
  47. } catch (SQLException e) {
  48. e.printStackTrace();
  49. }
  50. }
  51. }
  52. }
  53. }

抓包结果:


和场景三相比,也是将1000条sql语句分成若干个报文发送到mysql服务器,只是最后多了一个commit的操作。


综上,rewriteBatchedStatements=true才是jdbc实现批量操作的关键。


通过对源码的分析,我们来更加深入地理解一下其中的原理。(源码来自于github, 版本为5.1)

我们可以在StatementImpl.java中找到答案,在executeBatchInternal这个函数中有这么一段:

  1. if (this.batchedArgs != null) {
  2. int nbrCommands = this.batchedArgs.size();
  3. this.batchedGeneratedKeys = new ArrayList<ResultSetRow>(this.batchedArgs.size());
  4. boolean multiQueriesEnabled = locallyScopedConn.getAllowMultiQueries();
  5. if (locallyScopedConn.versionMeetsMinimum(4, 1, 1)
  6. && (multiQueriesEnabled || (locallyScopedConn.getRewriteBatchedStatements() && nbrCommands > 4))) {
  7. return executeBatchUsingMultiQueries(multiQueriesEnabled, nbrCommands, individualStatementTimeout);
  8. }
  9. if (locallyScopedConn.getEnableQueryTimeouts() && individualStatementTimeout != 0 && locallyScopedConn.versionMeetsMinimum(5, 0, 0)) {
  10. timeoutTask = new CancelTask(this);
  11. locallyScopedConn.getCancelTimer().schedule(timeoutTask, individualStatementTimeout);
  12. }


  1. public boolean getRewriteBatchedStatements() {
  2. return this.rewriteBatchedStatements.getValueAsBoolean();
  3. }


由于multiQueriesEnabled的默认值是false, 通过locallyScopedConn.getRewriteBatchedStatements()我们得知 只有当rewriteBatchedStatements标志位为true并且一次的批量 操作的数据大于4时,才会使用批量操作。

  1. private BooleanConnectionProperty rewriteBatchedStatements = new BooleanConnectionProperty("rewriteBatchedStatements", false,
  2. Messages.getString("ConnectionProperties.rewriteBatchedStatements"), "3.1.13", PERFORMANCE_CATEGORY, Integer.MIN_VALUE);

而rewriteBatchedStatements的默认值为false,这就是本文之前提到的在批量操作时为什么要设置该参数为true的原因。


我们再来看看jdbc具体执行批量操作的代码executeBatchUsingMultiQueries:

  1. for (commandIndex = 0; commandIndex < nbrCommands; commandIndex++) {
  2. String nextQuery = (String) this.batchedArgs.get(commandIndex);
  3. if (((((queryBuf.length() + nextQuery.length()) * numberOfBytesPerChar) + 1 /* for semicolon */
  4. + MysqlIO.HEADER_LENGTH) * escapeAdjust) + 32 > this.connection.getMaxAllowedPacket()) {
  5. try {
  6. batchStmt.execute(queryBuf.toString(), java.sql.Statement.RETURN_GENERATED_KEYS);
  7. } catch (SQLException ex) {
  8. sqlEx = handleExceptionForBatch(commandIndex, argumentSetsInBatchSoFar, updateCounts, ex);
  9. }
  10. counter = processMultiCountsAndKeys((StatementImpl) batchStmt, counter, updateCounts);
  11. queryBuf = new StringBuilder();
  12. argumentSetsInBatchSoFar = 0;
  13. }
  14. queryBuf.append(nextQuery);
  15. queryBuf.append(";");
  16. argumentSetsInBatchSoFar++;
  17. }

当一个数据包的长度不超过maxAllowedPacket,会持续累加,直到超过最大长度时将数据包发送出去。


拓展: multiQueriesEnabled的作用

multiQueriesEnabled为true,则jdbc支持执行的一条语句中包含多条由分号分割的语句。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/算法编织者2/article/detail/61872
推荐阅读
相关标签
  

闽ICP备14008679号