赞
踩
总结来说就是:
JVM 想执行 no vm operation ,这个操作需要线程都进入安全点,整个期间一共有 12 个线程,正在运行的线程有 2 个,需要等待这两个线程进入安全点,等待这 2 个线程进入安全点并阻塞耗费了 5037 毫秒。
要找出这两个线程也很简单,它不是需要 5000 多毫秒才进入安全点吗,我就加上参数让进入安全点时间超过 5000 毫秒的线程超时就行了。
于是加上 -XX:+SafepointTimeout 和 -XX:SafepointTimeoutDelay=5000 参数,执行代码。
哦豁,这不就是 t1 和 t2 线程吗。
这个结果也是意料之中的,我们的重点是这个 no vm operation 到底是个什么操作?凭什么让主线程等这么久?
=======================================================================
这个 VM 操作的名字叫做 no vm operation ,翻译成中文就是不是 VM 操作,连起来就是不是 VM 操作的 VM 操作?
一个不是 VM 操作的操作居然也能让全局进入安全点?
那到底是什么操作呢?知识盲区了呀!
一顿谷歌百度,也没有找到一个比较信服的答案。
于是乎,我决定看 JVM 的源码。
在 JVM 源码里面全局搜索 no vm operation ,发现只有 safepoint.cpp 有这个信息。
点击去一看,果然,一下子定位到打印日志的地方,就是这个
SafepointSynchronize::print_statistics() 方法。
其中有一句很关键的代码:
_vmop_type == -1 ?
“no vm operation” :
VM_Operation::name(sstats->_vmop_type)
这是一个三目运算:如果 _vmop_type 等于 -1,打印的安全点日子操作类型那一栏就会输出 no vm operation 。
而这个 _vmop_typen 呢,是结构体 SafepointStats 中的一个成员,具体的含义是触发安全点的 VM 操作类型。
那什么操作类型会将 _vmop_type 设置成 -1 呢?
我在开启安全点方法里面找到了答案:
如果不是 VM 操作触发的安全点事件,这个时候就会将 _vmop_type 设置成 -1。
也就是说还有其他情况也可以触发安全点事件,让所有线程进入安全点。
那么,我们只需要找到触发安全点事件对应的代码就行了。
一个个文件找太难,换个思路,想要进入安全点,必定要调用进入安全点的方法。
而进入安全点的方法就是 safepoint.cpp 里面的
SafepointSynchronize::begin() 方法。
我们只需要全局搜一下哪里调用了这个
SafepointSynchronize::begin() 这个方法应该就能找到触发安全点事件对应的代码。
全局搜索发现只有 vmThread.cpp 里面有调用,vmThread.cpp 封装的都是 VMThread 相关的方法。
===========================================================================
VMThread 是个什么东西呢?
VMThread 是 JVM 自身启动的一个内部线程,它主要用来协调其它线程达到安全点以及执行 VM 操作。
VM 操作这个概念全文已经多次提到了,那到底有哪些操作是 VM 操作呢?
我们比较熟悉的 CMS 的初始标记和最终标记都是 VM 操作,又比如 thread dump,线程挂起以及偏向锁的撤销等等都是 VM 操作。
VM 操作类型有很多,JVM 对应的源码在 vm_operations.hpp 定义的宏 VM_OPS_DO 里面。
宏 VM_OPS_DO 里面的每个 VM 操作,基本上都有一个单独的子类去实现。
VMThread 里面有个 VMOperationQueue 队列,用于存放一个一个连在一起的 VM 操作。
image
VMThread 循环执行 VM 操作的方法,叫做 VMThread::loop() 方法。
loop() 方法是 VMThread 的核心方法,该方法不断从 VMOperationQueue 队列中获取待执行的 VM 操作,然后调用每种 VM 操作具体的实现 evaluate() 方法执行不同的逻辑。
这里用了策略模式,VMThread 执行逻辑是固定的,只负责调度,而每种 VM 操作需要根据需求自己实现 evaluate() 方法。
=======================================================================
而我们上面苦苦寻找的 no vm operation 原因,就在 VMThread 的 loop() 方法里面。
从源码可以看到,在 VM 操作为空的情况下,只要满足以下 3 个条件,也是会进入安全点的:
VMThread 处于正常运行状态
设计了进入安全点的间隔时间
SafepointALot 是否为 true 或者是否需要清理
程序正常运行 VMThread 肯定能正常运行,所以条件 1 能满足。
用 java -XX:+UnlockDiagnosticVMOptions -XX:+PrintFlagsFinal 2>&1 | grep Safepoint 命令查看 JVM 关于安全点的默认参数,发现
GuaranteedSafepointInterval 默认设置成了 1 秒,所以条件 2 也能满足。
对于条件 3,SafepointALot 默认为 false,那要想条件 3 能满足的话,必须
SafepointSynchronize::is_cleanup_needed()为 true。
点进去看它的具体实现:
通过追踪代码,可以发现
SafepointSynchronize::is_cleanup_needed() 就是判断 StubQueue 里面是否有 stub 缓存。
那 StubQueue 是什么呢?stub 又是什么呢?
这涉及 JVM 的模板解释器和编译器了,由于篇幅有限,下次有机会的话继续深入探讨。
我用一句话概括就是 JVM 执行期间的编译解释代码缓存。
清理 stub 你可以简单地理解成清理代码缓存。
也就是说,在 JVM 正常运行的时候,如果设置了进入安全点的间隔,就会隔一段时间判断是否有代码缓存要清理,如果有,会进入安全点。
这个触发条件不是 VM 操作,所以会将 _vmop_type 设置成-1,输出日志的时候打印对应的 no vm operation,也就是我们看到的安全点日志。
而文章开头的代码执行效果,主线程一直在等待 t1 和 t2 进入安全点,正是触发了这个条件。
=========================================================================
回过头来再看文章开头的代码,通过加上
-XX:GuaranteedSafepointInterval = 0 将进入安全点间隔时间设置成 0,也就是关闭定时进入安全点,看看代码运行结果是怎么样的。
-XX:GuaranteedSafepointInterval 是诊断性质的参数,需要加上-XX:+UnlockDiagnosticVMOptions 参数解锁诊断参数方可使用。
从运行结果上可以看到,关闭过一段时间进入安全点的设置之后,主线程睡了 1 秒后,不再需要等待 t1 和 t2 线程循环执行完,睡完之后马上就打印了此时的 num 值。
这样的运行结果,也再一次地验证了我们的推论。
间隔一秒进入安全点的设置还是有它的作用的,我建议你别去动它。
-XX:GuaranteedSafepointInterval 是个诊断性质的参数,不建议线上使用。
从网上的文献来看,关掉这个参数也有可能会造成一些未知错误,具体是什么错误我也没有遇见过,也不知道是真是假。
总之,线上环境谨慎一点总没错,如果你对 JVM 底层不是很熟悉的话,我建议还是别去动它。
========================================================================
知识点分享到这里就结束了,分享一个有趣的事情。
在我追踪 JVM 源码的过程中,我发现编写 StubQueue 的作者留下了这样一段注释:
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。