当前位置:   article > 正文

Mac virtualbox k8s通过yaml创建pod_解决k8s无法通过svc访问其他节点pod的问题

pod和svc关联 yaml

问题描述

有两个(或多个)运行在不同节点上的pod,通过一个svc提供服务,如下:

  1. root@master1:~# kubectl get pod -o wide
  2. NAME READY STATUS RESTARTS AGE IP NODE
  3. kubia-nwjcc 1/1 Running 0 33m 10.244.1.27 worker1
  4. kubia-zcpbb 1/1 Running 0 33m 10.244.2.11 worker2
  5. root@master1:~# kubectl get svc kubia
  6. NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
  7. kubia ClusterIP 10.98.41.49 <none> 80/TCP 34m

当透过其他pod访问该svc时(使用命令k exec kubia-nwjcc -- curl http://10.98.41.49),出现了只能访问到和自己同处于一个节点的pod的问题,访问到其他节点上的pod时会出现command terminated with exit code 7的问题,如下:

正常访问到相同节点的pod

  1. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  2. % Total % Received % Xferd Average Speed Time Time Time Current
  3. Dload Upload Total Spent Left Speed
  4. 100 23 0 23 0 0 8543 0 --:--:-- --:--:-- --:--:-- 11500
  5. You've hit kubia-nwjcc

无法访问其他节点的pod

  1. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  2. % Total % Received % Xferd Average Speed Time Time Time Current
  3. Dload Upload Total Spent Left Speed
  4. 0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0
  5. curl: (7) Failed to connect to 10.98.41.49 port 80: No route to host
  6. command terminated with exit code 7

本问题随机发生,如下:

  1. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  2. You've hit kubia-nwjcc
  3. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  4. command terminated with exit code 7
  5. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  6. command terminated with exit code 7
  7. root@master1:~# kubectl exec kubia-nwjcc -- curl http://10.98.41.49
  8. You've hit kubia-nwjcc

问题原因

原因是因为,我是用的VirtualBox虚拟化出了两台 ubuntu 主机搭建的 k8s ,详见 virtualbox 虚拟机组网 。在组网的过程中,我采用了双网卡方案,网卡1使用NAT地址转换用来访问互联网,网卡2使用Host-only来实现虚拟机互相访问flannel默认使用了网卡1的 ip 地址,而网卡1的NAT地址转换是无法访问其他虚拟机的,从而导致的问题的产生。

解决方案

因为是flannel使用的默认网卡1导致了这个问题的产生,所以我们需要使用--iface参数手动指定它使用网卡2来进行通信,这就需要修改flannel的配置文件,执行如下命令即可进行修改:

sudo kubectl edit daemonset kube-flannel-ds-amd64 -n kube-system

如果你执行后出现了Error from server (NotFound): daemonsets.extensions "kube-flannel-ds-amd64" not found的问题,按照下列步骤找到其配置文件名称:

查找flannel配置文件名

首先输入kubectl get po -n kube-system,然后找到正在运行的flannelpod。

  1. root@master1:~# k get po -n kube-system
  2. NAME READY STATUS RESTARTS AGE
  3. coredns-bccdc95cf-69zrw 1/1 Running 1 2d1h
  4. coredns-bccdc95cf-77bg4 1/1 Running 1 2d1h
  5. etcd-master1 1/1 Running 6 2d1h
  6. kube-apiserver-master1 1/1 Running 6 2d1h
  7. kube-controller-manager-master1 1/1 Running 2 2d1h
  8. # 下面这四个都可以
  9. kube-flannel-ds-amd64-8c2lc 1/1 Running 4 2d1h
  10. kube-flannel-ds-amd64-dflsl 1/1 Running 9 23h
  11. kube-flannel-ds-amd64-hgp55 1/1 Running 1 2d1h
  12. kube-flannel-ds-amd64-jb79v 1/1 Running 33 26h
  13. kube-proxy-2lz7f 1/1 Running 0 23h
  14. kube-proxy-hqsdn 1/1 Running 4 2d1h
  15. kube-proxy-rh92r 1/1 Running 1 2d1h
  16. kube-proxy-tv4mt 1/1 Running 0 26h
  17. kube-scheduler-master1 1/1 Running 2 2d1h

然后使用flannel的 pod 名来查看其配置yaml。使用命令kubectl get po -n kube-system kube-flannel-ds-amd64-8c2lc -o yaml,注意修改其中的 pod 名称。在输出的内容开头可以找到ownerReferences字段,其下的name属性就是要找的配置文件名。如下:

  1. root@master1:~# kubectl get po -n kube-system kube-flannel-ds-amd64-8c2lc -o yaml
  2. apiVersion: v1
  3. kind: Pod
  4. metadata:
  5. creationTimestamp: "2019-07-01T07:53:25Z"
  6. generateName: kube-flannel-ds-amd64-
  7. labels:
  8. app: flannel
  9. controller-revision-hash: 7c75959b75
  10. pod-template-generation: "1"
  11. tier: node
  12. name: kube-flannel-ds-amd64-8c2lc
  13. namespace: kube-system
  14. ownerReferences:
  15. - apiVersion: apps/v1
  16. blockOwnerDeletion: true
  17. controller: true
  18. kind: DaemonSet
  19. name: kube-flannel-ds-amd64
  20. uid: df09fb4c-5390-4498-b539-74cb5d90f66d
  21. resourceVersion: "126940"
  22. selfLink: /api/v1/namespaces/kube-system/pods/kube-flannel-ds-amd64-8c2lc
  23. uid: 31d11bc6-b8f3-492a-9f92-abac1d330663

将找到的配置文件名填入sudo kubectl edit daemonset <配置文件名> -n kube-system并执行即可打开配置文件。

修改配置文件,指定目标网卡

在打开的配置文件中找到spec.template.spec.containers[0].args字段,如下:

  1. ...
  2. spec:
  3. revisionHistoryLimit: 10
  4. selector:
  5. matchLabels:
  6. app: flannel
  7. tier: node
  8. template:
  9. metadata:
  10. creationTimestamp: null
  11. labels:
  12. app: flannel
  13. tier: node
  14. spec:
  15. containers:
  16. # 看这里
  17. - args:
  18. - --ip-masq
  19. - --kube-subnet-mgr
  20. command:
  21. - /opt/bin/flanneld
  22. env:
  23. ...

这个字段表示了flannel启动时都要附加那些参数,我们要手动添加参数--iface=网卡名来进行指定,如下:

  1. - args:
  2. - --ip-masq
  3. - --kube-subnet-mgr
  4. - --iface=enp0s8

这里的enp0s8是我的网卡名,你可以通过ifconfig来找到自己的网卡名。

修改完成之后输入:wq保存退出。命令行会提示:

daemonset.extensions/kube-flannel-ds-amd64 edited

这就说明保存成功了。然后就要重启所有已经存在的flannel。使用kubectl delete pod -n kube-system <pod名1> <pod名2> ...把所有的flannel删除即可。k8s 会自动按照你修改好的yaml配置重建flannel

  1. root@master1:~# kubectl delete pod -n kube-system \
  2. kube-flannel-ds-amd64-8c2lc \
  3. kube-flannel-ds-amd64-dflsl \
  4. kube-flannel-ds-amd64-hgp55 \
  5. kube-flannel-ds-amd64-jb79v
  6. pod "kube-flannel-ds-amd64-8c2lc" deleted
  7. pod "kube-flannel-ds-amd64-dflsl" deleted
  8. pod "kube-flannel-ds-amd64-hgp55" deleted
  9. pod "kube-flannel-ds-amd64-jb79v" deleted

然后再次kubectl get pod -n kube-system | grep flannel就发现所有flannel都已经重启成功了:

  1. root@master1:~# kubectl get pod -n kube-system | grep flannel
  2. kube-flannel-ds-amd64-2d6tb 1/1 Running 0 89s
  3. kube-flannel-ds-amd64-kp5xs 1/1 Running 0 86s
  4. kube-flannel-ds-amd64-l9728 1/1 Running 0 92s
  5. kube-flannel-ds-amd64-r87qc 1/1 Running 0 91s

然后再随便找个pod试一下就可以看到问题解决了:

  1. root@master1:~# k exec kubia-d7kjl -- curl -s http://10.103.214.110
  2. You've hit kubia-d7kjl
  3. root@master1:~# k exec kubia-d7kjl -- curl -s http://10.103.214.110
  4. You've hit kubia-d7kjl
  5. root@master1:~# k exec kubia-d7kjl -- curl -s http://10.103.214.110
  6. You've hit kubia-kdjgf
  7. root@master1:~# k exec kubia-d7kjl -- curl -s http://10.103.214.110
  8. You've hit kubia-d7kjl

问题发现

这里记录一下问题的发现经过,希望对大家有所帮助。当我一开始遇到这个问题的时候还以为是svc的问题,但是在查看了对应svcendpoint之后,并没有发现有什么显式的问题出现,如下,可以看到svc正确的识别到了已存在的两个pod

  1. root@master1:~# kubectl get ep kubia
  2. NAME ENDPOINTS AGE
  3. kubia 10.244.1.5:8080,10.244.3.4:8080 8h

什么是endpoint?

endpoint可以简单理解成路由导向的终点,因为 svc 是将许多个动态的 ip 映射成一个静态的 ip。那么就可以把这些动态的 pod ip 称为 svc 的endpoint

继续说,因为在测试过程中向 svc 发了很多请求,也可以察觉到其实 svc 已经随机的将你的请求分发到了不同的 pod,只是目标 pod 不在当前节点的时候就会返回exit code 7。然后尝试一下绕过 svc 直接请求 pod,首先新建出来一个 pod,然后使用kubectl get po -o wide查看 pod ip。

  1. root@master1:~# kubectl get po -o wide
  2. NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
  3. kubia-d7kjl 1/1 Running 0 8h 10.244.1.5 worker1 <none> <none>
  4. kubia-kdjgf 1/1 Running 0 9h 10.244.3.4 worker2 <none> <none>
  5. kubia-kn45c 1/1 Running 0 13s 10.244.1.6 worker1 <none> <none>

可以看到 k8s 把新的 pod 放在了worker1上,所以我们就拿这个新的 pod 去直接访问其他两个 pod。这里不能在主机上直接 ping pod ip,因为 pod 都是开放在虚拟网络10.244.x.x上的,在主机上访问不到

访问相同节点上的 pod

  1. root@master1:~# k exec -it kubia-d7kjl -- ping 10.244.1.6
  2. PING 10.244.1.6 (10.244.1.6): 56 data bytes
  3. 64 bytes from 10.244.1.6: icmp_seq=0 ttl=64 time=0.377 ms
  4. 64 bytes from 10.244.1.6: icmp_seq=1 ttl=64 time=0.114 ms
  5. ...

访问不同节点上的 pod

  1. root@master1:~# k exec -it kubia-d7kjl -- ping 10.244.3.4
  2. PING 10.244.3.4 (10.244.3.4): 56 data bytes
  3. # 没反应了
  4. # 死一般寂静

这么看的话其实问题不在svc上,而是两个节点之间的网络联通出现了问题。而10.244.x.x虚拟网段是通过flannel搭建的,所以问题自然就是出在它上。在翻阅了官方文档后可以发现,官方明确指出了在vagrant类型的虚拟机上运行时要注意默认网卡的问题,再结合自己的网络情况,问题就已经很明确了了。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/420121
推荐阅读
相关标签
  

闽ICP备14008679号