传输终结点未连接-mesos从/主

mccptt67  于 2021-06-21  发布在  Mesos
关注(0)|答案(4)|浏览(424)

我想把一个mesos的奴隶和它的主人联系起来。当从机尝试连接到主机时,我收到以下消息:

I0806 16:39:59.090845   935 hierarchical.hpp:528] Added slave 20150806-163941-1027506442-5050-921-S3 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000] (allocated: )
E0806 16:39:59.091384   940 socket.hpp:107] Shutdown failed on fd=25: Transport endpoint is not connected [107]
I0806 16:39:59.091508   940 master.cpp:3395] Registered slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) with cpus(*):1; mem(*):1938; disk(*):3777; ports(*):[31000-32000]
I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected
I0806 16:39:59.091868   940 master.cpp:2203] Disconnecting slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092031   940 master.cpp:2222] Deactivating slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian)
I0806 16:39:59.092248   939 hierarchical.hpp:621] Slave 20150806-163941-1027506442-5050-921-S3 deactivated

错误似乎是:
e0806 16:39:59.091384 940插座。hpp:107]fd=25时关闭失败:传输终结点未连接[107]
主机的启动使用:

./mesos-master.sh --ip=10.129.62.61 --work_dir=~/Mesos/mesos-0.23.0/workdir/ --zk=zk://10.129.62.61:2181/mesos --quorum=1

奴隶呢

./mesos-slave.sh --master=zk://10.129.62.61:2181/mesos

如果我在与主机相同的虚拟机上运行slave,它就可以正常工作。
我在网上找不到多少信息。我正在virtualbox 5上运行两个虚拟机(debian 8.1)。主机是Windows7。
编辑1:
主机和从机都运行在专用的vm上。
两个vms nextork都是使用桥接网络配置的。
来自主服务器的ifconfig:

eth0      Link encap:Ethernet  HWaddr 08:00:27:cc:6c:6e
          inet addr:10.129.62.61  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fecc:6c6e/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:5335953 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1422428 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:595886271 (568.2 MiB)  TX bytes:362423868 (345.6 MiB)

从设备的ifconfig:

eth0      Link encap:Ethernet  HWaddr 08:00:27:56:83:20
          inet addr:10.129.62.49  Bcast:10.129.255.255  Mask:255.255.0.0
          inet6 addr: fe80::a00:27ff:fe56:8320/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:4358561 errors:0 dropped:0 overruns:0 frame:0
          TX packets:3825 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:397126834 (378.7 MiB)  TX bytes:354116 (345.8 KiB)

编辑2:
从日志可以在http://pastebin.com/cxzubhkr
主日志可以在http://pastebin.com/thyr1par

fsi0uk1n

fsi0uk1n1#

我也有类似的问题。我的奴隶日志会被

E0812 15:58:04.017990  2193 socket.hpp:107] Shutdown failed on fd=13: Transport endpoint is not connected [107]

我的主人会

F0120 20:45:48.025610 12116 master.cpp:1083] Recovery failed: Failed to recover registrar: Failed to perform fetch within 1mins

主人会死,新的选举会发生,被杀的主人会被暴发户重新启动(我在centos 6盒子上),并被添加到潜在的主人池中。因此,我选择的主节点将围绕主节点菊花链。许多主人和奴隶的重新开始没有做任何事情,问题总是会在主人当选后的1分钟内再次出现。
我的解决方案来自一个this stackoverflow问题(谢谢)和github gist注解中的提示。
要点是 /etc/default/mesos-master 必须指定一个法定人数(在我的案例3中,它需要与mesos主机的数量正确)

MESOS_QUORUM=2

这对我来说似乎很奇怪,因为我在文件中有相同的信息 /etc/mesos-master/quorum 但我把它加到 /etc/default/mesos-master 重新启动了mesos主设备和从设备,但问题没有恢复。
我希望这对你有帮助。

6pp0gazn

6pp0gazn2#

I0806 16:39:59.091747   940 master.cpp:1006] Slave 20150806-163941-1027506442-5050-921-S3 at slave(1)@127.0.1.1:5051 (debian) disconnected

这是错误提示。
你的奴隶暴露了错误的ip。
追加 --ip=10.129.62.49 对奴隶的命令和它的工作。

5hcedyr0

5hcedyr03#

我在升级mesos版本(例如0.20.0->0.27.0)时在日志中遇到了这个错误。有时以前版本的数据与其他版本不兼容。
我是这样补救的:
首先确保所有节点已停止mesos主服务:

sudo service mesos-master stop

然后清除所有潜在的旧数据:
删除 $MESOS_WORK_DIR ( /var/mesos 就我而言):

sudo rm -rf /var/mesos

清除zookeeper中的mesos数据:

$ zkCli.sh
WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] rmr /mesos
[zk: localhost:2181(CONNECTED) 0] quit
Quitting...

完成这些步骤后,我在所有节点上启动了mesos主服务,然后它又重新联机。

hts6caw3

hts6caw34#

把奴隶和 --ip=10.129.62.49 相反

相关问题