最近在跑cpu模拟,gem5,一个任务一跑就是5+小时。
目前半手工实现,用python去生成命令复制到terminal里面执行,命令类似
```
ssh ug22 "cd ~/as03/result/; ./run.sh 4 ../10000.txt >../log/log-4-10000.log 2>&1" &
```
简单解释一下,就是远程到别的机器执行一个命令,然后让这个ssh在后台执行。
这样只要在一台机器上挂tmux,就可以保证其他机器上面运行的任务不会因为ssh断开而挂掉,而且output也不会在这台终端上面狂刷,然后我们还可以在这个终端上干点别的。
但是问题来了,
- 任务结束后ssh进程不会结束掉,必须手动去kill,不知道怎么才能让任务结束掉就结束ssh连接。
- 如果要断开ssh连接的话,好像没有办法让任务继续在后台去跑(不启动tmux之类的东西)。
半手动还是很麻烦,而且没法实现队列。队列的python框架有很多,那部分也是比较好实现的。但是不知道py的自动化、分布式框架有哪些呢?
基本需要的就是,可以ssh到其他机器,保证模拟结束之前,进程不会挂掉,得到一些任务的信息,比如正常结束、运行时间等等。
本来想用subprocess的,但是需要wait的话只能去开多个thread,一次跑40台机器感觉thread开不起呀,会被管理员骂的。
求推荐一些框架去跑分布式的task。
目前半手工实现,用python去生成命令复制到terminal里面执行,命令类似
```
ssh ug22 "cd ~/as03/result/; ./run.sh 4 ../10000.txt >../log/log-4-10000.log 2>&1" &
```
简单解释一下,就是远程到别的机器执行一个命令,然后让这个ssh在后台执行。
这样只要在一台机器上挂tmux,就可以保证其他机器上面运行的任务不会因为ssh断开而挂掉,而且output也不会在这台终端上面狂刷,然后我们还可以在这个终端上干点别的。
但是问题来了,
- 任务结束后ssh进程不会结束掉,必须手动去kill,不知道怎么才能让任务结束掉就结束ssh连接。
- 如果要断开ssh连接的话,好像没有办法让任务继续在后台去跑(不启动tmux之类的东西)。
半手动还是很麻烦,而且没法实现队列。队列的python框架有很多,那部分也是比较好实现的。但是不知道py的自动化、分布式框架有哪些呢?
基本需要的就是,可以ssh到其他机器,保证模拟结束之前,进程不会挂掉,得到一些任务的信息,比如正常结束、运行时间等等。
本来想用subprocess的,但是需要wait的话只能去开多个thread,一次跑40台机器感觉thread开不起呀,会被管理员骂的。
求推荐一些框架去跑分布式的task。