질문&답변
클라우드/리눅스에 관한 질문과 답변을 주고 받는 곳입니다.
리눅스 분류

mpi 사용 중인데, 자꾸 프로세서가 zombie 상태로 들어갑니다. 답변 부탁드립니다.

작성자 정보

  • 거믄 작성
  • 작성일

컨텐츠 정보

본문

안녕하세요...
왕초보가 질문 드립니다.


24CPU 를 3 node 로 나눠서 clustering 이 구축되어 있는 시스템입니다.
CentOS 사용하고 있으며 SUN grid ENgine 도 설치되어 있습니다.

24CPU 를 사용해서 제가 사용하는 프로그램을 병렬 실행 시키기 위해서 mpi run 을 돌립니다.
이렇게 실행된 job 들은 que 에 submit 됩니다.

문제는 이 다음부터인데.... 잘 되다가 어느 시점 부터 큐에 올라간 job 들이 제대로 실행되지 않습니다.
그리고 아래와 같은 에러메세지를 나타냅니다.

p4_error: Child process exited while making connection to remote process on pb1-2: 0
net_send: could not write to fd=5, errno = 32
net_send: could not write to fd=5, errno = 32
net_send: could not write to fd=4, errno = 32
net_send: could not write to fd=5, errno = 32
net_send: could not write to fd=4, errno = 32

처음에는... 뭔가 노드간에 네트워크 문제라고 생각되었는데..

알고보니, 제가 mpi 로 실행시킨 그 프로그램의 프로세서가 zombie 상태로 가더라는 겁니다.

여기서, 재부팅을 하거나, KILL 명령어를 통해서 zombie 가 된 프로세서를 죽여주면,
모든 문제는 해결됩니다.

문제를 피해갈 수 는 있으나 원천적으로 왜 좀비가되는지 명확하지가 않고 코드상으로 해결할 수 있는지도
궁금합니다.

제가 워낙 이쪽 분야에는 초보라서 질문이 제대로 전달되었는지 궁금하지만..

어떻게 해야지 이런 문제를 해결할 수 있을까요..?

관련자료

댓글 0
등록된 댓글이 없습니다.

공지사항


뉴스광장


  • 현재 회원수 :  60,076 명
  • 현재 강좌수 :  36,001 개
  • 현재 접속자 :  432 명