My job stopped while using Spot Instance, what should I do?

A.
Spot Instances are a type of AWS compute resource that can be interrupted at any time depending on server availability. As a result, when using Spot Instances, calculations may be terminated if AWS resources become insufficient.

Starting from April 21, 2025, Materials Square no longer provides the Resume Job feature for calculations running on Spot Instances. Therefore, if the job is stopped, you need to set up and run the calculation again from the beginning.

  • In the case of vc-relax or relax calculations in Quantum ESPRESSO, you can start a new job by referring to the intermediate structure data (calculated before the termination).
  • For calculations such as scf, nscf, or phonon, where no structural updates occur, the calculation must be completely restarted from the beginning.

:bell: Additional Information
If you prefer a more stable and uninterrupted computing environment, we recommend using On-Demand Instances. For a detailed comparison between Spot and On-Demand Instances, please refer to this post Q. What is the difference between Spot Instances and On-Demand Instances?


Q. Spot Instance 사용 중 계산이 중단되었습니다. 어떻게 해야 하나요?

A.
Spot Instance는 AWS 서버 상황에 따라 언제든지 강제 회수될 수 있는 구조입니다.
따라서 Spot Instance 사용 중 서버 자원이 부족해지면 계산이 예고 없이 중단될 수 있습니다.

2025년 4월 21일부터 Materials Square에서는 Spot Instance를 사용하는 계산에 대해 '작업 재개(Resume)기능’을 더 이상 제공하지 않습니다. 이에 따라, Spot Instance 사용 중 계산이 중단된 경우에는 처음부터 새로 계산을 시작해주셔야 합니다.

QE의 relax, vc-relax 계산의 경우, 중단된 시점까지 생성된 중간 구조 데이터를 참고하여 새 작업을 시작할 수 있습니다. 하지만 scf, nscf, phonon 등 구조 변화가 없는 계산은 처음부터 다시 수행해야 합니다.

:bell: 추가 안내
보다 안정적이고 예측 가능한 계산을 원하신다면 On-Demand Instance 사용을 권장드립니다. Spot과 On-Demand의 차이는 아래 게시물을 참고해 주세요.
Q. What is the difference between Spot Instances and On-Demand Instances?