前提

前のプロジェクトの時にAWS SQSのキューをポーリングして稼働するworkerをgoで作った時のお話になります。 goのworkerはcontainerで動かすといった感じです

課題

その時に課題だったのが、goのworkerを改修してリリースする時にcontainerを破棄して、新しく再構築します。

workerは常に稼働しているのでworkerが何か処理をしている時にOSレベルで破棄され、強制終了するとデータが不整合な状態になってしまうという課題があった

sudo kill -SIGTERM 終了シグナルが送られた時、そのままworkerが終了してしまう事の弊害です

上位にLoad Balancerなるものがある場合は対応が楽になりますが、今回はポーリングしてるworkerなのでちょっと状況が異なります

常駐化の役割はsupervisorを活用するパターンがあります。

supervisorが、go workerの終了までwaitしてくれて...とかという感じでうまく立ち回ってくれる事を期待しましたが、検証の結果ダメでした。

この時もsudo kill -SIGTERM 終了シグナルを送られると、Supervisorは即座に終了してしまい、workerも即座に落ちてしまうのでこちらも不整合データが発生する可能性があります

という方針で解決する事にしました

実際に解決した時のコードをサンプルとして残しておきます github.com

mainスレッドでは1つgoroutineを発生させて、OSのsignalを監視しています
終了シグナルをキャッチするとstopChチャネルで伝達します
taskA(),taskB()は本来のworkerの仕事を行っています
1. func task()はtaskA(),taskB()の共通メソッドをdryにしただけのものです
2. 常駐させるため、forを活用します。SQSのキューのポーリングが切られたらdefaultのところで再度立ち上がり、無限ループします
3. 終了シグナルのstopChを気にしながら動きます selectの記載
4. 終了シグナルをキャッチすると処理が終了したらreturnして、タスク終了チャネルtaskADoneCh,taskBDoneChに伝達します
mainスレッドは各タスクの終了 = taskADoneCh,taskBDoneChを待って終了します