Coatiは、Amazon EC2(略称:EC2)上に構築した、お客様のシステムの障害対応を自動化するサービスです。Coatiを開始するまでの手続きは非常に簡単で、またお申込み後は即時ご利用いただくことができます。
Coatiは基本的にEC2インスタンス上で動作するOS内のサービスを監視しており、サービスの異常を検知するとサービス、またはインスタンスの再起動を行い復旧を行います。監視対象のインスタンスや、監視するサービスはGUI管理画面から柔軟に設定可能です。お客様が管理されるインスタンスやサービスの重要性をご検討の上、監視を行わない、または監視のみを行い復旧は行わない、といった設定を適用することができます。
これまで運用監視ツールの情報を元にエンジニアが対処してきた障害対応は、Coatiがその大半を肩代わりすることができます。Coatiはお客様のシステム運用コストの削減に大きく寄与するサービスです。
Coati機能概要
Coatiの持つ機能について、以下にご説明します。
- 自動設定機能
簡単なステップの設定のみで、後はCoatiが自動的に監視対象となるEC2インスタンスを検出し、その中で動いているサービスの状態を監視します。デフォルトでは、お客様が稼働させている全てのEC2インスタンスと、そのサービスが監視対象となります。監視はWindows、Linuxの両方に対応しています。(詳細は後述のサポート環境をご参照ください) - 監視対象の設定機能
監視対象のEC2インスタンスやサービスを指定することが可能です。 - 監視機能 (check)
監視対象サービスのステータスを確認する機能です。OS内部で自動起動に設定されているサービスが監視対象となります。 - 復旧機能 (recover)
監視対象サービスの停止を検知した場合、サービスの再起動を実行します。それでもサービスが復旧しない場合は、インスタンスの再起動を実行します。 - 通知機能
障害発生の検知や復旧に際して、指定いただいたメールアドレス宛に通知をお送りすることができます。 - レポート機能(将来実装予定)
サービスの障害発生時と障害復旧時にシステム情報の収集を行い、レポートとして管理者へ通知します。 - APIの提供(将来実装予定)
Coatiの提供する各機能をAPIとして外部に提供します。
Coatiの仕組み
Coatiは、AWSが提供しているAPIを使用して、監視対象となる EC2インスタンスを自動検出します。その後、ユーザーにより設定されたRoleNameを用いて、AWS Systems Manager エージェント (SSM エージェント) がインストールされたインスタンスに対してRun Commandでサービスの自動検出、障害監視、復旧を行います。
Coatiの動作について
1.リソース検出
Coatiの監視対象となるリソースの検出は30分毎に行われます。また、リソース検出ボタンを実行すれば、リソースの検出が即座に行えます。
2.監視と回復の基本動作
CoatiはEC2インスタンス内のサービスの状態監視を行い、障害と判断された場合は回復を試みます。 サービスの回復は2段階の処理に分けて実行されます。
- コマンドによるサービスの再起動
- インスタンスの再起動
Coatiの標準の動作では、はじめにコマンドによるサービスの回復を試みて、それでも復旧できない場合はインスタンスの再起動を行います。インスタンスの再起動でサービスが回復できない場合は、再度コマンドによるサービスの回復を試みて、それでも復旧できない場合は、管理者へ通知メールを送信して監視対象から除外します。
3.サービスの監視と回復の方法
サービス状態の確認方法や回復方法は、監視対象OSによって異なります。
以下に各OS毎の監視(サービス状態の確認)と回復(再起動)方法についてまとめます。
OS | サービスの管理方式 | 監視(状態確認) | 回復(再起動) |
RHEL6/CentOS6/Amazon Linux | SysVinit | service statusコマンド | service --full-restart コマン |
RHEL7/RHEL8/CentOS7/Amazon Linux 2 | systemd | systemctl statusコマンド | systemctl restart コマンド |
Windows Server 2012 R2/2016 | Windowsサービス | Get-Service コマンドレット | Start-Service コマンドレット |
監視(状態確認)コマンド・回復(再起動)コマンドに30秒以上かかる場合はタイムアウトとなります。もし、回復(再起動)中にタイムアウトとなった場合は、復旧失敗として扱います。
Auto Recovery との併用
Auto Recoveryとは、EC2インスタンスにハードウェア障害やAWSによる修復が必要な障害が発生したとき、その障害から自動復旧させる AWS 上のサービスです。Coatiでは、監視対象のインスタンスに対してAuto Recoveryを併用することを強く推奨しております。CoatiとAuto Recoveryは、それぞれ次の障害に対して監視・自動復旧を行います。
Coati: EC2インスタンス上で動作しているサービスの障害
Auto Recovery: ハードウェア障害・ AWS側でのシステム障害
このようにCoatiとAuto Recoveryでは、それぞれ監視しているレイヤーが異なります。もし、監視対象のインスタンスがハードウェア障害によって利用できなくなった場合、Coatiはインスタンスを復旧できません。
そのため、監視対象で発生する障害に対して、各レイヤーで適切に監視・復旧させるため、Coatiと Auto Recoveryの両サービスを併用して設定することを推奨します。
Auto Recoveryを併用するにあたって、Coatiに特別な設定をする必要はありません。すでに監視したいインスタンスにAuto Recoveryが設定してある場合は、そのままAuto Recoveryをご利用することができます。また、Coatiのセットアップ後でも、Auto Recoveryを設定することは可能です。
コメント
0件のコメント
サインインしてコメントを残してください。