KDDIのiPhone/iPadのEメール障害、原因は作業ミスと機器の故障
KDDIは、4月25日、記者会見を開き、4月16日~19日に起こったスマートフォン「iPhone」、タブレット端末「iPad」のWi-Fi + CellularモデルのEメール送受信障害について「作業ミスと機器の故障が原因だった」と発表した。
障害は、4月16日の0時~1時、同日の8時~13時半の2回、iPhone/iPadで携帯電話用の「@ezweb.ne.jp」のメールアドレスの送受信ができなくなり、さらに16日13時半~10日3時の約2日半、メールの送受信がしにくい、連絡先が正しく表示されないなどの問題が発生した。全国の計415万人に影響が出たという。
取締役執行役員専務 技術統轄本部の嶋谷吉治本部長は、「通信障害はメールアドレスを扱う栃木県のサーバーで、バージョンアップのために古いサーバーから新しいサーバーへ情報を移す際に起きた。作業手順のミスや機械の故障が重なり、復旧に時間がかかった」と説明した。
まず、バージョンアップ作業の途中で現行のプロキシサーバで認証エラーが発生。この認証エラーは手順書ミスによるコマンドの誤りが原因で、現行ユーザー認証サーバ(レプリカ)と現行ユーザー認証サーバー(マスタ)を接続するところ、誤って新しいユーザー認証サーバー(マスタ)に接続。それによってユーザー情報のデータが一部欠損し、現行ユーザー認証サーバーのマスタ/レプリカ間でユーザー情報が一致しないため、一部のユーザーでメールの送受信ができなくなった。
第一の障害を解消し、新ユーザー認証サーバーに切り替える作業を続行したが、今度は新ユーザー認証サーバーでエラーが発生。これが第二の障害のきっかけだった。新ユーザー認証サーバー(レプリカ)の片系がハードウェア障害でダウンし、その後、残っていた片系も負荷がかかりダウン。メールボックスサーバーなどが認証サーバーに接続できなくなった。
サーバーを再起動したが、再起動の手順に問題があり、さらに中継サーバーに滞留した受信メールによって62台中24台のサーバーに負荷がかかり、メールの送受信ができにくい状態になった。
端末とサーバー間の同期ができにくくなることで、端末上の連絡先情報が見えなくなるという問題も発生。一部ユーザーの端末側の連絡先情報が消えてしまった。復旧後にはサーバーと端末の同期ができ、連絡先が正しく見られるようになったが、同期システム提供前、つまり2012年6月27日以前の連絡先情報はサーバー側にもデータがなく、再表示・復旧はできない。
嶋谷本部長は「結果として、今回の障害に関するユーザーからの問い合わせの総数は約4万件で、うち連絡先関連の問い合わせは2400件だった。再発防止策として、手順書を総点検するほか、メールサーバーなどの設備増強を実施する。皆さまには多大なご迷惑をかけた。再発防止に努めたい」と謝罪した。
謝罪する技術統括本部の嶋谷本部長とプラットフォーム開発本部の住吉浩次本部長
障害は、4月16日の0時~1時、同日の8時~13時半の2回、iPhone/iPadで携帯電話用の「@ezweb.ne.jp」のメールアドレスの送受信ができなくなり、さらに16日13時半~10日3時の約2日半、メールの送受信がしにくい、連絡先が正しく表示されないなどの問題が発生した。全国の計415万人に影響が出たという。
取締役執行役員専務 技術統轄本部の嶋谷吉治本部長は、「通信障害はメールアドレスを扱う栃木県のサーバーで、バージョンアップのために古いサーバーから新しいサーバーへ情報を移す際に起きた。作業手順のミスや機械の故障が重なり、復旧に時間がかかった」と説明した。
まず、バージョンアップ作業の途中で現行のプロキシサーバで認証エラーが発生。この認証エラーは手順書ミスによるコマンドの誤りが原因で、現行ユーザー認証サーバ(レプリカ)と現行ユーザー認証サーバー(マスタ)を接続するところ、誤って新しいユーザー認証サーバー(マスタ)に接続。それによってユーザー情報のデータが一部欠損し、現行ユーザー認証サーバーのマスタ/レプリカ間でユーザー情報が一致しないため、一部のユーザーでメールの送受信ができなくなった。
第一の障害の詳細と原因
第一の障害を解消し、新ユーザー認証サーバーに切り替える作業を続行したが、今度は新ユーザー認証サーバーでエラーが発生。これが第二の障害のきっかけだった。新ユーザー認証サーバー(レプリカ)の片系がハードウェア障害でダウンし、その後、残っていた片系も負荷がかかりダウン。メールボックスサーバーなどが認証サーバーに接続できなくなった。
第二の障害の詳細と原因
サーバーを再起動したが、再起動の手順に問題があり、さらに中継サーバーに滞留した受信メールによって62台中24台のサーバーに負荷がかかり、メールの送受信ができにくい状態になった。
第三の障害の詳細と原因
端末とサーバー間の同期ができにくくなることで、端末上の連絡先情報が見えなくなるという問題も発生。一部ユーザーの端末側の連絡先情報が消えてしまった。復旧後にはサーバーと端末の同期ができ、連絡先が正しく見られるようになったが、同期システム提供前、つまり2012年6月27日以前の連絡先情報はサーバー側にもデータがなく、再表示・復旧はできない。
障害の詳細と原因を説明する嶋谷本部長
嶋谷本部長は「結果として、今回の障害に関するユーザーからの問い合わせの総数は約4万件で、うち連絡先関連の問い合わせは2400件だった。再発防止策として、手順書を総点検するほか、メールサーバーなどの設備増強を実施する。皆さまには多大なご迷惑をかけた。再発防止に努めたい」と謝罪した。