こんばんは くろねこです。
少し前に、我が家のドメインコントローラ1号機(以下、ドメコン1号機)が天に召され旅立ちました。
その後、大急ぎで復旧を行いました。
が、
天はそんな簡単に許してくれませんでした。
今回は、ドメコン1号機のその後についてです。
- 新ドメコン1号機 誕生までの経緯
- 安定動作したのは、たった二日!
- サーバの状態は?
- Windowsの難病 KP41病
- 原因究明の果てしない旅
- 途方に暮れる
- 動作が不安定なときはメモリが原因
- 原因判明!
- メモリ交換
- 気分も新たにクリーンインストール
- ドメイン参加して安定度を確認
- ドメコン1号機、再構築
- 固有の設定を実施
- こんどこそ ドメコン1号機、復旧!
新ドメコン1号機 誕生までの経緯
はじめに、これまでの簡単な経緯です。
2022年1月のある日、慢性的なディスク容量不足の解消のため、サーバを再起動したら、立ち上がらなくなってしまった。
サーバは10年選手の企業向けデスクトップPC
何年か前に電源ユニットが壊れ、交換しています。
このPCの延命は諦め、天に見送りました。
単なる電源障害ということで、PC上のデータ(ハードディスク上のデータ)は壊れていません。
ということで、余暇となっていた別のデスクトップにハードディスクをそのまま移植
デバイスドライバを更新して、新ドメコン1号機として復旧しました。
このときの状況は、こちらの記事にまとめています。
安定動作したのは、たった二日!
この新ドメコン1号機はVPNサーバでもあるので、外出先からもよくアクセスするのですが、新ドメコン1号機移行後のある日、外部からVPN接続できない問題が発生!
グローバルIPアドレスが違っているのか、帰宅後、いろいろ確認したところ
新ドメコン1号機はこの画面を表示した状態で停止していました。
「続行」で、Windows Serverを起動して、ログオンすると
そりゃあ、オラも予期してねえよ!!
・・・
くろねこもしばらくフリーズ。。。
仕方ないので、イベントビュワーを確認します。
予期せぬシャットダウンのイベントの直後に、イベントID=41 がエラーとして検出されていました。
うん? 電源落ちた???
ケーブルの差しが甘かったのかな?
念のため、HDDやメモリ、ビデオカードなど脱着できるものすべてを再度装着して、電源ケーブルも差し直し・・・
これで大丈夫!
グローバルIPアドレスを再度確認して(ほとんど変化しない)、翌日、外出先から再接続を試みます。
サーバの状態は?
再び、外出先からアクセスを試みます。
インターネット接続しているPCやスマホからVPN接続をしますが、まったく繋がりません。
_| ̄|○
帰宅後、新ドメコン1号機を確認すると、再び「オプションの選択」状態でした(泣)
イベントログには、再び、Kernel-Power 41 重大エラー を記録していました。
こうなるとただ事ではありません。
夕ご飯もそそくさすませ、シャワーも浴び、あとは寝るだけの状態で、調査を開始します。
Windowsの難病 KP41病
「イベントID 41」でググると・・・ 山ほど情報が出てきます。
何件か拾い読みしても、「Windowsの難病」、「KP41病」ということらしいです。
くろねこは多くのWindowsマシンを公私ともに環境構築してきました。
特にサーバ系は仕事上、100台以上も構築・運用してきておりましたが、このKP41病は未経験でした。
KP41病の原因は多岐にわたり、解決できなかった場合も多く、まさに「難病」と呼ぶにふさわしい症状です。
ここで先に言っておきますが、
くろねこのKP41病は解決しています!
原因究明の果てしない旅
はじめに、異常発生時の動作を再調整してみます。(どこかのサイトに書いてありました。)
「システムの詳細設定」でシステムエラー時の動作を下記のように再設定しました。
・ 自動的に再起動する → チェックオフ
・ デバッグ情報の書き込み → なし
しばらくすると・・・
状況に変化はありません。ですよね~。。。
ということで、地道に原因究明を
最小限構成で起動 【基本中の基本】
最小限の構成で起動してみる。
最小限とは、
・ HDDはシステム用の1台のみ
・ USB機器はキーボード、マウスを除きすべて撤去
・ 拡張カード(ビデオボード)を撤去
の構成
→ 効果なし
メモリチェック 【基本中の基本】
Windowsのメモリ診断を実行。
→ 効果なし(結果は正常)
デバイスドライバの更新 【基本中の基本】
チップセット、サウンド、ビデオ、ネットワークの各デバイスのドライバを更新
もちろん、デバイスマネージャでエラーや警告表示はありません。
→ 効果なし
BIOSバージョン 【基本中の基本】
BIOSのバージョンは最新状態だった。
高速スタートアップ無効化
じっくりシステムが立ち上がるように高速スタートアップを無効化
(その項目そのものが無かった。)
ページファイル削除
ページファイル(仮想メモリ)が悪さをしている可能性もあるため、ページファイルをすべて削除
→ 効果なし
Windows Super Fetch 無効化
Windowsサービスの Super Fetch を無効化
→ 効果なし
電源ユニット交換
同型の別PCの電源ユニットと交換、電源ケーブルも交換、別の電源コンセントより給電
→ 効果なし
サウンドカードのデバイス重複
デバイスマネージャ上でサウンドのドライバが複数ある場合は、不要な方を無効化
→ 効果なし(結果は正常)
ディスクチェック
各論理ドライブをチェック(chkdsk)する。
→ 効果なし(結果は正常)
ディスクのデフラグ
デフラグ中にKP41発生!
→ 不明 (データは壊れずに済んだ)
Windows Update
Windows Updateでドライバが更新される可能性を信じて
→ 効果なし(結果は正常)
未実施項目
以下は、問題解決のため、検討したが未実施に終わった項目です。
・ 光学ドライブ用スリムドライブ搭載HDDへの電源供給用ケーブルの交換
・ CMOSクリア
・ OSクリーンインストール(ドメコンからの降格を含む)
途方に暮れる
未実施項目はまだ若干残っていますが、この時点で思考停止です。
仕事中も 気になって気になって
会社ではみんなオリンピックで仕事も上の空の方が多く(笑)
くろねこのボーっとしているのも、そんなに目立ちません。
とは言え、ということで、もう一度、冷静に考えてみる。
そもそも、新ドメコン1号機となったハードウェアは
Windows7の開発用マシン
これをWindows10にアップグレード
結果、クソ遅いPCに
これでは使えないと
メモリを16GBにさらに16GBを追加し、合計32GBに
(追加したメモリは新品だったはずです。)
しかし、動作速度に大きな変化はなかった。
やっぱり、SSDに交換しないとNGだなと判断
サブ機としていたノートはSSDなので、こちらの方が使い勝手が良いことから、放置され余暇状態に
約3年ほど余暇状態であったハードウェアを新ドメコン1号機に採用したわけです。
そう
Windows10アップグレード & メモリ増設 後の運用実績は数時間
もしかしたら、このときから、おかしかったのかも!?
動作が不安定なときはメモリが原因
基本に帰ります。PCの動作が不安定な場合、概ねその原因はメモリなんです。
これは、ある意味、昔から定番です。自分も数多く経験しています。
でも、一番最初にメモリチェックを実施してます。
もし、この結果が信用できないのでは???
もう一度、別の観点でメモリをチェックします。
ここまでの調査で、ブートしてからフリーズするまでの時間はどんどん短くなってきてます。
一時間も放置すれば確実に死にます。
この状況なら、半日もあれば問題のメモリを見つけられるはずと。。。
搭載しているメモリは、PC3-12800S 8GB × 4枚 で、それぞれ、①~④の番号を振ります。
第1回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM1とDIMM2を使用します。
DIMM1 : メモリ①、DIMM2 : メモリ② → 1時間後も正常動作
第2回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM3とDIMM4を使用します。
DIMM3 : メモリ①、DIMM4 : メモリ② → 1時間後も正常動作
第3回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM1とDIMM2を使用します。
DIMM1 : メモリ③、DIMM2 : メモリ④ → 5分足らずでフリーズ
キターーーー!
第4回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM3とDIMM4を使用します。
DIMM3 : メモリ③、DIMM4 : メモリ④ → ログオン後すぐにフリーズ
キターーーーーーーーーーーーー!
この時点で、
メモリ③、メモリ④のどちらかが原因
メモリスロットは問題なし
陽は傾いてきて、外は冷たい風が吹いてきたようです(寒)
第5回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM1を使用します。
DIMM1 : メモリ③ → ログオン後、数分でフリーズ
第6回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM2を使用します。
DIMM2 : メモリ③ → Windows起動せず
ビンゴ!
第7回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM1を使用します。
DIMM1 : メモリ④ → 1時間後も正常動作
第8回 メモリテスト
DIMMスロットは、DIMM1~DIMM4のうち、DIMM2を使用します。
DIMM2 : メモリ④ → 1時間後も正常動作
原因判明!
玄関先のランプを付けました。外はかなり冷えてきました。
これまでのテストで、メモリ③が原因であることがわかりました(疲)
幸いなことにマザーボードは問題ありませんでした。
問題のメモリは、完全に死んでいるわけではないということ
だから、メモリとしては正常に認識しているが、ある領域にアクセスした際にエラーが発生するという不安定な状態と想像できます。
Windowsメモリ診断は、おそらく容量チェックプラスアルファ程度のものでは。。。
もっとしっかりチェックしてくれよ(もう)
余暇状態になる前(Windows10アップグレード+メモリ増設時)は、問題が発生するところまでメモリを使っていなかったので気が付かなかった。
もちろん、新品メモリだったので疑う余地もありませんでした(クソっ!)
整理すると
メモリ代返せ! 時間を返せ!
メモリ交換
くろねこのパーツ保管庫を捜索し、同じ仕様のメモリを取り出し、単体テストを行います。メモリはメモリ⑤です。
交換用メモリテスト(1)
DIMMスロットは、DIMM1~DIMM4のうち、DIMM1を使用します。
DIMM1 : メモリ⑤ → 1時間後も正常動作
交換用メモリテスト(2)
DIMMスロットは、DIMM1~DIMM4のうち、DIMM4を使用します。
DIMM4 : メモリ⑤ → 1時間後も正常動作
メモリ⑤は合格です!
気分も新たにクリーンインストール
ここまでくると、
きれいにしないと気が済まないくろねこ
(すみません。性格なんです。)
交換用メモリ捜索時に、2.5インチHDD 2.0TBを発見したんです。
これがくろねこの(ちいさな)心を動かしました。
そもそも、この事件の始まりは、「慢性的なディスク容量不足の解消」です。
旧ドメコン1号機のディスク構成は、
DISK1 : 2.5インチHDD 1.0TB
DISK2 : 3.5インチHDD 4.0TB
です。
PCへの内蔵は光学ドライブベイに2.5インチ、HDDマウンタは、3.5インチ1本、または、2.5インチ2本です。
今回、発見した 2.0TB HDD をDISK1と交換することで、全体容量は5.0TBから6.0TBに増えます。1.0TB増えるので容量不足は回避できます。
ここまで、何回もフリーズしたりで、かなり汚れた状態のWindows。
きれいにしよう!
となるわけです。
実は、上記のメモリテストの段階で、なんとなく「きれいにしたいな~」と思い、ドメインコントローラから降格していました。
一応、念のため、下記構成で、Windows Server 2012R2 Standard をセットアップします。
メモリ → 交換後の32GB構成
HDD → 保管庫から持ってきた、2.0TB HDD のみ
ビデオカード → 拡張カード装着状態
Windows Serverが入ったら、各デバイスの認識です。
チップセット、サウンド、ビデオ、ネットワークの各デバイスのドライバを更新
デバイスマネージャでエラーや警告表示がない状態に!
もちろん、Windowsがフリーズすることはありません。
そして、Windows Updateを実施します。一回で最新にはならないので、複数回実施し最新状態にします。
ドメイン参加して安定度を確認
このマシンは、新ドメコン1号機として運用するので、マシン名やIPアドレスは変更しません。
このとき、不安定な動作時のドメコン2号機との複製失敗(複製は画面上では成功と表示されていましたが、実際はダメダメだったようです)で、Active Directory上に残骸オブジェクトが残っていて、同一マシン名でのドメイン参加ができないトラブルに!
なかなか、許してもらえません。。。
ADSIエディタで地道に残骸を除去します。
- Active Directory ユーザとコンピュータ
- DNS
- Active Directory サイトとサービス
から残骸オブジェクトを削除するのですが、Active Directory サイトとサービスのServersから残骸ドメコンが消せず、かなり苦労しました。
結局、ADSIエディタで、
ドメコン2号機の「構成」を接続して、残骸を削除することで解決しましたが、このあたりの情報が見つけられず、結局、海外のサイトの英語の記事を苦労して読みながらの作業でした(疲)
ドメインコントローラの撤去は、他のドメコンとの複製(レプリケーション)が完璧にできていないと怖いですね。
Windows Updateは常に最新状態を保つ設定にして、このまま、一晩、放置プレイ。。。
ドメコン1号機、再構築
三連休の二日目
快晴の朝を迎えました。
恐る恐るモニターの電源を
画面のロックを外すと昨日作業終了時のデスクトップの状態です。
問題は起きていないようです!
ということで、このマシンをドメインコントローラに昇格させます。
2008以前は、dcpromo コマンドでの作業でしたが、2012以降は、サーバマネージャの役割の追加で行います。
追加する役割は「Active Directory ドメインサービス」です。
インストール作業が終了すると、既存のActive Directoryドメインに追加する設定をウィザードで行います。
昇格作業は昔に比べればすごく簡単な作業になってます(喜)
設定作業が終了すると、ドメイン1号機と2号機の複製が行われ、ドメコン2台体制のドメインネットワークに戻りました。
固有の設定を実施
このネットワークはくろねこの自宅ネットワークなので、通常は、ドメイン1号機がオールインサーバとして動作します。
ドメコン1号機の役割は、
です。
ドメコン2号機は、今回のように1号機で障害が発生した際の補助的な役割のサーバです。
したがって、ドメコン2号機は普段は停止しており、週2回、数時間だけ立ち上がり、レプリケーションを行います。
もちろん、この一連の作業はすべてスケジュール登録された自動運転です。
ドメコン2号機は1号機の設定作業が終了したら、この運用に戻る予定です。
ドメコン1号機の残作業を行います。
ファイルサーバ
ファイルサーバとして運用するので、共有フォルダ・アクセス権の設定を行います。
基本的には障害発生前と同じ設定です。
以前の設定メモを参考に設定します。
SMTPサーバ
ドメコン1号機からは、メールを発信するので、IIS6.0 の SMTPサービスをインストールします。
これも、サーバマネージャで役割の追加で行います。
プリント/スキャナサーバ
プリント/スキャナサーバとして、EPSON EW-M770Tのデバイスをインストール
プリンタ共有を行うので、32ビット/64ビットドライバのセットアップを行うディレクトリに公開します。
また、スキャンツールもインストールします。
VPNサーバ
外部からのVPN接続するための、IPsec VPNサーバ環境を構築します。
構築方法の詳細は こちらに記事を投稿してますのでご覧いただければと思います。
VPNサーバ構築後、内部ネットワークからの接続テストを行い、外部からの接続テストです。
もちろん、合格です!
こんどこそ ドメコン1号機、復旧!
三連休、三日目
冷たい雨の日曜日です。
寒い中、用事をすませ、再び、ドメコン関連の作業に戻ります。
今度こそ、ドメコン1号機は、クリーンな状態で環境復旧しました!
しばらくの間は、チューニング調整期間として運用しますが、折を見て、ドメコン2号機は複製時のみオンラインの運用に戻します。
ここでやっと本題に入れます!
長い長い旅で、「本題」がどっかに行ってしまいそうです。
ドライブDとドライブEの壊滅的な容量不足の解消は。。。
既に三連休最終日、TVではサザエさんの時間、外は真っ暗
予報では大雪注意報が出ているようです。
容量不足の解消作業には、各フォルダの位置関係を再調整するので、膨大な時間がかかりますので、それは、次の機会に報告させていただきます。
今回は、KP41病に陥ってしまいましたが、
(たまたま、解決できたのかも知れませんが)
何かの参考になる情報があるかも知れません。
しかし、めちゃめちゃ疲れました。肩と(短い)首がパンパン(泣)
熱い風呂に入って、明日に備えます。
それでは、また
お時間のある方はこちらもご覧ください。