インフラエンジニアXの備忘

とある企業のシステム部門のインフラエンジニアです。忘れっぽい自分のメモ書きとしてこのブログを使用します。

frequency error 512 PPM exceeds tolerance 500 PPM が大量に出力される。

データセンターで利用している仮想マシン(ntpサーバー)において、

frequency error 512 PPM exceeds tolerance 500 PPM


が大量に出力されるようになった。


原因は正式には不明だが、仮想マシンを動かしている親のマシンのメンテナンスが
エラー出力の数時間前にあったため、それが直接原因かと考えている。
※3日連続でメンテナンスがあり、都度、ライブマイグレーションみたいな機能で
 仮想マシンを動かしていた模様。その際ntpdがおかしくなったのか??


とりあえず、その場しのぎの対応となってしまうが以下の手順にて回復。
何回か繰り返し実行したらエラー出力されなくなった。

ntpdを停止
# /etc/init.d/ntpd stop

/var/lib/ntp/driftファイルを削除またはリネームする。
# mv /var/lib/ntp/drift /var/lib/ntp/drift.back

ntpdを開始
# /etc/init.d/ntpd start


driftファイルは再度ntpdによって作成されるので問題はない。


確認に使用したコマンド ※今後のメモとして…

# ntpq -p
     remote           refid      st t when poll reach   delay   offset  jitter
==============================================================================
+ntp1.jst.mfeed. 172.29.1.50      2 u  74m 1024  360    2.142  -11.404   1.329
*ntp2.jst.mfeed. 172.29.1.50      2 u  66m 1024  370    1.486   -0.806   0.646
+ntp3.jst.mfeed. 172.16.176.60    2 u  908 1024  377    1.623   -3.350   1.464
 LOCAL(0)        .LOCL.          10 l   42   64  377    0.000    0.000   0.001


どのntpサーバーを参照したか(*)、どのntpサーバを参照可能か(+)と
それぞれのサーバーへのポーリング間隔やずれなどが確認できる。

# ntpdate -q ntp.nict.jp
server 133.243.238.164, stratum 1, offset -0.010019, delay 0.02812
server 133.243.238.243, stratum 1, offset -0.009986, delay 0.02786
server 133.243.238.244, stratum 1, offset -0.010040, delay 0.02785
server 133.243.238.163, stratum 1, offset -0.010139, delay 0.02818
17 Mar 11:32:41 ntpdate[17807]: adjust time server 133.243.238.244 offset -0.010040 sec


q オプションはクエリーの意味で
問合せを実施するのみに利用。
※設定するときはntpdを停止して、ntpdateコマンドを実行する必要がある。


とりあえずこの手順で問題なかったものの、
NTPサーバーが狂ってしまった場合に、他のサーバーの時刻も狂うと
システムにも恐ろしいことがおきそうな気がして、心臓によくない…。