2007.5.18 Fri 這天近中午時, 某一客戶Andy call我, 說一堆的VS, Real Server IP不通, 且LCD上還看到CPU Utilization 100%.
我趕緊遠端檢查, 沒錯, 都不通了, 連F5 LTM Self IP 也不通, 初步判斷恐是Broadcast Strom或DDoS攻擊造成.
因客戶急, 又說某一系統下禮拜一要上線, 請我趕緊處理.
還沒出門前就先請客戶幫我reboot. Reboot後狀況沒改善, CPU Utilization依舊是100%. 然後拔掉線路, 再Reboot, Server Farm的L2 Switch也reboot, 再接線, 仍然一樣(這裡的步驟先簡單帶過), 於是趕緊前往現場檢查原因, 但有交代客戶線路都先拔掉.
至現場後CPU Utilization在Zero, 我依序將線路接回, 並另處理某一Fiber未通一事, 之後Service就正常了. Qkview, Log, Performance Graph都先抓下來, 雖然時效已不好了, 但以便開Case. Performance Graph上的TMM Utiilization 100%.
連絡Ocean, 我描述了此事, 另說明是TMM Utilization 100%, 他說可能是Connection太多.
2007.5.19 Sat 下午全家至岳母家, 我先獨自去買羽球鞋, 然後再全部去COSCO購物, 吃完岳母料理的晚餐後回家.
約十點多, Andy又call我, 說又不通了.........
先到公司拿傢伙, 再到客戶機房, 因有先交代客戶先不動設備, 所以就有保留現場的證據了. LCD面板顯示CPU Utiliization 100%, 不過, 有發現Port3.1幸好還可以通, 所以Qkview, Log, Performance Graph都先抓下來, 這是開case最好的資料.
連絡業務Jane, 但都連絡不上, 有生意時都能找得到, 要反應狀況, 就找不到人; 也向Fred報備一下此事.
將VS PLM222 for SSL暫時取消, reboot. 本來想將版本downgrade到v9.2.3, 但離客戶要在1:00am恢復運作的時間來不及, 所以版本不變. 等service都起來後, 就先回家休息. 但客戶要求5.20 必須換一台.
回家已半夜兩點多, 由於隔天中午有Snowboarder要聚餐, 我已沒辦法參加了, 所以寫email通知有要事要辦, 無法參加.
網路工程師的寫照就是如此, 有時重要的聚會就這樣泡湯了, 雖然加班是有補休, 但這種光陰是補不回來的.
2007.5.20 Sun 九點半起床後, 趕緊遠端檢查. 連絡Jane又找不到, 先傳簡訊好了. 為了調設備, 電話打了N通, 共動用了八個人. 經理也關心此事. 一直到晚上十一點多, 最後敲定是隔天早上七點換版本, 但也要有備品在現場. 不過我的觀察是版本不影響, 本來力爭保持此現況就沒問題. 但原因還是需原廠解釋.
2007.5.21 Mon 準時動工換版本, 設定檔也需修改, 約8:10完工, 遲了十分鐘上線. 留在現場待命.
沒有留言:
張貼留言