1. 硬件設(shè)備管理
部署與維護(hù):負(fù)責(zé)服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備的物理上架、下架、安裝、配置及日常維護(hù)(如更換硬盤、內(nèi)存、電源等)。
硬件巡檢:定期檢查設(shè)備狀態(tài)(如指示燈、電源、風(fēng)扇等),識(shí)別老化或故障硬件,及時(shí)進(jìn)行更換或報(bào)修。
資產(chǎn)登記:記錄設(shè)備型號(hào)、序列號(hào)、位置等信息,確保資產(chǎn)臺(tái)賬準(zhǔn)確。
2. 實(shí)時(shí)監(jiān)控與告警響應(yīng)
系統(tǒng)監(jiān)控:通過(guò)監(jiān)控平臺(tái)(如Zabbix、Nagios)實(shí)時(shí)查看服務(wù)器、網(wǎng)絡(luò)流量、電力、溫濕度等關(guān)鍵指標(biāo),發(fā)現(xiàn)異常及時(shí)處理。
告警處理:對(duì)系統(tǒng)發(fā)出的告警(如CPU過(guò)載、磁盤故障、網(wǎng)絡(luò)丟包)進(jìn)行分級(jí)響應(yīng),優(yōu)先處理影響業(yè)務(wù)的高優(yōu)先級(jí)故障。
日志分析:查看設(shè)備日志,定位故障根源(如硬件錯(cuò)誤、配置錯(cuò)誤)。
3. 故障診斷與應(yīng)急處理
快速恢復(fù):對(duì)服務(wù)器宕機(jī)、網(wǎng)絡(luò)中斷、電力故障等緊急事件進(jìn)行立刻時(shí)間的現(xiàn)場(chǎng)處理,盡可能限度減少業(yè)務(wù)中斷時(shí)間。
故障排查:使用工具(如Ping、Traceroute、系統(tǒng)命令)診斷網(wǎng)絡(luò)連通性、服務(wù)端口狀態(tài)等,區(qū)分硬件故障與軟件問(wèn)題。
協(xié)同支持:若問(wèn)題超出職責(zé)范圍,需協(xié)調(diào)二線技術(shù)團(tuán)隊(duì)或供應(yīng)商(如網(wǎng)絡(luò)工程師、設(shè)備廠商)共同解決。
4. 客戶服務(wù)支持
客戶操作協(xié)助:配合客戶完成設(shè)備重啟、系統(tǒng)重裝、遠(yuǎn)程操作授權(quán)等需求(需驗(yàn)證客戶身份及權(quán)限)。
工單處理:根據(jù)客戶提交的工單執(zhí)行標(biāo)準(zhǔn)化操作(如網(wǎng)線插拔、IP配置),確保符合SLA(服務(wù)等級(jí)協(xié)議)。
突發(fā)問(wèn)題響應(yīng):處理客戶緊急報(bào)障,提供初步排查并反饋進(jìn)展。
5. 機(jī)房環(huán)境管理
電力保障:監(jiān)控UPS、柴油發(fā)電機(jī)等供電系統(tǒng)狀態(tài),確保電力冗余正常。
溫濕度控制:調(diào)整空調(diào)運(yùn)行參數(shù),防止過(guò)熱或濕度過(guò)高導(dǎo)致設(shè)備故障。
物理安全:管理門禁權(quán)限、監(jiān)控錄像,防止未經(jīng)授權(quán)的人員進(jìn)入機(jī)房。
6. 流程與文檔管理
標(biāo)準(zhǔn)化操作:執(zhí)行嚴(yán)格的變更管理流程(如設(shè)備上下架需審批),避免誤操作。
事件報(bào)告:記錄故障處理過(guò)程、根本原因及解決方案,形成事后報(bào)告。
知識(shí)庫(kù)維護(hù):匯總常見(jiàn)問(wèn)題解決方案,提升團(tuán)隊(duì)處理效率。
技能要求:
1、熟悉各主流品牌服務(wù)器,具備硬件排障和故障維修能力;
2、熟悉主流品牌網(wǎng)絡(luò)交換機(jī)和Spine-Leaf組網(wǎng)架構(gòu),具備CCNA、HCIA等專業(yè)網(wǎng)絡(luò)認(rèn)證證書者優(yōu)先;
3、熟悉linux操作系統(tǒng)和Shell腳本,具備批量進(jìn)行服務(wù)器配置和部署的能力;
辦公地點(diǎn):張家口-懷來(lái)數(shù)據(jù)中心