新聞資訊
了解故障案例及產(chǎn)品資訊
新聞資訊News
相關(guān)產(chǎn)品Related Product
問(wèn)題描述
線網(wǎng)一臺(tái)OSN3500設(shè)備(版本18.50,非網(wǎng)關(guān)網(wǎng)元),之前主主控有主控重復(fù)復(fù)位故障。為將故障排除,需將主備兩塊主控(都是SSN1GSCC01,在本例中編號(hào):主主控A、備主控B)都拔下來(lái),插入新主控(SSN1GSCC01,編號(hào)C),版本匹配并下載數(shù)據(jù)后,原有故障消除。
但將原17槽備用主控(B)插回后,單板不能識(shí)別,現(xiàn)象為:17槽備主控(B)STAT燈紅,網(wǎng)元沒(méi)有異常告警,網(wǎng)元不能識(shí)別物理板,當(dāng)時(shí)懷疑原主備主控都故障,就將兩個(gè)主控(A、B)都返回維修。等備用主控備件到達(dá)后(SSN1GSCC02,版本已提前降級(jí)到18.50,編號(hào)D),插入17槽,發(fā)現(xiàn)故障現(xiàn)象沒(méi)有變化。
用:cfg-get-phybd查詢物理單板,返回:
BID BOARD-TYPE
…… ……
16 BPA
18 gscc
…… ……
網(wǎng)元不能識(shí)別17槽位的備用主控(D)。
用:cfg-set-oamport:COM,open;打開(kāi)COM口后,ping網(wǎng)元單板,17槽不通,其他槽位通。
用:cfg-add-board:17,gscc手動(dòng)添加GSCC邏輯單板并驗(yàn)證:cfg-verify,17槽上報(bào)COMMUN_FAIL,參數(shù):0x01 0x00 0x03 0xff 0xff
告警信息
STAT燈紅
COMMUN_FAIL
處理過(guò)程
1、將所帶去的N1GSCC02(D)插入17槽,故障依舊。
2、更換AUX板,故障依舊,排除AUX故障原因。(后來(lái)查詢資料證明,該故障與AUX無(wú)關(guān))
3、將帶去的SL4A線路板插入17槽,網(wǎng)元能正常識(shí)別,且添加邏輯單板后,能正常上線。說(shuō)明17槽備板至少部分工作正常(三根狀態(tài)線和部分?jǐn)?shù)據(jù)線)。
4、將17槽備主控(D)跳線成BIOS態(tài)(N1GSCC02跳線方法為取下J12、J13跳線,插入J9、J10),插入17槽。能ping通,且能用FTP登陸上。登陸后,刪除OSF1、OSF2目錄下的PREVPDT文件,硬復(fù)位單板后,單板自動(dòng)執(zhí)行清庫(kù)操作。清庫(kù)完畢后,撥回正常態(tài),單板依然起不來(lái)。17槽GSCC02(D)重新?lián)芑谺IOS態(tài),采集單板數(shù)據(jù),交給研發(fā)分析。
5、研發(fā)分析后,認(rèn)為主主控和背板的嫌疑比較大。帶上另外一個(gè)新的N1GSCC02(E),再次去現(xiàn)場(chǎng)定位故障(此時(shí)有2塊N1GSCC02):
5.1、新GSCC02插入17槽(E),起不來(lái)。啟動(dòng)過(guò)程中用CoolTest工具查詢寄存器
dwReadHardwareStatus(11)
返回值為:
Value = 0 = 0x1
說(shuō)明主備主控間網(wǎng)口狀態(tài)異常,排除第一塊GSCC02(D)硬件故障問(wèn)題。
5.2、取下兩塊GSCC(C、E),將GSCC02(D,18.50版本的)插入18槽,正常啟動(dòng),下載網(wǎng)元數(shù)據(jù)成功。
5.3、將原18槽GSCC01(C)插入17槽,起不來(lái)。報(bào)17槽COMMUN_FAIL。
5.4、將17槽GSCC01(C)取出,插入新的GSCC02單板(E),單板上線,網(wǎng)元能識(shí)別GSCC。確定是原GSCC01主控板(C)故障。(C主控10M以太網(wǎng)通信模塊故障,導(dǎo)致C當(dāng)主主控時(shí),不能與備主控建立通信,備主控不能上線。C當(dāng)備主控時(shí),也不能與主主控通信。更換新主控E后,問(wèn)題就解決。)
5.5、將版本統(tǒng)一到18.50后,查詢:
:hbu-get-backup-info
返回:
Backup-Info : 0x00000003
同步成功。
:hsc-get-work;
返回:
Work-Status : 18 Good 17 Good
主備狀態(tài)正常。
5.6、手動(dòng)下發(fā)主備倒換命令,主備成功倒換。故障排除。
根因
OSN7500/OSN3500/OSN2500/OSN1500板間通訊有二種方式
1)單板間2路HDLC通道,遵從HDLC協(xié)議,接口電氣規(guī)范為RS485。
2)1路LAN SWITCH通道。
圖1. OSN 3500主控板通信實(shí)現(xiàn)原理
LAN SWITCH通道傳遞的是主機(jī)和單板之間的正常配置信息和單板向主機(jī)上報(bào)的告警、性能,相當(dāng)于老產(chǎn)品中的郵箱。其中主備主控間備份數(shù)據(jù)用的是10M速率,其他以太網(wǎng)速率都是100M。
485通道主要實(shí)現(xiàn)與復(fù)用段、SNCP、TPS相關(guān)的功能,速率為4Mbits/s。
A通道:用于復(fù)用段保護(hù)相關(guān)的SD、SF事件、K字節(jié)、倒換頁(yè)面的傳遞。
B通道:用于SNCP、TPS倒換、S1字節(jié)相關(guān)信息的傳遞,另外在線路板檢測(cè)到交叉板送過(guò)來(lái)的總線信號(hào)有問(wèn)題時(shí)線路板會(huì)通過(guò)B通道傳遞交叉倒換信息,促使交叉板發(fā)生一次倒換。
根據(jù)告警信息,COMMUN_FAIL 第三個(gè)參數(shù)為0x03。指的是17號(hào)板以太網(wǎng)的通訊失敗告警。即para3為3時(shí)表示以太網(wǎng)的通訊失敗告警。
由此分析,故障原因可能如下:
1、新帶來(lái)的備主控故障。
2、原故障換上去的主主控故障。
3、AUX故障。
4、背板故障。
建議與總結(jié)
1、主控板與系統(tǒng)其它的單板主要是通過(guò)以太網(wǎng)進(jìn)行通信,各單板和兩塊主控板的板間通信以太網(wǎng)都與AUX板相連,所以從物理上主備主控板同時(shí)都可以與其它各單板通信。
但為了保持主備主控板的數(shù)據(jù)一致,備用主控板的板間通信沒(méi)有使用,它與線路板的數(shù)據(jù)完全來(lái)源于主用主控板(通過(guò)下面提到的10M以太網(wǎng)通信)。對(duì)于板間通信的網(wǎng)口,兩塊主控板的MAC地址不同,IP地址不同,以O(shè)SN3500為例:18板位的IP為:192.168.0.18;17板位的IP地址為:192.168.0.17。這個(gè)網(wǎng)口的默認(rèn)網(wǎng)段為:192.168.0.XXX,子網(wǎng)掩碼為:255.255.255.0。
網(wǎng)管接口也是如此,不同的是備用主控板的網(wǎng)管以太網(wǎng)口完全是關(guān)閉的,只有在成為主板后才打開(kāi),保證同時(shí)只有一個(gè)主控板與網(wǎng)管相連。對(duì)于網(wǎng)管通信的網(wǎng)口,兩塊主控板的MAC地址相同,IP地址相同。這個(gè)網(wǎng)口的默認(rèn)網(wǎng)段為:129.9.XXX.XXX。
主備主控板間還有一個(gè)10M的以太網(wǎng)進(jìn)行主備通信,備板的數(shù)據(jù)基本上都是通過(guò)這個(gè)網(wǎng)口從主板獲得的。這個(gè)網(wǎng)口的默認(rèn)網(wǎng)段為:10.108.7.XXX。XXX與板位號(hào)一致。
2、COMMUN_FAIL告警與AUX板的關(guān)系:
COMMUN_FAIL告警參數(shù)3的意義:0x01表示RS485通道1。0x02表示RS485通道2。0x03表示板間以太網(wǎng)通信。
如果COMMUN_FAIL告警發(fā)生在主控板上,則告警與AUX沒(méi)有關(guān)系;
如果COMMUN_FAIL告警發(fā)生在其他單板上,且參數(shù)3為0x03,則告警有可能與AUX有關(guān)系。
3、主控板三根狀態(tài)線:
NG-SDH三根狀態(tài)線
在位狀態(tài)信號(hào)線:互送板在位狀態(tài),板在位或者不在位,這個(gè)狀態(tài)是邏輯運(yùn)行的結(jié)果,可讀不可寫;
工作狀態(tài)信號(hào)線:互送板工作狀態(tài),板工作狀態(tài)為好或者壞,這個(gè)狀態(tài)是由硬件和軟件共同決定;
主備狀態(tài)信號(hào)線:互送板主備狀態(tài),是主板還是備板,這個(gè)狀態(tài)是邏輯運(yùn)行的結(jié)果,可讀不可寫。
本案例中,由于17槽位插SL4A單板,能正常識(shí)別并開(kāi)工,所以狀態(tài)線沒(méi)有問(wèn)題。
4、不能完全相信維護(hù)備件,備件也有可能是壞的,處理故障時(shí)要大膽懷疑。
總結(jié):
該故障原因其實(shí)很簡(jiǎn)單,但重點(diǎn)在分析和定位的過(guò)程。原理清楚,材料、資源準(zhǔn)備充分,才能快速定位故障。另外,不能盲目相信備件就是完好的,該懷疑時(shí)就要懷疑。