-
基于大數據的高爐爐缸活性評價及預測 安曉磊1, 張鈺鑫3, 崔澤乾1, 石 泉1, 儲滿生1,2, 唐 玨1 (1.東北大學冶金學院,遼寧 沈陽 110819;2.軋制技術及連軋自動化國家重點實驗室,遼寧 沈陽 110819;3.東北大學計算機科學與工程學院,遼寧 沈陽 110819) 摘 要:傳統高爐爐缸活性分析存在依賴經驗系數、涉及參數過少等弊端,沒有挖掘爐缸活性與原燃料、高爐操作間的內在關聯。為此,采集某高爐生產數據,運用機器學習方法對燃料比、出鐵次數、理論燃燒溫度、焦比、鼓風動能等生產數據,進行數據清理和數據挖掘,結合煉鐵機理與傳統爐缸活性評價機理模型,建立高爐爐缸活性評價模型,預測未來一段時間內的爐缸活性指數。采用K-Means算法將爐缸活性劃分為4個等級,根據線性回歸預測得到的爐缸活性指數預測值與真實值基本重合,預測準確率達到88.2%。
關鍵詞:高爐;爐缸活性;大數據;評價;預測
近年來,高爐爐缸活性評價及優化越來越重要爐缸活性指爐缸內燃燒的穩定性和燃燒效率,是保證生產質量和經濟效益的關鍵因素。當爐缸活性較好時,高爐容易穩定順行:當爐缸活性惡化時,往往導致高爐難以操作。及時掌握爐缸活性的變化情況,并維護爐缸,有利于延長高爐壽命!。傳統的爐缸活性評價方法,通常采用傳感器和數據采集系統,對爐缸內的溫度、壓力、富氧率等參數進行監測和采集,利用數學模型或經驗公式進行數據處理和分析得到評價結果。爐缸活性分析存在依賴經驗系數、涉及參數過少等弊端,沒有挖掘爐缸活性與原燃料、高爐操作間的內在關聯。
陳輝等人[2]深入分析,比較渣鐵流入爐缸的阻力系數和渣鐵排出爐缸的阻力系數,通過阻力系數
大小關系來判斷爐缸活性的高低。代兵等人根據前人判斷渣鐵流動阻力系數的方法,創立了一種新的爐缸活性指數模型HWA。張偉陽等人[4]根據熱電偶溫度、熱流強度和爐缸活性的歷史趨勢,建立了爐缸可視化系統。陳輝和代兵等人建立的都只是一種機理模型,導致最后得出的爐缸活性結果與實際有較大偏差。而張偉陽等人雖然將熱電偶溫度,熱流強度與生產數據相結合,用于爐缸可視化,但是未將爐缸活性與傳統機理模型相融合。
考慮到爐缸活性受原料的影響較大,本文運用機器學習方法對某高爐燃料比、出鐵次數、理論燃燒溫度、焦比、鼓風動能等生產數據,進行數據清理和數據挖掘,結合傳統煉鐵機理與傳統爐缸活性評價機理模型,回歸出數據模型評價爐缸活性。最終,根據生產數據,并結合數據模型,預測未來一段時間內的爐缸活性指數。
1 數據處理
參數選擇1.1
采集某高爐2018-2020年的生產數據,爐缸活性評價參數與平均爐頂溫度、全壓差、焦比、透氣性指數、出鐵次數等有關(見表1)。
1.2 數據清理
高爐煉鐵生產具有高溫、高壓、時間長等特點人為操作及數據傳輸過程中的數據缺失會影響數據采集,可能導致數據缺失、偏離正常值、重復等后果,因此,利用大數據技術中的數據挖掘和清洗步驟,來保證數據的準確性,為后續爐缸活性評價模型提供合理的數據。通常,需要對初始數據進行缺失值的刪除或填充,并對偏離正常范圍的異常值進行修改[5]
(1)確定異常值。采用箱形圖(Box-plot)法能直觀的看到原始數據的異常值偏差。箱形圖由最大值、上四分位數(03)中位數、下四分位數(01)及最小值構成。根據03+1.5(03-01)01-1.5(03-01)確定數據正常值的最大值和最小值,將最大值和最小值以外的數確定為異常值。根據箱形圖的概念,某高爐爐缸活性評價參數的初始數據標準化后,畫出箱形圖(如圖1所示)。由圖1可見,初始數據中有部分異常值偏離了正常數據,需要進行處理。
序號12131415161718
19
20
21
22
簡稱
GL_RFYL
GL TOXZSGL LDWDGL_RFWDGL_FYLCL_SD
CL GFDN
GL LFMOL
GL LLRSWD
GL LFLL
GL JFKMJ
參數名稱
熱風壓力
透氣性指數
爐底溫度
熱風溫度富氧率
濕度
鼓風動能
爐腹煤氣量
理論燃燒溫度
冷風流量
進風面積
(2)清理異常值。將異常值直接刪除,或者用插補法在空缺部分插人數據。常用的插補法可以插人該列數據的平均數、眾數、中位數,或者用隨機森林法將數據插人。圖1每組數據中的異常值占比名不相同,異常值占比大的參數用平均數、眾數、中位數插補效果不好。因此,所有參數的異常值都用隨機森林法進行插補。隨機森林(Random-Forest)法是一種集成學習算法,它結合了決策樹和隨機性的概念,由多個決策樹組成,每個決策樹獨立地對數據進行訓練和預測,然后通過投票或平均的方式來確定最終預測結果。隨機森林法的基本原理包括數據集的隨機采樣、決策樹的構建、多個決策樹的集成以及隨機性的引人。
①數據集的隨機采樣。隨機森林法在給定的訓練數據集上執行隨機采樣,這是通過有放回地隨機選取數據樣本的方式實現的。這一步驟生成多個不同的訓練子集,使每個子集都是通過從原始數據集中隨機選擇的樣本構建而成,
②決策樹的構建。隨機森林法采用決策樹算法(通常是CART算法)來進行構建,每個訓練子集都用來構建一個獨立的決策樹模型。在每棵決策樹的構建過程中,隨機森林法從完整的特征集中隨機選擇一部分特征,然后選取最佳特征進行節點劃分。
③決策樹的集成。隨機森林法由多棵決策樹組成,并將它們集成一個綜合模型,在回歸問題中,每個決策樹的預測結果取平均值。
4引人隨機性。隨機森林法引人兩個關鍵的隨機性機制,首先在每棵決策樹的構建中,隨機選擇特征子集,以減少特征之間的相關性:其次在決策樹的
1.0
0.8
3
'[IS]Ж瀾
0.6
0.0.2
0
。
50
100150200250
樣本序列
(a)處理前
訓練過程中,通過有放回地隨機采樣訓練樣本,引人樣本的隨機性,從而提高每棵決策樹的多樣性。
通過上述步驟,隨機森林法能有效地減少過擬合問題,并具有較好的泛化能力。它在許多機器學習任務中都表現出色,包括分類、回歸和特征選擇等。因此,爐缸活性評價使用隨機森林法對目標結果進行預測。對處理前后的數據進行對比,處理后的數據相比處理前較為集中。以鐵水[Si為例(如圖2所示),處理前有異常值嚴重偏離正常值,但處理后鐵水[Si]數據明顯集中。
2建模用指數
數,確定將出鐵指數A作為評價爐缸活性的指標。
2.1 可直接計算指數
A=Y/(100xD)
式中 --鐵水日產量,td;處理好選擇的參數后,根據所選參數確定評價爐缸活性的指標。根據首鋼高爐的爐缸工作出鐵指
D--日出鐵次數,次/d
2建模用指數
數,確定將出鐵指數A作為評價爐缸活性的指標。
2.1 可直接計算指數
A=Y/(100xD)
式中 --鐵水日產量,td;處理好選擇的參數后,根據所選參數確定評價爐缸活性的指標。根據首鋼高爐的爐缸工作出鐵指
D--日出鐵次數,次/d
根據唐鋼高爐的物理熱指數7],確定將物理熱指數0作為評價爐缸活性的指標
0=[(T-1400)/100]/[Si]式中 7--鐵水溫度,℃;
(2)
[Si]--鐵水[Si]含量,%。根據代兵等人的研究,合理的鼓風動能與爐缸活性的關系!8,確定將鼓風動能作為評價爐缸活性的重要指標。
(5)
y=β +β x +β,x,+...+β +ε式中 ,x,...,x--為多個自變量;Bo,B ,B,,..,B--為各自變量的系數:8--誤差項。
(273 +tE=6.64x10-1xn3d4
(3)
(2)預測。對高爐熱狀態和高爐透氣性指數通過線性回歸模型進行預測,主要的操作流程為:
式中鼓風動能,kg·m/s;R
①特征選擇。根據實際生產情況和所選參數之間的相關性熱力圖(如圖3所示)選擇與理論燃燒溫度相關性較高的自變量。
Q-標準狀況下的鼓風量,m’/min;
n--風口個數,個;
d--風口直徑,m;
-熱風溫度,℃;
②模型訓練。將數據集劃分為訓練集和測試集,使用訓練集進行線性回歸模型的訓練,通過最小化殘差平方和來擬會最佳的線性函數。
P--熱風壓力,MPa。
2.2 高爐熱狀態和高爐透氣性指數
高爐熱狀態,尤其是爐缸部位的熱狀態非常重要,風口前理論燃燒溫度是評價或衡量爐缸熱狀態的重要參數之一”。理論燃燒溫度升高與富氧率焦炭溫度有關,理論燃燒溫度降低與焦炭、煤粉的灰分、煤比、鼓風濕度有關[10-n]
③模型評估。使用測試集評估線性回歸模型的性能,計算評估指標(如均方誤差)來衡量模型的預測精度。
④)預測。使用經過訓練的模型對新輸人的數據(包含富氧率、焦比、熱風溫度、煤比及鼓風濕度)進行預測,得到相應的理論燃燒溫度。
因此,采用回歸預測的方法根據富氧率、焦比熱風溫度 煤比及鼓風濕度等預測理論燃燒溫度而高爐透氣性指數也能夠直接快速反映爐缸熱狀態,故將透氣性指數也作為評價爐缸活性的重要指標。透氣性指數與風量、全壓差有關,采用回歸預測的方法預測。
3 爐缸活性評價及預測
3.1 爐缸活性指數
如果指標的量綱和單位不一致,有可能導致最后計算的爐缸活性結果錯誤。因此,為了消除指標之間量綱的影響,需要進行數據歸一化處理。選擇將出鐵指數和物理熱指數以外的各組指標都歸一化到[1,10]區間,分別得到鼓風動能指數、理論燃燒溫度指數、爐底溫度指數、透氣性指數。歸一化計算公式為:
(1)線性回歸。線性回歸是一種用于建立連續目標變量與一個或多個自變量之間線性關系的統計模型。其基本原理是通過擬合最佳的線性函數來預測目標變量的值,其基本假設是目標變量與自變量之間存在線性關系。通過尋找最佳擬合線,線性回歸模型可以預測目標變量的值,其公式為:
ymax ̄Yminx(x-x min)y≡y…? +X max-X mi式中-歸一化處理后的值:-目標區間的最大值;Ymax-目標區間的最小值;ymin-本組數據的最大值:Xma--本組數據的最小值;X min-要歸一化處理的數據,
(6)
y=β +β x +e式中-目標變量(要預測的值):-自變量(用于預測的特征);X6.-截距(模型的偏移量);B--自變量的系數(表示自變量對目標變量的影響):
(4)
e--誤差項(表示模型無法解釋的隨機誤
歸一化后得到6組計算爐缸活性指數的指標
差)。
·65
再通過變異系數法得到相應的比例。變異系數法是一種根據評價指標當前值與目標值的差異程度來進行權重賦值的方法。當某個指標在被評價對象之間的數值差異較大時,說明該指標能更有效地區分不同對象,因此會被賦予更高的權重。反之,如果某個指標在各對象之間的數值差異較小,意味著該指標區分對象的能力較弱,因此會被賦予較低的權重。通過這種方式,運用變異系數法能夠更準確地為不同指標分配適當的權重,從而更好地反映評價對象的差異性和重要性。
用變異系數計算權重步驟如下:
(1)計算每個指標Y的平均值Y平均。
Y平均=-∑”
(7)
(2)計算每個指標的標準差S
S= --∑”(Y-%*)
(8)
(3)計算每個指標的變異系數V。
飯是
(4)計算每個指標的權重巴。
W-∑-V
(5)計算爐缸活性指數F
F =W xY
(9)
(10)
(11)
得到每個指標的權重之后,即可計算爐缸活性指數,某高爐的爐缸活性指數分布如圖4所示。
8
驟哥科戥理·
6
4
2
0
50100150
樣本序列
200250
圖4 某高爐的爐缸活性指數分布
3.2 爐缸活性等級的劃分
將最終變量降維后對數據進行聚類分析,通過肘部法將其劃分為4塊,通過K-Means 算法聚類。
K-Means算法是一種常見的無監督機器學習算法,廣泛應用于聚類分析,旨在將數據點分配到不同的簇,使得簇內數據點的相似性較高,而簇間數據點的相似性較低。在算法的核心部分,先選擇簇的數量K。例如,采用肘部法則確定K的值,結果選擇為4個簇。再從數據集中隨機選取4個數據點,作為初始的簇中心。對于每個數據點,通過計算其與各個簇中心的距離,將其分配至距離最近的簇。在每個簇中,計算簇內數據點的平均值,然后將該平均
值作為新的簇中心。
以上步驟反復進行,直到簇中心的變化不再顯著或達到預設的迭代次數為止。總體而言,K均值算法的核心目標是將數據點盡可能地分配到與其簇中心最近的位置,從而最小化平方距離之和,以實現簇內數據點的相似性,以及簇間數據點的差異性。最終將爐缸活性劃分為4個等級,如圖5所示。
I0
驟哥升戥瑪哪
9
8
7
6
∑(-y)R =1-
(15)
號(y-)
某高爐爐缸活性指數預測值及真實值的變化如圖6所示。根據線性回歸預測得到的爐缸活性指數預測值,與爐缸活性指數真實值基本重合,部分區域稍有偏差,但是偏差不大,說明某高爐爐缸活性指數預測的準確率較高。
某高爐爐缸活性指數預測的準確率見表2。由表2可見,MSE、RMSE、MAE的值較小且都接近0表明預測值與真實值的誤差較小。最終,選取確定系數R評價爐缸活性指數預測的準確率,測試集R為88.2%,即高爐爐缸活性指數預測的準確率達到88.2%,與圖6所反映的重合情況相吻合。
5
一級
二級三級四級
爐缸活性等級
圖5 某高爐爐缸活性的等級劃分
3.3 爐缸活性指數的預測
類似指標選取的方法,將鋼廠的初始數據用回歸預測的方法,對未來的爐缸活性指數進行預測,預測得到的結果采用MSERMSEMAE MAPE以及R進行評價。
MSE(Mean Square Error)均方誤差,公式為:MSE=-∑” (Y-)
(12)
RMSE(Root Mean Square Error)均方根誤差,公式為:
RMSE= 亠∑’,[-/X,)]
(13)
為:
MAE(Mean Absolute Error)平均絕對誤差,公式
MAE=-∑” |h(x;)-y
(14)
用MSERMSE和MAE評價的準確性,當預測值與真實值完全吻合時,MSERMSE和MAE等于0:當誤差越大時,MSERMSE和MAE的值越大。
MAPE(Mean Absolute Percentage Error)為平絕對百分比誤差,MAPE越接近0時,預測模型為完美模型,預測的準確率也越高。R為確定系數,R'越接近1,表明回歸平方和占總平方和的比列越大,回歸的擬合程度越好,預測的準確率越高
8.5
驟哥升罷瑪吼6.54.5
Iuwywnyr
真實值
預測值
2.50 10 20 30 405060 70 80
序號
圖6某高爐爐缸活性指數預測值及真實值的變化
表2 某高爐爐缸活性指數預測的準確率
項 目
訓練集
交叉驗證集
測試集
MSE
RMSE
MAE
MAPE
作
%
99.0
0.0030.056
0.0440.925
3.25984.0
0.0510.2210.157
0.0390.1970.1473.14988.2
結語D
(1)采集某高爐生產數據,對數據進行缺失值異常值和重復值的處理,保證初始數據真實可靠性,(2)通過對鼓風動能和理論燃燒溫度進行預測,并與出鐵指數、物理熱指數和透氣性指數進行統-的歸一化處理,得到標準化的評價爐缸活性的指標。通過變異系數法得到各參數的權重,并結合爐缸活性計算公式,最終得到爐缸活性指數。
(3)采用K-Means算法將爐缸活性劃分為4個等級,通過線性回歸預測未來一段時間內的爐缸活性指數,準確率達到88.2%,
(
(責任編輯:zgltw)