前言:想要寫出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)分析分析技術(shù)范文,相信會(huì)為您的寫作帶來幫助,發(fā)現(xiàn)更多的寫作思路和靈感。
關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark
1 引言
隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運(yùn)維效率相關(guān)的有價(jià)值的數(shù)據(jù),對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個(gè)不可能完成的任務(wù)。
在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,一方面數(shù)據(jù)量過大,表的管理、維護(hù)開銷過大,要做到每個(gè)字段建索引,存儲(chǔ)浪費(fèi)巨大;另一方面計(jì)算分析過程耗時(shí)過長,無法滿足實(shí)時(shí)和準(zhǔn)實(shí)時(shí)分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動(dòng)維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。
2 分析目標(biāo)
(1)數(shù)據(jù)源:電信運(yùn)營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。
(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。
(3)分析平臺(tái)硬件配置:云計(jì)算平臺(tái)分配8臺(tái)虛擬機(jī),每臺(tái)虛機(jī)配置CPU16核;內(nèi)存32 G;硬盤2 T。
3 制定方案
進(jìn)入大數(shù)據(jù)時(shí)代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價(jià)值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計(jì)算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價(jià)值信息。
Hadoop是Apache基金會(huì)用JAVA語言開發(fā)的分布式框架,通過利用計(jì)算機(jī)集群對大規(guī)模數(shù)據(jù)進(jìn)行分布式計(jì)算分析。Hadoop框架最重要的兩個(gè)核心是HDFS和MapReduce,HDFS用于分布式存儲(chǔ),MapReduce則實(shí)現(xiàn)分布式任務(wù)計(jì)算。
一個(gè)HDFS集群包含元數(shù)據(jù)節(jié)點(diǎn)(NameNode)、若干數(shù)據(jù)節(jié)點(diǎn)(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲(chǔ)數(shù)據(jù)塊文件。HDFS將一個(gè)文件劃分成若干個(gè)數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲(chǔ)DataNode節(jié)點(diǎn)上。
MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計(jì)算過程分解成Map(映射)和Reduce(歸約)兩個(gè)過程,也就是將一個(gè)大的計(jì)算任務(wù)拆分為多個(gè)小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲(chǔ)的計(jì)算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計(jì)算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運(yùn)行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實(shí)時(shí)計(jì)算需求。
Spark是由加州伯克利大學(xué)AMP實(shí)驗(yàn)室開發(fā)的類Hadoop MapReduce的分布式并行計(jì)算框架,主要特點(diǎn)是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點(diǎn)外,還支持多次迭代計(jì)算,特別適合流計(jì)算和圖計(jì)算。
基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實(shí)現(xiàn)對告警數(shù)據(jù)的挖掘分析。
4 分析平臺(tái)設(shè)計(jì)
4.1 Hadoop集群搭建
基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數(shù)設(shè)置[6]
Spark參數(shù)設(shè)置如表2所示。
4.3 數(shù)據(jù)采集層
數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機(jī)先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對文件進(jìn)行校驗(yàn),通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程
先將海量告警進(jìn)行初步刪選,通過數(shù)量、位置和時(shí)間三個(gè)維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對某類告警進(jìn)行重點(diǎn)關(guān)注和監(jiān)控。
(2)差異化定制方案
按組網(wǎng)架構(gòu)細(xì)分,針對核心重要節(jié)點(diǎn)的所有告警均納入實(shí)時(shí)監(jiān)控方案;
按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計(jì)個(gè)性化的監(jiān)控方案;
按客戶業(yè)務(wù)細(xì)分,針對客戶數(shù)字出租電路設(shè)計(jì)個(gè)性化的監(jiān)控方案。
4.5 數(shù)據(jù)分析層
Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計(jì)分析。Spark SQL模K在進(jìn)行分析時(shí),將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時(shí)表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時(shí)表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個(gè)簡單分析:
5 平臺(tái)實(shí)踐應(yīng)用
探索運(yùn)維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實(shí)現(xiàn)主動(dòng)維護(hù)的工作目標(biāo)。
5.1 高頻翻轉(zhuǎn)類告警監(jiān)控
首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺(tái)開發(fā)了相應(yīng)的分析腳本,目前已實(shí)現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。
5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控
目前以設(shè)備廠商或?qū)<医?jīng)驗(yàn)評定告警監(jiān)控級別往往會(huì)與實(shí)際形成偏差,主要表現(xiàn)在以下幾個(gè)方面:監(jiān)控級別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報(bào)未知的告警類型就無法在第一時(shí)間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實(shí)時(shí)性要求也是不同的。
通過大數(shù)據(jù)分析平臺(tái)對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機(jī)房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實(shí)現(xiàn)日、周、月、某個(gè)時(shí)間區(qū)等統(tǒng)計(jì)分析。
應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時(shí)間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動(dòng),緊急處理后告警消除、業(yè)務(wù)恢復(fù)。
5.3 被過濾告警分析
全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會(huì)根據(jù)告警過濾規(guī)則進(jìn)行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運(yùn)維經(jīng)驗(yàn)的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個(gè)過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進(jìn)行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時(shí)處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動(dòng)環(huán)專業(yè)被過濾的告警情況分布。
5.4 動(dòng)環(huán)深放電分析
動(dòng)環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計(jì)算這一放電過程的持續(xù)時(shí)間,記為深放電時(shí)長,該時(shí)長可以初步反映電池的放電性能。一個(gè)局站每天產(chǎn)生幾十萬條電壓等動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)。
在告警數(shù)據(jù)分析的基礎(chǔ)上,實(shí)現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時(shí)長過短的局站,核查蓄電池、油機(jī)配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計(jì)了一個(gè)月內(nèi)撫州、贛州、吉安三分公司幾十億條動(dòng)環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。
6 結(jié)論
本文利用HDFS+Spark技術(shù),實(shí)驗(yàn)性地解決告警數(shù)據(jù)存儲(chǔ)和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴(kuò)展到對動(dòng)環(huán)實(shí)時(shí)數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。
從實(shí)際運(yùn)行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式,滿足電信運(yùn)營商主動(dòng)運(yùn)維的需求。
參考文獻(xiàn):
[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動(dòng)態(tài)存儲(chǔ)策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程, 2014,44(11): 52-54.
【關(guān)鍵詞】 數(shù)據(jù)挖掘技術(shù) 頻譜數(shù)據(jù)分析
前言:在對頻譜監(jiān)測數(shù)據(jù)分析中,簡單統(tǒng)計(jì)分析已經(jīng)無法滿足頻譜監(jiān)測數(shù)據(jù)實(shí)際需求,需要對數(shù)據(jù)深入研究,探索配頻譜監(jiān)測數(shù)據(jù)潛在關(guān)聯(lián),尋找到異常信號,有效提升頻譜監(jiān)測精確性,起到輔作用。數(shù)據(jù)挖掘技術(shù)在應(yīng)用過程中,能夠挖掘海量數(shù)據(jù)內(nèi)價(jià)值,有關(guān)監(jiān)督設(shè)備可以對數(shù)據(jù)進(jìn)行掃描,深入分析有關(guān)數(shù)據(jù)。
一、數(shù)據(jù)挖掘技術(shù)簡介
1.1數(shù)據(jù)挖掘的概念
在上世紀(jì)90年代內(nèi),研究人員提出了數(shù)據(jù)挖掘,主要目的就是希望能夠?qū)⑺杉降膽?yīng)用數(shù)據(jù)內(nèi)所具有的潛在價(jià)值信息挖掘,獲取價(jià)值信息。數(shù)據(jù)挖掘內(nèi)包含較多學(xué)科內(nèi)容,例如人工智能、統(tǒng)計(jì)、可視化技術(shù)、數(shù)據(jù)庫等。數(shù)據(jù)挖掘在對數(shù)據(jù)分析研究過程中,主要采取分類及聚類進(jìn)行監(jiān)測,對有關(guān)知識(shí)進(jìn)行演變。數(shù)據(jù)挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。
1.2數(shù)據(jù)挖掘的過程
1、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段主要包含兩方面工作,分別為數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘應(yīng)用點(diǎn)在確定之后,能夠有效對有關(guān)數(shù)據(jù)進(jìn)行收集,同時(shí)對數(shù)據(jù)背景進(jìn)行掌握,對挖掘模式進(jìn)行確定。有關(guān)數(shù)據(jù)在收集之后,需要對數(shù)據(jù)內(nèi)所包含的冗余數(shù)據(jù)及空缺數(shù)據(jù)進(jìn)行預(yù)處理,為計(jì)算機(jī)分析奠定堅(jiān)實(shí)基礎(chǔ)。
2、數(shù)據(jù)挖掘。數(shù)據(jù)娃聚主要是在數(shù)量及挖掘目標(biāo)確定之后,選擇合適的數(shù)據(jù)挖掘方法及技術(shù),對數(shù)據(jù)進(jìn)行計(jì)算分析,構(gòu)建針對性數(shù)據(jù)。
3、挖掘結(jié)果展示。數(shù)據(jù)挖掘技術(shù)所得到的數(shù)據(jù)結(jié)果,十分抽象,除了數(shù)據(jù)挖掘技術(shù)行業(yè)工作人員無法對數(shù)據(jù)挖掘結(jié)果進(jìn)行了解,所以需要對數(shù)據(jù)挖掘結(jié)果進(jìn)行轉(zhuǎn)化,通過圖形及圖像的方式,將挖掘結(jié)果在屏幕內(nèi)顯示出來,直觀將挖掘結(jié)果展示出來,用戶能夠?qū)ν诰蚪Y(jié)果深入理解。
4、挖掘結(jié)果應(yīng)用分析。按照挖掘背景及目的,對數(shù)據(jù)挖掘結(jié)果進(jìn)行系統(tǒng)性分析研究,進(jìn)而找到海量數(shù)據(jù)內(nèi)具有價(jià)值的信息,同時(shí)這些信息技有關(guān)生產(chǎn),對數(shù)據(jù)挖掘結(jié)果正確性進(jìn)行判斷,對數(shù)據(jù)挖掘有關(guān)知識(shí)進(jìn)行修正、完善[2]。
二、數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析中的應(yīng)用
2.1認(rèn)知無線電中頻譜資源預(yù)測應(yīng)用
認(rèn)知無線在頻譜監(jiān)測數(shù)據(jù)內(nèi)應(yīng)用,能夠有效提高頻譜監(jiān)測數(shù)據(jù)質(zhì)量,同時(shí)非授權(quán)用戶也可以對頻譜資源進(jìn)行利用。授權(quán)用戶在對頻譜監(jiān)測數(shù)應(yīng)用過程中,非授權(quán)用戶能夠直接將頻譜監(jiān)測數(shù)據(jù)資源讓出來,非授權(quán)用戶就需要充分構(gòu)建頻譜途徑,構(gòu)建通信連接。非授權(quán)用戶要是沒有直接將頻譜資源讓出來,授權(quán)用戶與非授權(quán)用戶之間就會(huì)產(chǎn)生矛盾,進(jìn)而造成通信中斷,這樣情況所將的損失將是無法預(yù)計(jì)的。所以,非授權(quán)用戶及授權(quán)用戶要是都能夠?qū)︻l譜資源精確劃分,能夠有效對資源矛盾事件防止,在這種情況下頻譜監(jiān)測資源利用效率也就顯著提升。
正式由于認(rèn)識(shí)無線電技術(shù)在實(shí)際應(yīng)用內(nèi)所具有的優(yōu)勢,在對認(rèn)知無線電技術(shù)分析研究過程中,需要將重點(diǎn)放在授權(quán)用戶應(yīng)用規(guī)律上面,對授權(quán)用戶占據(jù)頻譜監(jiān)測數(shù)據(jù)空余時(shí)間進(jìn)行預(yù)測,幫助非授權(quán)用戶能夠在授權(quán)用戶空余時(shí)間內(nèi)尋找利用有關(guān)資源,這種預(yù)測性分析研究主要是通過數(shù)據(jù)挖掘技術(shù)內(nèi)的頻發(fā)模式實(shí)現(xiàn)。
2.2異常無線電信號監(jiān)測應(yīng)用
無線電監(jiān)測站在常規(guī)監(jiān)測過程中,最為主要的一項(xiàng)工作就是對異常無線電信號進(jìn)行監(jiān)測,嚴(yán)禁非法占用情況出現(xiàn),有效提高無線電通信安全性能。
按照無線電監(jiān)測所產(chǎn)生的數(shù)據(jù)可知,頻譜設(shè)備屬于常規(guī)性運(yùn)行,一旦出現(xiàn)異常運(yùn)行情況,所輸出的信號就與常規(guī)狀態(tài)下信號存在一定差異。所以,想要了解頻譜設(shè)備出現(xiàn)異常情況,只需要將將信號進(jìn)行分析比較,數(shù)據(jù)挖掘技術(shù)能夠有效對海量信號內(nèi)特點(diǎn)進(jìn)行提取,在海量信號內(nèi)尋找到異常信號。數(shù)據(jù)挖掘技術(shù)在無線電監(jiān)測內(nèi)應(yīng)用,首先是通過無線電監(jiān)測歷史數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,模型在具有自我學(xué)習(xí)能力之后,能夠應(yīng)對無線電瞬息變化環(huán)境,對數(shù)據(jù)模型與歷史數(shù)據(jù)模型相似點(diǎn)進(jìn)行計(jì)算,在發(fā)現(xiàn)無線電設(shè)備出現(xiàn)異常運(yùn)行情況之后,數(shù)據(jù)模型就會(huì)發(fā)出警告。
結(jié)論:數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)應(yīng)用,能夠有效對l譜監(jiān)測數(shù)據(jù)分析流程進(jìn)行簡化,在大量數(shù)據(jù)信息內(nèi)高效率的找到針對性數(shù)據(jù)信息,提高信息挖掘質(zhì)量,進(jìn)而為管理人員提供針對性意見。正式由于數(shù)據(jù)挖掘技術(shù)在頻譜監(jiān)測數(shù)據(jù)分析內(nèi)所具有的作用,所以對數(shù)據(jù)挖掘技術(shù)進(jìn)行分析研究,能夠有效推動(dòng)頻譜監(jiān)測數(shù)據(jù)發(fā)展。
參 考 文 獻(xiàn)
關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘
前言
新疆油田重油開發(fā)公司是以稠油開采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營業(yè)務(wù)板塊的數(shù)據(jù)庫。數(shù)據(jù)庫包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開發(fā)公司正式開始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問題,使用大數(shù)據(jù)技術(shù)對油田進(jìn)行全面感知、分析預(yù)測、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實(shí)性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對數(shù)據(jù)庫的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過程應(yīng)用于油田可以理解為是對油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測模型、對結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評估模型。
2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉庫相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類、建模,生成預(yù)測的結(jié)果,結(jié)合專家經(jīng)驗(yàn)利用測試的樣本選定評價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。
3 大數(shù)據(jù)分析技術(shù)研究
進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類,這一類數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類型,并按照這些特性劃分為幾個(gè)類別,同種類型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征?;貧w分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡單得表示出來。
在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對人類未來有用的數(shù)據(jù),即提前獲得未知信息的過程[3]。數(shù)據(jù)挖掘功能分為預(yù)測功能和描述功能。數(shù)據(jù)預(yù)測是指對數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動(dòng)識(shí)別
油田生產(chǎn)過程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門的生產(chǎn)人員,必須經(jīng)過人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費(fèi)時(shí)間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫,對比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫,對比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開關(guān)井計(jì)劃制訂
當(dāng)油田開發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問題,過度開發(fā)使得地層的能量越來越少,致使更多供液不足的井開發(fā)出來。將這類井稱之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開關(guān)時(shí)間計(jì)劃,但是對于計(jì)劃的合理性沒有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開關(guān)時(shí)間,對油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開關(guān)時(shí)間的因素,建立合適的分析模型,對模型進(jìn)行線性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測
目前油田上對于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問題。比如,一些井還沒有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P停倮没貧w分析法對建立的模型建立曲線方程,進(jìn)行預(yù)測,找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。
5 結(jié)束語
總之,對比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問題的主要影響因素找到管理中存在的不足,預(yù)防未來問題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測出未來,從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻(xiàn)
[1]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
論文摘要:電子商務(wù)(EC)在現(xiàn)代商務(wù)企業(yè)的發(fā)展中占有越來越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點(diǎn)分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。
本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉庫的相關(guān)理論知識(shí)。并對站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來新的革命,從而也影響著人們的生活?;ヂ?lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對廣大網(wǎng)民的信息載體,企業(yè)通過這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過程就是對人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過程。對于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點(diǎn)的訪問率絕對不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。
電子商務(wù)站點(diǎn)用戶行為的分析這一問題也因此成為現(xiàn)如今的熱門話題,被人們普遍關(guān)心起來,尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點(diǎn)用戶行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據(jù)不同的頁面內(nèi)容來分類瀏覽者,以便做出更合理的頁面分類,促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。
在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營銷目的所需的詳細(xì)程度。因此,各公司開始尋找更先進(jìn)的分析工具,這類工具可以提供誰在訪問公司W(wǎng)eb站點(diǎn)以及訪問者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開始分析的地方是Web服務(wù)器的訪問日志。每當(dāng)用戶在站點(diǎn)上請求一個(gè)網(wǎng)頁時(shí),這個(gè)請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點(diǎn)、他們正在看哪些網(wǎng)頁以及他們在站點(diǎn)中呆了多長時(shí)間。顯然,日志分析和行為概況的正確組合可以對Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報(bào)告。
二、站點(diǎn)信息統(tǒng)計(jì)方法
Web頁面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒有模式的無序數(shù)據(jù)之間,在查詢前無法預(yù)先確定其具體的類型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點(diǎn):
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫使用嚴(yán)格的分類策略來保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來分析、解釋數(shù)據(jù)。并通過交互式過程和迭代過程用來求精模型,最終開發(fā)出最具適應(yīng)性的模型來將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉庫的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢并發(fā)掘?qū)嵤K欠治鯳eb頁面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉庫的條目和對象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對象的信息來推斷另一數(shù)據(jù)對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過依賴性分析,商店認(rèn)為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會(huì)購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數(shù)據(jù)類,用聚類算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類或懷疑的數(shù)據(jù)類。聚類的過程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類別的群體,它稱為無監(jiān)督學(xué)習(xí)。分類過程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類很少在關(guān)系數(shù)據(jù)庫中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒有它們的位置。最典型的例子是信用卡核準(zhǔn)過程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購買者歸入可接受的那一類中。分類又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)待分析數(shù)據(jù)中的模式來構(gòu)造模型。它對隱式類型進(jìn)行分類。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉庫數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫示例來訓(xùn)練和學(xué)習(xí)、校正預(yù)測的模型,提高預(yù)測結(jié)果的準(zhǔn)確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
【關(guān)鍵詞】Hadoop 電力行業(yè) 大數(shù)據(jù)分析
隨著互聯(lián)網(wǎng)+時(shí)代的到來,各行業(yè)數(shù)據(jù)的共享與融合越來越迫切。電力生產(chǎn)關(guān)系民生和經(jīng)濟(jì)發(fā)展,隨著電力信息化的發(fā)展,涉及發(fā)電、輸電、變電、配電、用電等各個(gè)環(huán)節(jié)的數(shù)據(jù)呈爆發(fā)性增長,PB數(shù)量級的數(shù)據(jù),已無法通過傳統(tǒng)的數(shù)據(jù)管理、抽取、分析技術(shù)挖掘數(shù)據(jù)間的多重關(guān)聯(lián)關(guān)系,從而更有效的實(shí)現(xiàn)電力風(fēng)險(xiǎn)預(yù)警,提高生產(chǎn)效率和智能調(diào)度功能。
1 Hadoop平臺(tái)介紹
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng),MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開發(fā)并行應(yīng)用程序。所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。
Avro是doug cutting主持的RPC項(xiàng)目,有點(diǎn)類似Google的protobuf和Facebook的thrift。是用于數(shù)據(jù)序列化的系統(tǒng)。提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程PRC調(diào)用以及簡單的動(dòng)態(tài)語言集成功能。
實(shí)現(xiàn)了MapReduce編程框架,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運(yùn)行在分布式系統(tǒng)上。
HDFS分布式文件系統(tǒng),其設(shè)計(jì)目標(biāo)包括:檢測和快速恢復(fù)硬件故障;數(shù)據(jù)流的訪問;簡化一致性模型等。
Zookeeper是Google的Chubby一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
Pig是SQL-like語言,是在MapReduce上構(gòu)建的一種高級查詢語言,把一些運(yùn)算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網(wǎng)格運(yùn)算部門開發(fā)的又一個(gè)克隆Google的項(xiàng)目Sawzall。
Chukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),是開源的數(shù)據(jù)搜集系統(tǒng)。通過HDFS來存儲(chǔ)數(shù)據(jù),并依賴MapReduce來處理數(shù)據(jù)。
2 數(shù)據(jù)抽取分析模型
目前電力行業(yè)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)如常規(guī)oracle,MySQL等數(shù)據(jù)庫類型,同時(shí)也存在大量log日志文件,e文件等非結(jié)構(gòu)化數(shù)據(jù),為能全面有效的實(shí)現(xiàn)多業(yè)務(wù),多數(shù)據(jù)綜合建模分析,設(shè)計(jì)如圖2所示,數(shù)據(jù)處理模型。主要由數(shù)據(jù)抽取、格式清洗和DFS分布式文件系統(tǒng)構(gòu)成,同時(shí)為下一步大數(shù)據(jù)建模分析打好基礎(chǔ)。
數(shù)據(jù)抽取模塊主要負(fù)責(zé)從原業(yè)務(wù)系統(tǒng)獲得結(jié)構(gòu)化和非結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)。通過在數(shù)據(jù)抽取工具中配置前端機(jī)器名稱、端口號、加密用戶名密碼、數(shù)據(jù)表等信息,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的抽取工作。對于日志類文件由于在原服務(wù)運(yùn)行期間日志文件是持續(xù)寫入狀態(tài),因此必須在原系統(tǒng)設(shè)置,系統(tǒng)日志按時(shí)間節(jié)點(diǎn)分割,一般可按具體業(yè)務(wù)運(yùn)行情況和日志產(chǎn)生量和產(chǎn)生大小進(jìn)行設(shè)定,避免因日志文件過大或網(wǎng)絡(luò)繁忙,在抽取時(shí)對業(yè)務(wù)造成影響。
格式清洗模塊主要是對原始數(shù)據(jù)中多種不同配置格式進(jìn)行統(tǒng)一,特別是對非結(jié)構(gòu)化數(shù)據(jù),需定義每個(gè)字段的含義和位置以及統(tǒng)一分隔符,同時(shí)還會(huì)去掉一些記錄不完整的壞數(shù)據(jù),保證數(shù)據(jù)的格式統(tǒng)一,信息完成。最后導(dǎo)入HDFS文件系統(tǒng)進(jìn)行存儲(chǔ)。
數(shù)據(jù)分析通過Map/Reduce操作實(shí)現(xiàn),通過設(shè)計(jì)業(yè)務(wù)分析模型,定位此項(xiàng)數(shù)據(jù)分析所需輸入數(shù)據(jù),并將數(shù)據(jù)數(shù)據(jù)分割成若干獨(dú)立的塊,并根據(jù)Inputformat把Y料讀入成一組(key,value)對,然后通過mapper count分給不同的mapper進(jìn)行處理。再設(shè)計(jì)模型中,通過設(shè)置滿足要求的map任務(wù)值,并引入哈希算法,將mapper對應(yīng)初始的(initialkey,initialvalue)生成中間數(shù)據(jù)集(interkey,intervalue)劃分為多個(gè)任務(wù),將模值相等的任務(wù)丟到統(tǒng)一節(jié)點(diǎn)上計(jì)算,以實(shí)現(xiàn)比較平衡的分類效果。
Reducer對mapper產(chǎn)生的(interkey,intervalue)中間數(shù)據(jù)集,進(jìn)行驅(qū)蟲、過濾等后期處理后,得到結(jié)果。為實(shí)現(xiàn)輸出文件格式支持通過key來高效的自由訪問,并得到有序的數(shù)據(jù)輸出,在reducer中加入排序環(huán)節(jié),將所有的中間數(shù)據(jù)集根據(jù)key來排序的。這樣每個(gè)小塊都很容易生成一個(gè)序列化的輸出文件。
通過展示系統(tǒng),實(shí)現(xiàn)各業(yè)務(wù)模型數(shù)據(jù)分析結(jié)果圖形化的展示在監(jiān)控大屏上,同時(shí)桌面用戶還可通過瀏覽器或客戶端在終端上查詢分析結(jié)果。
3 總結(jié)
通過hadoop平臺(tái)構(gòu)建電力行業(yè)大數(shù)據(jù)分析模型,可按照業(yè)務(wù)需要進(jìn)行靈活進(jìn)行組合,提高各專業(yè)間的數(shù)據(jù)共享融合,實(shí)現(xiàn)由點(diǎn)狀業(yè)務(wù)分析模式,到貫穿“三集五大”各專業(yè)的網(wǎng)狀業(yè)務(wù)分析模式,可進(jìn)一步提高電網(wǎng)的健壯性、互動(dòng)性和智能化,為社會(huì)經(jīng)濟(jì)穩(wěn)定發(fā)展提供保障。
數(shù)據(jù)報(bào)告 數(shù)據(jù)采集論文 數(shù)據(jù)安全論文 數(shù)據(jù)采集 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)安全 數(shù)據(jù)統(tǒng)計(jì)論文 數(shù)據(jù)挖掘 數(shù)據(jù)理論論文 數(shù)據(jù)通信論文 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀