前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇大數(shù)據(jù)量解決方案范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。
這正是白宮網(wǎng)站的《大數(shù)據(jù)研究和發(fā)展倡議》所追求的——“通過(guò)收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,獲得知識(shí)和洞見(jiàn),提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,轉(zhuǎn)變教育和學(xué)習(xí)模式”。
各行各業(yè)都能用得上大數(shù)據(jù),只是對(duì)大數(shù)據(jù)重要性的意識(shí)程度不同:凱捷咨詢(xún)(Capgemini)的調(diào)研結(jié)果顯示,76%能源和自然資源行業(yè)的高管相信公司是數(shù)據(jù)驅(qū)動(dòng)的,在醫(yī)療醫(yī)藥行業(yè)和生物科技行業(yè)這個(gè)數(shù)字為75%,在金融行業(yè)為73%。包括英特爾在內(nèi)的有能力提供大數(shù)據(jù)解決方案的IT廠商正在努力讓各行各業(yè)的企業(yè)切實(shí)感受到大數(shù)據(jù)的魔力。
能否置身事外?
隨著網(wǎng)絡(luò)應(yīng)用和多媒體應(yīng)用的興起,互聯(lián)網(wǎng)成為大數(shù)據(jù)的主要來(lái)源。隨之而產(chǎn)生的網(wǎng)絡(luò)營(yíng)銷(xiāo)調(diào)整圍繞大數(shù)據(jù)而展開(kāi)。淘寶是國(guó)內(nèi)公認(rèn)的對(duì)用戶(hù)數(shù)據(jù)利用得較好的公司——淘寶網(wǎng)利用大數(shù)據(jù)統(tǒng)計(jì)分析得到諸如“歐洲杯的球隊(duì)勝負(fù)如何影響各隊(duì)球衣的銷(xiāo)量?花露水的最佳搭配是電蚊拍還是痱子粉?”等問(wèn)題的有趣結(jié)果,并以此為依據(jù)來(lái)更好地調(diào)整營(yíng)銷(xiāo)戰(zhàn)略。
近日,阿里巴巴集團(tuán)宣布,將在集團(tuán)管理層面設(shè)立首席數(shù)據(jù)官崗位(Chief Data Officer),負(fù)責(zé)全面推進(jìn)阿里巴巴集團(tuán)成為“數(shù)據(jù)分享平臺(tái)”的戰(zhàn)略。這直接證明了大數(shù)據(jù)對(duì)于互聯(lián)網(wǎng)企業(yè)的意義。
別的行業(yè)能不能對(duì)大數(shù)據(jù)冷眼旁觀呢?賽迪智庫(kù)軟件與信息服務(wù)業(yè)研究所研究員安暉認(rèn)為,雖然目前大數(shù)據(jù)的主要來(lái)源是互聯(lián)網(wǎng),但許多以信息流作為核心競(jìng)爭(zhēng)力,如金融、電信、零售等行業(yè)的機(jī)構(gòu)或企業(yè),其數(shù)據(jù)量也不容低估。例如,美國(guó)國(guó)家海洋和大氣管理局(NOAA)數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)超過(guò)20PB,沃爾瑪數(shù)據(jù)中心的存儲(chǔ)能力超過(guò)4PB,eBay分析平臺(tái)每天處理的數(shù)據(jù)量高達(dá)100PB。并且,由于這些機(jī)構(gòu)和企業(yè)所存儲(chǔ)的數(shù)據(jù)更加有針對(duì)性,其數(shù)據(jù)的價(jià)值密度更高,進(jìn)行大數(shù)據(jù)處理的意義更強(qiáng),運(yùn)用大數(shù)據(jù)的需求也更為迫切。
安暉以數(shù)個(gè)典型行業(yè)為例來(lái)說(shuō)明大數(shù)據(jù)能帶來(lái)什么好處——電信行業(yè)可以從龐大的數(shù)據(jù)中分析出不同群體的差異化需求,實(shí)現(xiàn)套餐制定等精準(zhǔn)營(yíng)銷(xiāo);制造行業(yè)可以通過(guò)整合來(lái)自研發(fā)、工程和制造部門(mén)的數(shù)據(jù)以實(shí)行并行工程,顯著縮短產(chǎn)品上市時(shí)間并提高質(zhì)量;交通行業(yè)可以通過(guò)整合和處理相關(guān)數(shù)據(jù),實(shí)現(xiàn)智能交通(管理)與高效物流調(diào)度。
賽迪顧問(wèn)軟件與信息服務(wù)業(yè)研究中心研究總監(jiān)胡小鵬認(rèn)為,金融行業(yè)中證券、信用卡、電子支付等數(shù)據(jù)規(guī)模龐大,具有使用對(duì)象多樣化、信息可靠性、實(shí)時(shí)性、保密性要求高等特點(diǎn);電信行業(yè)中大數(shù)據(jù)主要體現(xiàn)為電信業(yè)務(wù)系統(tǒng)產(chǎn)業(yè)的計(jì)費(fèi)賬務(wù)數(shù)據(jù)和用戶(hù)信息(包括客戶(hù)資料、客戶(hù)服務(wù)數(shù)據(jù)等),不僅數(shù)據(jù)量大,而且保存時(shí)間長(zhǎng);能源行業(yè)大數(shù)據(jù)主要集中在石油勘探以及電力生產(chǎn)、經(jīng)營(yíng)、管理等數(shù)據(jù),具有數(shù)據(jù)量大、分散、類(lèi)型復(fù)雜等特點(diǎn)。其中,在金融行業(yè),利用大數(shù)據(jù)的挖掘和分析改善用戶(hù)體驗(yàn)、監(jiān)督欺詐行為、驗(yàn)證合規(guī)性、服務(wù)創(chuàng)新等,從而助力金融智能決策,提升競(jìng)爭(zhēng)力;而對(duì)于電力行業(yè),大數(shù)據(jù)分析有利于電網(wǎng)安全高效運(yùn)行(安全檢測(cè)與控制、災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和負(fù)荷預(yù)測(cè))、電力營(yíng)銷(xiāo)(用戶(hù)用電行為分析)、集團(tuán)集中管控與精細(xì)化管理等。
大數(shù)據(jù)這場(chǎng)盛宴上,哪個(gè)行業(yè)也不愿意沒(méi)有一席之地。
誰(shuí)能站出來(lái)?
大數(shù)據(jù)的熱度可以由英特爾、IBM、EMC、惠普等廠商紛紛推出面向大數(shù)據(jù)的一體化產(chǎn)品和解決方案直接反映出來(lái)。
然而,一個(gè)不能逃避的現(xiàn)實(shí)是,雖然越來(lái)越多的行業(yè)用戶(hù)嘗試應(yīng)用大數(shù)據(jù)的解決方案,但是大多數(shù)行業(yè)用戶(hù)對(duì)于大數(shù)據(jù)的認(rèn)知仍然比較有限。面對(duì)林林總總的不同廠商提供的大數(shù)據(jù)解決方案,用戶(hù)分不清這些解決方案的差異在哪里,也就不會(huì)真正了解哪種解決方案適合自己。
有用戶(hù)反映,大數(shù)據(jù)解決方案容易給人的錯(cuò)覺(jué)是該解決方案就是把數(shù)據(jù)分布存儲(chǔ),再并行處理。即使采用國(guó)外廠商的工具,這些工具成熟度不是特別高,導(dǎo)致解決實(shí)際問(wèn)題的時(shí)間過(guò)長(zhǎng)。
英特爾相關(guān)專(zhuān)家表示,從總體上看,中國(guó)大數(shù)據(jù)市場(chǎng)發(fā)展迅速,特征明顯,相關(guān)技術(shù)和應(yīng)用可改進(jìn)和提升的空間巨大。而且大數(shù)據(jù)要落地,必須實(shí)現(xiàn)包括芯片商、軟件企業(yè)等在內(nèi)的IT基礎(chǔ)設(shè)施與服務(wù)層平臺(tái)的開(kāi)放。
英特爾在硬件上的領(lǐng)先無(wú)需多言。在軟件層面,考慮到Hadoop的開(kāi)源特性,很多廠商都有機(jī)會(huì)在Hadoop的基礎(chǔ)上推出產(chǎn)品,但行業(yè)解決方案提供商面臨的一個(gè)苦惱是,他們不得不進(jìn)行底層開(kāi)發(fā)。實(shí)際上,底層解決方案是有很多共性的。對(duì)行業(yè)解決方案提供商來(lái)說(shuō),如果有一個(gè)由可靠廠商優(yōu)化過(guò)的平臺(tái)再好不過(guò)了。利用這個(gè)平臺(tái),行業(yè)解決方案提供商可以拋開(kāi)重復(fù)的、無(wú)意義的勞動(dòng),將注意力和精力更加集中在行業(yè)特點(diǎn)上,進(jìn)而開(kāi)發(fā)出滿足行業(yè)所需的實(shí)打?qū)嵉男袠I(yè)解決方案。在這種情況下,英特爾適時(shí)地推出了英特爾Hadoop發(fā)行版,打造一個(gè)優(yōu)秀的、高價(jià)值的底層平臺(tái)。
對(duì)于如何從大數(shù)據(jù)中發(fā)掘價(jià)值,英特爾指出,這需要在IT基礎(chǔ)設(shè)施與服務(wù)層、數(shù)據(jù)組織與管理層、數(shù)據(jù)分析與發(fā)現(xiàn)層、決策支持與IT服務(wù)層全面引入新的技術(shù),特別是在堪稱(chēng)大數(shù)據(jù)應(yīng)用“載體”的IT基礎(chǔ)設(shè)施與服務(wù)層,采用基于開(kāi)放架構(gòu)的平臺(tái)將是最佳選擇。
O‘Reilly Strata和Open Source Convention大會(huì)委員會(huì)主席Edd Dumbill曾指出,使大數(shù)據(jù)真正變得強(qiáng)大的方式之一就是讓上層程序員可以將精力放在數(shù)據(jù)而非底層Hadoop設(shè)施的抽象特征上。他們編寫(xiě)更簡(jiǎn)短的程序,能夠更清晰地表達(dá)出對(duì)數(shù)據(jù)所做的處理。這些將有助于為非程序員創(chuàng)建更好的工具。
延伸到企業(yè)層面,“行業(yè)解決方案提供商需要穩(wěn)定性和可用性都足夠好的平臺(tái)。在這樣的平臺(tái)上,行業(yè)解決方案提供商可以從不必要的重復(fù)性勞動(dòng)中解放出來(lái),從而把更多的精力放在提供差異化特色方案和服務(wù)上。”英特爾亞太研發(fā)有限公司總經(jīng)理、英特爾軟件與服務(wù)事業(yè)部中國(guó)區(qū)總經(jīng)理何京翔的看法類(lèi)似。進(jìn)而,他解讀了英特爾Hadoop發(fā)行版的優(yōu)勢(shì):“英特爾Hadoop發(fā)行版的優(yōu)勢(shì)在于:處理接近于實(shí)時(shí);能在英特爾平臺(tái)上實(shí)現(xiàn)最優(yōu)化的性能,比非英特爾發(fā)行版有成倍的增長(zhǎng);通過(guò)和電信、智能城市、醫(yī)療等行業(yè)客戶(hù)的合作,英特爾Hadoop還做了更進(jìn)一步的優(yōu)化。”
除了提供平臺(tái),英特爾(中國(guó))行業(yè)合作與解決方案部中國(guó)區(qū)總監(jiān)凌琦強(qiáng)調(diào),英特爾還會(huì)把大數(shù)據(jù)解決方案的研究和服務(wù)作為投資部門(mén)的重點(diǎn)。英特爾的風(fēng)險(xiǎn)投資部門(mén)也對(duì)大數(shù)據(jù)中所涉及的關(guān)鍵平臺(tái)、關(guān)鍵應(yīng)用、提供商,給予關(guān)注。
行業(yè)側(cè)重點(diǎn)
英特爾硬件平臺(tái)的特點(diǎn)讓其可以用“通吃”來(lái)形容,行業(yè)特色則由軟件來(lái)體現(xiàn)。
正如英特爾Hadoop發(fā)行版白皮書(shū)所指出的,它“為企業(yè)應(yīng)用而優(yōu)化”,其擁有的增強(qiáng)高可靠性、增強(qiáng)分布式文件系統(tǒng)HDFS擴(kuò)展性(使集群的I/O吞吐量能夠隨著節(jié)點(diǎn)數(shù)量的增加而線性增加)、動(dòng)態(tài)調(diào)整數(shù)據(jù)復(fù)制策略(提高熱點(diǎn)數(shù)據(jù)的并發(fā)訪問(wèn)能力)、改進(jìn)分布式計(jì)算框架調(diào)度算法(避免并行任務(wù)退化成串行執(zhí)行)、增加Hadoop集群監(jiān)控管理、優(yōu)化HBase查詢(xún)、實(shí)現(xiàn)細(xì)粒度的HBase合并調(diào)度控制(避免合并風(fēng)暴)、創(chuàng)建異地HBase大表、均衡負(fù)載等相對(duì)開(kāi)源Hadoop和其他Hadoop發(fā)行版的核心優(yōu)勢(shì)在多個(gè)行業(yè)中均不可或缺。
“大數(shù)據(jù)是當(dāng)下最熱門(mén)的一個(gè)IT話題,隨著移動(dòng)終端和電子商務(wù)的普及,人類(lèi)社會(huì)已經(jīng)進(jìn)入了數(shù)據(jù)打包站的時(shí)代,如何應(yīng)對(duì)‘大數(shù)據(jù)’是每個(gè)行業(yè)和企事業(yè)單位都必須面對(duì)的機(jī)遇和挑戰(zhàn)?!睒s之聯(lián)公司董事長(zhǎng)王東輝如是說(shuō)。顯然,作為多年專(zhuān)注于行業(yè)用戶(hù)服務(wù)的IT方案商,榮之聯(lián)已經(jīng)意識(shí)到“大數(shù)據(jù)”給整個(gè)IT產(chǎn)業(yè)帶來(lái)的變革和機(jī)會(huì)。
不過(guò),知易行難。
尤其是隨著社交網(wǎng)絡(luò)、電子商務(wù)以及物聯(lián)網(wǎng)的發(fā)展,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存,無(wú)論是數(shù)據(jù)的類(lèi)型、來(lái)源還是數(shù)量等方面,都已十分復(fù)雜。而依靠傳統(tǒng)的IT技術(shù),已經(jīng)很難對(duì)這些海量數(shù)據(jù)進(jìn)行高效的分析。因此,是否能夠找到一套涵蓋業(yè)務(wù)、技術(shù)和IT基礎(chǔ)架構(gòu)的全面的大數(shù)據(jù)解決方案,就成為IT服務(wù)商決勝大數(shù)據(jù)市場(chǎng)的關(guān)鍵因素之一。
而這也正是榮之聯(lián)公司與Alpine公司合作,共同拓展國(guó)內(nèi)大數(shù)據(jù)市場(chǎng)的重要原因?!癆lpine公司在大數(shù)據(jù)處理方面有著很多創(chuàng)新的技術(shù)和面向各個(gè)行業(yè)的解決方案,而這些可以幫助我們很好的解決國(guó)內(nèi)行業(yè)用戶(hù)所面臨的大數(shù)據(jù)問(wèn)題?!蓖鯑|輝說(shuō)。
其實(shí),對(duì)于大數(shù)據(jù),榮之聯(lián)公司并不陌生。“過(guò)去幾年,我們幫助華大基因等企業(yè)建設(shè)了巨大的數(shù)據(jù)庫(kù),計(jì)算量超過(guò)200萬(wàn)億次,我們的生物云也馬上要,數(shù)據(jù)量將會(huì)更大。而如何在生物行業(yè)中結(jié)合大數(shù)據(jù)分析,也是過(guò)去一年多我們一直在討論的問(wèn)題?!睒s之聯(lián)公司總經(jīng)理張彤介紹道。
而榮之聯(lián)公司多年積累的行業(yè)用戶(hù)基礎(chǔ),以及良好的本地化服務(wù)能力,顯然對(duì)于Alpine公司也有著十分大的吸引力:這將幫助Alpine的大數(shù)據(jù)解決方案在國(guó)內(nèi)行業(yè)用戶(hù)中迅速落地。
大數(shù)據(jù)業(yè)務(wù)值得期待
在云計(jì)算方面,曙光多年的努力已經(jīng)看到了成效。在曙光自己建設(shè)和運(yùn)維的云數(shù)據(jù)中心里,存儲(chǔ)容量基本都超過(guò)10PB,承載了大量來(lái)自地質(zhì)勘探、視頻監(jiān)控、電子政務(wù)等方面的數(shù)據(jù)。其中,結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)比例是1∶4,大量非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)主要存儲(chǔ)的是圖片和視頻,這也為下一步的數(shù)據(jù)挖掘奠定了基礎(chǔ)。曙光為企業(yè)級(jí)客戶(hù)提供的云存儲(chǔ)解決方案涉及公安云、稅務(wù)云、教育云、醫(yī)療云等。
在大數(shù)據(jù)產(chǎn)品方面,曙光已經(jīng)成竹在胸。針對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光都能提供匹配的存儲(chǔ)解決方案。比如,針對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),曙光的ParaStor就是一個(gè)非常好的存儲(chǔ)平臺(tái)。再比如,曙光利用自己的文件系統(tǒng)對(duì)Hadoop平臺(tái)進(jìn)行了優(yōu)化,可以更好地發(fā)揮Hadoop的優(yōu)勢(shì)?;轁?rùn)海表示:“當(dāng)前,雖然大數(shù)據(jù)帶來(lái)的直接收入并不如預(yù)期,但是大數(shù)據(jù)市場(chǎng)的前景十分廣闊?!?/p>
不趕一體機(jī)的時(shí)髦
在大數(shù)據(jù)市場(chǎng)上,一體機(jī)越來(lái)越流行,曙光卻一直按兵不動(dòng)?!拔覀円欢ㄒ高^(guò)現(xiàn)象看本質(zhì)。一體機(jī)的核心還是軟件?!被轁?rùn)海表示,“將相關(guān)硬件拼湊在一起,再加上Hadoop就能構(gòu)成一個(gè)簡(jiǎn)單的一體機(jī),但是這樣的產(chǎn)品會(huì)有競(jìng)爭(zhēng)力嗎?我們只要推出一個(gè)新產(chǎn)品,就希望這個(gè)產(chǎn)品具有一定的競(jìng)爭(zhēng)力,能夠在市場(chǎng)上取得較高的占有率,而不是搞噱頭。”
在大數(shù)據(jù)業(yè)務(wù)方面,曙光的核心競(jìng)爭(zhēng)力主要體現(xiàn)在它有一支強(qiáng)大的技術(shù)服務(wù)團(tuán)隊(duì),可以為用戶(hù)提供代碼級(jí)開(kāi)發(fā)的服務(wù)能力。由于自身的復(fù)雜性以及存在Bug,Hadoop通常不能直接使用,這就需要大數(shù)據(jù)解決方案廠商在Hadoop平臺(tái)上進(jìn)行相關(guān)調(diào)整和優(yōu)化?!坝捎跀?shù)據(jù)種類(lèi)繁多,數(shù)據(jù)量又大,如何快速將大數(shù)據(jù)導(dǎo)入到大數(shù)據(jù)挖掘系統(tǒng)中是一個(gè)難題。如果廠商沒(méi)有過(guò)硬的技術(shù)服務(wù)團(tuán)隊(duì),不能根據(jù)數(shù)據(jù)的情況對(duì)解決方案進(jìn)行調(diào)整和優(yōu)化,那么大數(shù)據(jù)應(yīng)用落地就將成為一句空話。大數(shù)據(jù)應(yīng)用之所以難普及,一個(gè)重要的原因就是具有代碼級(jí)開(kāi)發(fā)能力的專(zhuān)業(yè)技術(shù)人才太少了?!被轁?rùn)海表示。
在推廣大數(shù)據(jù)解決方案時(shí),曙光并沒(méi)有與某一個(gè)應(yīng)用軟件廠商簽定產(chǎn)品捆綁協(xié)議。不過(guò),曙光還是針對(duì)一些主流的應(yīng)用軟件進(jìn)行了方案的優(yōu)化。舉例來(lái)說(shuō),在結(jié)構(gòu)化數(shù)據(jù)處理方面,曙光主要針對(duì)Oracle數(shù)據(jù)庫(kù)進(jìn)行了方案優(yōu)化。曙光利用基礎(chǔ)的硬件,結(jié)合自己的大數(shù)據(jù)挖掘系統(tǒng),可以將Oracle數(shù)據(jù)庫(kù)的查詢(xún)速度至少提升50倍,而成本只有傳統(tǒng)的“小型機(jī)+高端存儲(chǔ)”解決方案的十分之一。
存儲(chǔ)服務(wù)器已獲認(rèn)可
軟件定義的網(wǎng)絡(luò)也好,軟件定義的存儲(chǔ)也罷,無(wú)非都是在強(qiáng)調(diào)一個(gè)重點(diǎn):軟件將成為未來(lái)IT架構(gòu)和應(yīng)用的核心?!皬拇鎯?chǔ)的研發(fā)上看,除了少量的硬件研發(fā)以外,我們90%的研發(fā)人員從事的都是軟件研發(fā)?!被轁?rùn)海表示,“曙光在軟件研發(fā)上強(qiáng)調(diào)的是精英文化,近百人的研發(fā)團(tuán)隊(duì)具有代碼級(jí)的開(kāi)發(fā)實(shí)力。未來(lái),我們研發(fā)的重點(diǎn)將放在海量存儲(chǔ)、大數(shù)據(jù)挖掘和云存儲(chǔ)上,而對(duì)于傳統(tǒng)的磁盤(pán)陣列不會(huì)有太大的研發(fā)投入?!?/p>
【關(guān)鍵詞】大數(shù)據(jù) 視頻監(jiān)控 Hadoop架構(gòu) 數(shù)據(jù)挖掘技術(shù)
1 前言
由于數(shù)據(jù)體量的激增、結(jié)構(gòu)類(lèi)型的復(fù)雜、但數(shù)據(jù)的低密度價(jià)值以及處理速度的提升等新特性的出現(xiàn),促使人們對(duì)大數(shù)據(jù)進(jìn)行研究與實(shí)踐?,F(xiàn)階段,大數(shù)據(jù)已逐漸滲透到各個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域。在安防領(lǐng)域中,視頻監(jiān)控以其直觀、準(zhǔn)確、及時(shí)和信息內(nèi)容豐富而廣泛應(yīng)用于許多場(chǎng)合,在安防系統(tǒng)中的重要性日益突出,海量的視頻數(shù)據(jù)需要得到有效的處理,迫切需要與大數(shù)據(jù)技術(shù)相融合。大數(shù)據(jù)可以有效促進(jìn)視頻監(jiān)控業(yè)務(wù)的發(fā)展,推動(dòng)視頻監(jiān)控業(yè)務(wù)的展開(kāi),兩者之間的融合勢(shì)在必行。
2 大數(shù)據(jù)
在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫(kù)管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲(chǔ)、搜索、共享、分析和可視化。大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),使用高速獲取、發(fā)現(xiàn)和/或分析方法提取的各種各樣數(shù)據(jù)量非常大的數(shù)據(jù)價(jià)值。
3 視頻監(jiān)控?cái)?shù)據(jù)
在視頻監(jiān)控領(lǐng)域,大數(shù)據(jù)的特點(diǎn)可用4個(gè)V來(lái)概括:Volume、Variety、Velocity、Value。
3.1 數(shù)據(jù)體量巨大(Volume)
高清化帶來(lái)單個(gè)監(jiān)控點(diǎn)數(shù)據(jù)量以指數(shù)級(jí)增長(zhǎng),例如單個(gè)1080PIPC30天就會(huì)產(chǎn)生2T數(shù)據(jù);IP化大聯(lián)網(wǎng)后,各平臺(tái)實(shí)現(xiàn)互聯(lián),平安城市網(wǎng)內(nèi)攝像頭數(shù)量達(dá)數(shù)萬(wàn)數(shù)十萬(wàn)級(jí)別,其數(shù)據(jù)量之巨大可想而知。
3.2 數(shù)據(jù)類(lèi)型繁多(Variety)
視頻監(jiān)控領(lǐng)域的視頻編碼格式包括:H.264、MPEG-4、MJPEG等多樣化的編碼方式。同時(shí)隨著各類(lèi)物聯(lián)網(wǎng)技術(shù)融入到視頻監(jiān)控業(yè)務(wù),匯聚了包括各種傳感器、IT、CT系統(tǒng)產(chǎn)生的多樣的數(shù)據(jù)。
3.3 處理速度快(Velocity)
視頻數(shù)據(jù)隨時(shí)間快速增長(zhǎng),并以持續(xù)順序到達(dá)。隨著數(shù)據(jù)量的增加,哪怕對(duì)TB級(jí)別的數(shù)據(jù)進(jìn)行視頻內(nèi)容的數(shù)據(jù)分析和檢索,采用串行計(jì)算模式都可能需要花費(fèi)數(shù)小時(shí)的計(jì)算,已遠(yuǎn)遠(yuǎn)不能勝任時(shí)效性的需求。
3.4 價(jià)值密度低(Value),效率要求高
在視頻監(jiān)控業(yè)務(wù)中,價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。一小時(shí)的視頻監(jiān)控內(nèi)容,可能有用的數(shù)據(jù)僅僅只有一兩秒。
4 視頻監(jiān)控大數(shù)據(jù)分析架構(gòu)
結(jié)合視頻監(jiān)控業(yè)務(wù)特點(diǎn),引入Hadoop的架構(gòu),以頂層設(shè)計(jì)的視角來(lái)構(gòu)建面向大數(shù)據(jù)的視頻監(jiān)控架構(gòu)。面向大數(shù)據(jù)視頻監(jiān)控邏輯架構(gòu)包括:
4.1 數(shù)據(jù)源層
包括實(shí)時(shí)數(shù)據(jù)和非實(shí)時(shí)數(shù)據(jù)。實(shí)時(shí)數(shù)據(jù)指IP攝像頭和傳感器產(chǎn)生的實(shí)時(shí)流媒體數(shù)據(jù)。非實(shí)時(shí)數(shù)據(jù)是指從DVR、編碼器、第三方系統(tǒng)導(dǎo)入的媒體數(shù)據(jù)。
4.2 大數(shù)據(jù)存儲(chǔ)層
采用HDFS(Hadoop Distributed File System)和HBase(Hadoop Database)實(shí)現(xiàn)數(shù)據(jù)低成本、高可靠的管理。把采集的流視頻保存在HDFS集群內(nèi),并通過(guò)HBase建立訪問(wèn)的索引。把傳統(tǒng)NVR和專(zhuān)用存儲(chǔ)進(jìn)行重構(gòu),納入到整體的分布式文件系統(tǒng)中。
4.3 大數(shù)據(jù)計(jì)算層
實(shí)現(xiàn)智能分析和數(shù)據(jù)挖掘。通過(guò)MapReduce把對(duì)視頻的分析進(jìn)行分解,充分利用閑置資源,把計(jì)算任務(wù)分配給多臺(tái)服務(wù)器進(jìn)行并行計(jì)算分析;另一方面,根據(jù)智能分析產(chǎn)生的視頻元數(shù)據(jù),通過(guò)Hive挖掘視頻元數(shù)據(jù)的價(jià)值信息。
4.4 業(yè)務(wù)及管理層
實(shí)現(xiàn)設(shè)備和業(yè)務(wù)管理。基于Zookeeper組成的服務(wù)器集群,可以保證業(yè)務(wù)系統(tǒng)的無(wú)故障運(yùn)營(yíng),基于Ganglia實(shí)現(xiàn)對(duì)攝像頭等設(shè)備的監(jiān)管。
基于大數(shù)據(jù)的視頻架構(gòu),本質(zhì)上是把視頻數(shù)據(jù)作為最有價(jià)值的資產(chǎn),以數(shù)據(jù)作為核心來(lái)構(gòu)建技術(shù)架構(gòu),重點(diǎn)解決海量的視頻數(shù)據(jù)分散和集中式存儲(chǔ)并存、多級(jí)分布等問(wèn)題,極大提升非結(jié)構(gòu)化視頻數(shù)據(jù)讀寫(xiě)的效率,為視頻監(jiān)控的快速檢索、智能分析提供端到端的解決方案。
5 視頻監(jiān)控?cái)?shù)據(jù)挖掘技術(shù)
視頻數(shù)據(jù)挖掘的目的是建立底層視頻數(shù)據(jù)到高層語(yǔ)義信息之間的映射關(guān)系,由于這種映射關(guān)系比較復(fù)雜,一般采用多層次的信息提取及映射技術(shù)來(lái)最終實(shí)現(xiàn)數(shù)據(jù)挖掘過(guò)程:從底層視頻數(shù)據(jù)中首先提取底層圖像特征信息,然后利用目標(biāo)檢測(cè)、目標(biāo)跟蹤、特征比對(duì)等手段從圖像特征中提取元語(yǔ)義信息,最后將元語(yǔ)義信息融合為高層的語(yǔ)義級(jí)描述信息。主要采用的視頻數(shù)據(jù)挖掘技術(shù)有:視頻濃縮與檢索技術(shù)、視頻圖像信息數(shù)據(jù)庫(kù)等技術(shù)。
視頻濃縮與檢索技術(shù)主要是利用圖像處理、模式識(shí)別、海量數(shù)據(jù)分類(lèi)存儲(chǔ)以及搜索等技術(shù),對(duì)海量的存儲(chǔ)錄像等原始信息進(jìn)行分析和挖掘,對(duì)于目標(biāo)特征、目標(biāo)行為、目標(biāo)間關(guān)聯(lián)關(guān)系這3大類(lèi)信息內(nèi)容,形成各種分類(lèi)的特征信息庫(kù)、元數(shù)據(jù)和索引等,并提供統(tǒng)一接口供外部應(yīng)用進(jìn)行搜索,以期實(shí)現(xiàn)快速關(guān)聯(lián)和定位。
視頻圖像信息庫(kù)建設(shè)和海量數(shù)據(jù)的處理、分析、檢索,是提高效率的有力手段。通過(guò)視頻智能分析技術(shù),把海量的視頻數(shù)據(jù)進(jìn)行濃縮,提取特征摘要,減少存儲(chǔ)空間。同時(shí),視頻圖像信息庫(kù)針對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過(guò)數(shù)據(jù)的多個(gè)副本分布式保存方式,有效節(jié)約存儲(chǔ)空間,使系統(tǒng)架構(gòu)更加穩(wěn)定和可擴(kuò)展,并提供安全的負(fù)載均衡和容錯(cuò)機(jī)制。
6 結(jié)束語(yǔ)
隨著IT新興技術(shù)的興起,視頻監(jiān)控進(jìn)入網(wǎng)絡(luò)化時(shí)代,大數(shù)據(jù)技術(shù)在視頻監(jiān)控領(lǐng)域的廣闊發(fā)展路徑已經(jīng)顯現(xiàn)。如何從海量視頻數(shù)據(jù)中提取有用信息,把大數(shù)據(jù)技術(shù)和視頻監(jiān)控業(yè)務(wù)相互融合,打造大數(shù)據(jù)時(shí)代的視頻監(jiān)控解決方案,無(wú)疑是監(jiān)控系統(tǒng)各個(gè)行業(yè)用戶(hù)都迫切需要解決的問(wèn)題。
參考文獻(xiàn)
[1]陳明.大數(shù)據(jù)概論[M].北京:科學(xué)出版社,2015.
[2]嚴(yán)權(quán)鋒.移動(dòng)視頻監(jiān)控系統(tǒng)中的關(guān)鍵技術(shù)研究[J].無(wú)線電通信技術(shù),2008,34(4):33-35.
作者簡(jiǎn)介
周英鳳(1980-),女。碩士學(xué)位?,F(xiàn)為井岡山大學(xué)電子與信息工程學(xué)院講師。研究方向?yàn)榍度胧綀D像處理等。
作者單位
與企業(yè)生產(chǎn)密切相關(guān)的在線數(shù)據(jù),也就是俗稱(chēng)的熱數(shù)據(jù),一直是數(shù)據(jù)存儲(chǔ)的重點(diǎn)。為了更好地處理和保存熱數(shù)據(jù),人們想了很多辦法,相關(guān)的技術(shù)創(chuàng)新層出不窮。最近比較熱門(mén)的閃存技術(shù)就大大提升了對(duì)熱數(shù)據(jù)的訪問(wèn)性能。一直堅(jiān)持在機(jī)械式硬盤(pán)方面推陳出新的HGST,也在持續(xù)關(guān)注閃存技術(shù)的進(jìn)展,并推出了新一代的產(chǎn)品。
舉例來(lái)說(shuō),今年9月HGST推出了全新的兼容NVMe標(biāo)準(zhǔn)的Ultrastar SN100 PCIe SSD。該產(chǎn)品系列集成了東芝的MLC NAND閃存,配以簡(jiǎn)化的PCIe SSD系統(tǒng),具有HGST一貫的高品質(zhì)和高可靠性。主要面向數(shù)據(jù)庫(kù)加速、虛擬化和大數(shù)據(jù)分析的Ultrastar SN100 SSD,采用了半高半長(zhǎng)的插卡形式,基于標(biāo)準(zhǔn)的2.5英寸硬盤(pán)規(guī)格,容量高達(dá)3.2TB。為提升NAND閃存的耐久性和可靠性,Ultrastar SN100 SSD系列使用了專(zhuān)門(mén)針對(duì)東芝MLC NAND閃存進(jìn)行優(yōu)化的HGST CellCare NAND管理技術(shù)。
雖然人們對(duì)于熱數(shù)據(jù)的熱情不減,但數(shù)據(jù)本身有固有的生命周期,一定會(huì)經(jīng)歷從熱到冷、從在線到離線直到被刪除的過(guò)程。隨著數(shù)據(jù)量的增加和時(shí)間的推移,企業(yè)中大量的數(shù)據(jù)由在線存儲(chǔ)逐漸轉(zhuǎn)為長(zhǎng)期保留和歸檔,也就是進(jìn)入“冷處理”的環(huán)節(jié)。其實(shí),隨著用戶(hù)對(duì)數(shù)據(jù)可訪問(wèn)性要求的逐步提高,在一些行業(yè)中已經(jīng)沒(méi)有完全意義上的冷數(shù)據(jù),因?yàn)榧词故菤w檔的數(shù)據(jù),也可能會(huì)在某些特殊情況下要求被快速訪問(wèn),比如話費(fèi)賬單的查詢(xún)等。
所謂“冷數(shù)據(jù)”就是大量的需要被長(zhǎng)久、安全地保留或歸檔的數(shù)據(jù)。相對(duì)于在線的熱數(shù)據(jù)來(lái)說(shuō),這些冷數(shù)據(jù)的被訪問(wèn)頻率可能會(huì)大大降低,但是這些數(shù)據(jù)并不是無(wú)用的數(shù)據(jù),而是需要時(shí)刻準(zhǔn)備被查詢(xún)。
HGST認(rèn)為,在數(shù)據(jù)量快速增長(zhǎng)的今天,“冷數(shù)據(jù)”市場(chǎng)也會(huì)很快熱起來(lái)。為此,HGST意欲進(jìn)軍與冷數(shù)據(jù)相關(guān)的數(shù)據(jù)歸檔市場(chǎng)。作為一個(gè)傳統(tǒng)的硬盤(pán)制造商,HGST原來(lái)的技術(shù)特長(zhǎng)是制造存儲(chǔ)用的零部件,而進(jìn)軍數(shù)據(jù)歸檔市場(chǎng),研發(fā)一個(gè)完整的歸檔系統(tǒng)對(duì)HSGT來(lái)說(shuō)也是一次全新的挑戰(zhàn)。
James Ho表示,HGST瞄準(zhǔn)的是新興的藍(lán)海存儲(chǔ)市場(chǎng)――動(dòng)態(tài)歸檔。雖然深度歸檔依然是一種“一次寫(xiě)入”并希望“永不讀取”的運(yùn)作方式,但高速增長(zhǎng)的應(yīng)用和數(shù)據(jù)正在催生各種新型的長(zhǎng)期數(shù)據(jù)存儲(chǔ)模式。除了可擴(kuò)展性以外,動(dòng)態(tài)歸檔系統(tǒng)還要求低成本和高效率。過(guò)去,磁帶提供了一種低成本、大容量的數(shù)據(jù)歸檔方式,但無(wú)法讓用戶(hù)快速訪問(wèn)隨機(jī)數(shù)據(jù)?,F(xiàn)今主流的磁盤(pán)存儲(chǔ)方式能夠滿足用戶(hù)對(duì)數(shù)據(jù)訪問(wèn)性能的要求,但無(wú)法滿足PB級(jí)存儲(chǔ)環(huán)境對(duì)低成本的要求。
HGST嘗試通過(guò)創(chuàng)新的技術(shù)打造可以滿足成本、性能、效率和可靠性要求的動(dòng)態(tài)歸檔平臺(tái)。HGST的動(dòng)態(tài)歸檔平臺(tái)旨在實(shí)現(xiàn)10倍于傳統(tǒng)企業(yè)數(shù)據(jù)中心解決方案的存儲(chǔ)密度和功率效率,以及5倍于常用可擴(kuò)展型云計(jì)算數(shù)據(jù)中心解決方案的存儲(chǔ)密度和功率效率。