99精品久久这里只有精品,三上悠亚免费一区二区在线,91精品福利一区二区,爱a久久片,无国产精品白浆免费视,中文字幕欧美一区,爽妇网国产精品,国产一级做a爱免费观看,午夜一级在线,国产精品偷伦视频免费手机播放

    <del id="eyo20"><dfn id="eyo20"></dfn></del>
  • <small id="eyo20"><abbr id="eyo20"></abbr></small>
      <strike id="eyo20"><samp id="eyo20"></samp></strike>
    • 首頁(yè) > 文章中心 > 數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘

      前言:想要寫(xiě)出一篇令人眼前一亮的文章嗎?我們特意為您整理了5篇數(shù)據(jù)挖掘范文,相信會(huì)為您的寫(xiě)作帶來(lái)幫助,發(fā)現(xiàn)更多的寫(xiě)作思路和靈感。

      數(shù)據(jù)挖掘范文第1篇

      隨著數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)被廣泛地應(yīng)用于企業(yè)管理、產(chǎn)品銷(xiāo)售、科學(xué)計(jì)算和信息服務(wù)等領(lǐng)域,數(shù)據(jù)量的不斷增長(zhǎng)對(duì)數(shù)據(jù)的存儲(chǔ)、管理和分析提出了更高的要求,急需新一代的技術(shù),能夠智能化的從大量的數(shù)據(jù)中提取出有用的信息和知識(shí),于是數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,且在各行業(yè)得到了廣泛的應(yīng)用。如何從海量的數(shù)據(jù)中找到內(nèi)在的規(guī)律,如何更快更方便地傳遞、交流、獲取有用的信息,挖掘這些激增數(shù)據(jù)背后隱藏的重要信息并及時(shí)進(jìn)行信息的重組已成為當(dāng)前我們所探究的熱點(diǎn)。

      一、數(shù)據(jù)挖掘概述及分類(lèi)

      數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種多學(xué)科交叉的全新信息技術(shù),是指從海量的數(shù)據(jù)中出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程,反復(fù)使用多種數(shù)據(jù)挖掘算法從觀測(cè)數(shù)據(jù)中確定模式或合理模型。也就是根據(jù)預(yù)定義的目標(biāo),對(duì)大量的數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的規(guī)律,并進(jìn)一步將其模型化的先進(jìn)有效的技術(shù)過(guò)程。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要探究的重要課題。

      數(shù)據(jù)挖掘涉及多個(gè)學(xué)科方向,主要包括摘要:數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫(kù)類(lèi)型、挖掘?qū)ο?、挖掘任?wù)、挖掘方法和技術(shù)以及應(yīng)用等幾方面進(jìn)行分類(lèi)。按數(shù)據(jù)庫(kù)類(lèi)型分類(lèi)摘要:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘類(lèi)型。按數(shù)據(jù)挖掘?qū)ο蠓诸?lèi)摘要:文本數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有摘要:關(guān)聯(lián)分析、時(shí)序模式、聚類(lèi)、分類(lèi)、偏差檢測(cè)、猜測(cè)等。按數(shù)據(jù)挖掘方法和技術(shù)分類(lèi)摘要:歸納學(xué)習(xí)類(lèi)、仿生物技術(shù)類(lèi)、公式發(fā)現(xiàn)類(lèi)、統(tǒng)計(jì)分析類(lèi)、模糊數(shù)學(xué)類(lèi)、可視化技術(shù)類(lèi)。

      二、數(shù)據(jù)挖掘的基本過(guò)程

      (1)定義新問(wèn)題。對(duì)目標(biāo)有一個(gè)可行、清楚和明確的定義,同時(shí)還包含對(duì)一個(gè)結(jié)果進(jìn)行衡量的標(biāo)準(zhǔn)。(2)建立數(shù)據(jù)挖掘庫(kù)。它主要是指收集數(shù)據(jù)、維護(hù)數(shù)據(jù)等工作。(3)分析數(shù)據(jù)。找到對(duì)新問(wèn)題解決影響大的數(shù)據(jù)字段集和決定是否需要定義導(dǎo)出字段。(4)預(yù)備建摸數(shù)據(jù)。根據(jù)新問(wèn)題的定義,對(duì)數(shù)據(jù)庫(kù)中的字段變量、記錄進(jìn)行篩選,并根據(jù)現(xiàn)有的變量進(jìn)行轉(zhuǎn)換,生成新的變量和字段。它主要是指為建立模型預(yù)備部分?jǐn)?shù)據(jù)的過(guò)程。(5)建立模型。選擇一定的挖掘算法來(lái)處理數(shù)據(jù),它需考察不同的模型用以判定和選擇解決新問(wèn)題最有效、精確度較好的一種數(shù)據(jù)挖掘模式。(6)模型的評(píng)價(jià)和解釋。模型建立后,必須有一個(gè)對(duì)它的結(jié)果進(jìn)行評(píng)價(jià)、對(duì)它的價(jià)值進(jìn)行解釋的過(guò)程。(7)實(shí)施。模型建立并驗(yàn)證之后通常有兩種使用方法。一種是提供給分析人員作參考和分析這個(gè)模型之后的行動(dòng)方案及建議。另一種是在應(yīng)用了模型之后,還需不斷地監(jiān)控其效果,因?yàn)槭挛镌诓粩嗟匕l(fā)展變化,有可能一段時(shí)間后,模型就不再起功能川。在以上數(shù)據(jù)挖掘的基本過(guò)程中,其中數(shù)據(jù)預(yù)備、數(shù)據(jù)選擇、預(yù)處理、數(shù)據(jù)縮減的階段主要以完成數(shù)據(jù)倉(cāng)庫(kù)為主;目標(biāo)確定、算法確定、數(shù)據(jù)挖掘、模式識(shí)別和知識(shí)評(píng)價(jià)這幾個(gè)階段,主要以挖掘有用的知識(shí)為主,為知識(shí)發(fā)現(xiàn)做預(yù)備。

      三、數(shù)據(jù)挖據(jù)的應(yīng)用

      數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值?,F(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識(shí)幫助進(jìn)行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向摘要:

      (一)在金融數(shù)據(jù)分析中的應(yīng)用。多數(shù)銀行和金融機(jī)構(gòu)都提供了豐富多樣的儲(chǔ)蓄,信用,投資,保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對(duì)系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當(dāng)有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來(lái)分析這些數(shù)據(jù)的一般特性,觀察金融市場(chǎng)的變化趨向;通過(guò)特征選擇和屬性相關(guān)性計(jì)算,識(shí)別關(guān)鍵因素,進(jìn)行貸款償付猜測(cè)和客戶信用分析;利用分類(lèi)和聚集的方法對(duì)用戶群體進(jìn)行識(shí)別和目標(biāo)市場(chǎng)分析;使用數(shù)據(jù)可視化、鏈接分析、分類(lèi)、聚類(lèi)分析、孤立點(diǎn)分析、序列模式分析等工具偵破洗黑錢(qián)和其他金融犯罪行為。

      (二)在電力業(yè)的應(yīng)用。在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導(dǎo)設(shè)備更新、業(yè)績(jī)?cè)u(píng)估、指導(dǎo)電力企業(yè)的建設(shè)規(guī)劃、指導(dǎo)電力的生產(chǎn)和購(gòu)買(mǎi)、指導(dǎo)電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說(shuō)指導(dǎo)項(xiàng)目管理、平安管理、資源管理、投資組合管理、活動(dòng)分析、銷(xiāo)售猜測(cè)、收入猜測(cè)、需求猜測(cè)、理賠分析等。而且當(dāng)使用數(shù)據(jù)挖掘系統(tǒng)時(shí),用戶會(huì)對(duì)模型進(jìn)行調(diào)優(yōu)和定制。這將會(huì)逐步積累符合企業(yè)自身需要的模型庫(kù),成為企業(yè)知識(shí)庫(kù)的重要組成部分。

      (三)在零售業(yè)中的應(yīng)用。零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷(xiāo)售數(shù)據(jù),如顧客購(gòu)買(mǎi)史記錄、貨物進(jìn)出、消費(fèi)和服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問(wèn)技術(shù)、分類(lèi)技術(shù)和猜測(cè)技術(shù),更精確地挑選潛在的顧客;識(shí)別顧客購(gòu)買(mǎi)行為,發(fā)現(xiàn)顧客購(gòu)買(mǎi)模式和趨向,進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);改進(jìn)服務(wù)質(zhì)量,獲得更好的顧客忠誠(chéng)度和滿足程度;提高貨品的銷(xiāo)量比率,設(shè)計(jì)更好的貨品運(yùn)輸和分銷(xiāo)策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進(jìn)行市場(chǎng)分析等等。

      (四)在醫(yī)學(xué)上的應(yīng)用。近年來(lái),生物醫(yī)學(xué)探究有了迅猛地發(fā)展,從新藥的開(kāi)發(fā)到癌癥治療的突破,到通過(guò)大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類(lèi)基因的識(shí)別和探究。在人類(lèi)基因探究領(lǐng)域具有挑戰(zhàn)性的新問(wèn)題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具。利用數(shù)據(jù)挖掘技術(shù)在DNA數(shù)據(jù)的分析探究中可以進(jìn)行DNA序列間的相似搜索和比較,對(duì)同時(shí)出現(xiàn)的基因序列的相關(guān)分析,遺傳探究中的路徑分析等。近期DNA分析的探究成果已經(jīng)促成了對(duì)許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對(duì)疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。

      (五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用。主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價(jià)值的數(shù)據(jù)。比如在數(shù)字圖書(shū)館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時(shí)還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。

      數(shù)據(jù)挖掘范文第2篇

      關(guān)鍵詞:數(shù)據(jù)挖掘 大數(shù)據(jù) 市場(chǎng)營(yíng)銷(xiāo) 企業(yè)決策

      中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2014)02-0080-02

      數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題。數(shù)據(jù)挖掘己廣泛地應(yīng)用到社會(huì)的各個(gè)領(lǐng)域和行業(yè),如商業(yè)領(lǐng)域中的客戶關(guān)系、產(chǎn)品生產(chǎn)、市場(chǎng)營(yíng)銷(xiāo)等;金融領(lǐng)域中的股票交易市場(chǎng)、投資評(píng)估等;天文學(xué)領(lǐng)域的氣象預(yù)報(bào)、氣象災(zāi)害預(yù)測(cè)等;教育領(lǐng)域的高校學(xué)生管理、高校畢業(yè)生就業(yè)分析、高校教學(xué)質(zhì)量的評(píng)估等。可以說(shuō),數(shù)據(jù)挖掘?qū)嵤翘幵谥R(shí)創(chuàng)造過(guò)程中最核心的位置,因此做好數(shù)據(jù)挖掘工作具有十分重要的意義。

      1 數(shù)據(jù)挖掘的定義和本質(zhì)

      對(duì)于數(shù)據(jù)挖掘一般有兩種定義,從廣義上講,數(shù)據(jù)挖掘,又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程,就是從大型數(shù)據(jù)集中挖掘隱含在其中的、人們事先不知道的、對(duì)決策有用的知識(shí)的過(guò)程。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)的知識(shí)可以被用于信息管理,查詢優(yōu)化,決策支持和過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。從狹義上講,數(shù)據(jù)挖掘則是指從特定形式的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。

      數(shù)據(jù)挖掘的本質(zhì)是很偶然的發(fā)現(xiàn)非預(yù)期但很有價(jià)值的信息。這說(shuō)明數(shù)據(jù)挖掘過(guò)程本質(zhì)上是實(shí)驗(yàn)性的。數(shù)據(jù)挖掘的一個(gè)特定屬性就是要處理的是一個(gè)大數(shù)據(jù)集。這就意味著,由于可行性的原因,我們常常得到的只是一個(gè)樣本,但是需要描述樣本取自的那個(gè)大數(shù)據(jù)集。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用三個(gè)特征。

      2 數(shù)據(jù)挖掘的發(fā)展背景

      在這個(gè)信息爆炸的時(shí)代,如何從信息的大海中發(fā)現(xiàn)及時(shí)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為垃圾,甚至成為包袱。因此,面對(duì)人們被數(shù)據(jù)淹沒(méi)卻饑餓于知識(shí)的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來(lái)越顯示出其強(qiáng)大的生命力。

      數(shù)據(jù)挖掘技術(shù)是人們長(zhǎng)期對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行研究和開(kāi)發(fā)的結(jié)果。激發(fā)數(shù)據(jù)挖掘的開(kāi)發(fā)、應(yīng)用和研究有如下四個(gè)主要的技術(shù)理由:(1)超大規(guī)模數(shù)據(jù)庫(kù)的出現(xiàn),例如商業(yè)數(shù)據(jù)倉(cāng)庫(kù)和計(jì)算機(jī)自動(dòng)收集的數(shù)據(jù)記錄;(2)先進(jìn)的計(jì)算機(jī)技術(shù),例如更快和更強(qiáng)大的計(jì)算能力和并行體系結(jié)構(gòu); (3)對(duì)巨大量數(shù)據(jù)的快速訪問(wèn);(4)對(duì)這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計(jì)方法計(jì)算的能力。數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫(kù)引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中進(jìn)入了實(shí)用的階段。

      國(guó)內(nèi)對(duì)數(shù)據(jù)挖掘的研究晚于國(guó)外。國(guó)家通過(guò)自然科學(xué)基金對(duì)數(shù)據(jù)挖掘的研究進(jìn)行支持,很多科研單位和院校都在這個(gè)領(lǐng)域獲得了豐碩成果,這些單位包括中科院、清華大學(xué)、中國(guó)科大、復(fù)旦大學(xué)等,他們的成果為我國(guó)在此領(lǐng)域的發(fā)展起到了重要作用,得到了學(xué)術(shù)界的高度重視。

      3 數(shù)據(jù)挖掘常用的方法

      利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類(lèi)分析、回歸分析、聚類(lèi)分析、預(yù)警分析、Web頁(yè)挖掘等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。

      (1)分類(lèi)分析??蛻艏?xì)分需要進(jìn)行客戶特征分析,即用數(shù)據(jù)來(lái)描述或給出客戶或潛在客戶特征的分析過(guò)程。它可以應(yīng)用到客戶的分類(lèi)、客戶的屬性和特征分析、客戶滿意度分析、客戶的購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車(chē)零售商將客戶按照對(duì)汽車(chē)的喜好劃分成不同的類(lèi),這樣營(yíng)銷(xiāo)人員就可以將新型汽車(chē)的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。

      (2)回歸分析。如何使用數(shù)據(jù)挖掘來(lái)對(duì)不同的旨在保留客戶的活動(dòng)中進(jìn)行建模將對(duì)整個(gè)客戶保持工作起著重要的作用,這也就是流失模型價(jià)值所在。流失模型能預(yù)測(cè)賬號(hào)在被激活后減少或停止使用一種產(chǎn)品或服務(wù)的行為。它可以應(yīng)用到市場(chǎng)營(yíng)銷(xiāo)的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷(xiāo)售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷(xiāo)活動(dòng)等。

      (3)聚類(lèi)分析。通過(guò)分組聚類(lèi)出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地了解自己的客戶,向客戶提供更合適的服務(wù)。它可以應(yīng)用到客戶群體的分類(lèi)、客戶背景分析、客戶購(gòu)買(mǎi)趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。

      (4)預(yù)警分析。數(shù)據(jù)挖掘方法可以為風(fēng)險(xiǎn)分析建立分類(lèi)定位模型。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。風(fēng)險(xiǎn)分析是提品或服務(wù)時(shí)存在潛在損失的行業(yè)所特有的。常見(jiàn)的風(fēng)險(xiǎn)類(lèi)型出現(xiàn)在銀行業(yè)和保險(xiǎn)業(yè),銀行在放貸時(shí)存在金融風(fēng)險(xiǎn)。利用風(fēng)險(xiǎn)分析可以預(yù)測(cè)一個(gè)對(duì)象如期還貸或不還貸的可能性。一種貸款如抵押貸款或汽車(chē)貸款是安全貸款,另一種貸款如信用卡貸款為不安全貸款。

      (5)Web頁(yè)挖掘。Web因其易于導(dǎo)航、方便鏈接,融圖形、音頻、視頻信息于一體的優(yōu)越特性,迅速流行于全球,所載信息量巨大。Web頁(yè)挖掘是利用數(shù)據(jù)挖掘技術(shù)從萬(wàn)維網(wǎng)的海量信息和數(shù)據(jù)中提取各種有用模式和信息,其中涉及到Web技術(shù)、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域的專(zhuān)業(yè)知識(shí)。對(duì)于企業(yè)而言,可以通過(guò)Web頁(yè)挖掘、收集與企業(yè)生存相關(guān)的社會(huì)環(huán)境信息、市場(chǎng)信息、競(jìng)爭(zhēng)對(duì)手信息、客戶信息等,及時(shí)對(duì)外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息作出反饋和決策,未雨綢繆,以最快的速度解決企業(yè)面對(duì)的各種危機(jī)和潛在問(wèn)題。

      4 數(shù)據(jù)挖掘的社會(huì)需求和應(yīng)用

      人類(lèi)早已步入信息社會(huì),信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有價(jià)值的信息是生存的必要本領(lǐng)和競(jìng)爭(zhēng)的必要手段,這就需要進(jìn)行數(shù)據(jù)挖掘。具體而言,數(shù)據(jù)挖掘的社會(huì)需求和應(yīng)用主要有表現(xiàn)在四個(gè)方面,即輔助研究,改進(jìn)生產(chǎn)流程,優(yōu)化市場(chǎng)營(yíng)銷(xiāo),提高競(jìng)爭(zhēng)優(yōu)勢(shì)。

      (1)輔助研究。數(shù)據(jù)挖掘的輔助研究功能主要表現(xiàn)在醫(yī)藥和生物研究領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以協(xié)助研究人員快速分析巨量的醫(yī)學(xué)數(shù)據(jù)和醫(yī)生診斷經(jīng)驗(yàn),發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后的新的、具有學(xué)術(shù)價(jià)值的醫(yī)學(xué)信息,為新藥的發(fā)現(xiàn)提供一種新的思路和方法,幫助科研人員在大的數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的知識(shí),更好、更快、更有效地決策,加快藥物研發(fā)速度,提高藥物研發(fā)水平。此外,數(shù)據(jù)挖掘理論中的序列模式分析和相似檢索技術(shù)等,已經(jīng)被認(rèn)為是DNA分析的有效工具,研究者們正在研究如何利用該技術(shù)從已經(jīng)測(cè)得的基因數(shù)據(jù)庫(kù)中找出各種疾病特定基因序列模式。數(shù)據(jù)挖掘技術(shù)還可以應(yīng)用到醫(yī)學(xué)圖像分析中,借助于這一技術(shù),圖像特征能夠?qū)崿F(xiàn)自動(dòng)提取和模式識(shí)別。更加令人欣喜的是,數(shù)據(jù)挖掘技術(shù)在醫(yī)療行業(yè)的應(yīng)用,不僅可以協(xié)助醫(yī)生更加準(zhǔn)確地對(duì)病人進(jìn)行診斷,還能預(yù)測(cè)醫(yī)療試驗(yàn)、外科手術(shù)和藥物治療的效果,對(duì)于緩和醫(yī)患關(guān)系,節(jié)省治療成本等都能起到積極作用。

      (2)改進(jìn)生產(chǎn)流程。數(shù)據(jù)挖掘改進(jìn)生產(chǎn)流程的功能主要體現(xiàn)在工業(yè)領(lǐng)域。目前,數(shù)據(jù)挖掘已經(jīng)成功地應(yīng)用于從晶片制造到咖啡烘焙等一般的生產(chǎn)流程,用領(lǐng)域非常廣泛。數(shù)據(jù)挖掘在改進(jìn)生產(chǎn)流程中的應(yīng)用概括地講就是提取出影響生產(chǎn)進(jìn)度的因素,避免生產(chǎn)的非正常中斷,優(yōu)化成產(chǎn),從而節(jié)約成本。首先是提取數(shù)據(jù),這些數(shù)據(jù)既包括能產(chǎn)生正面結(jié)果的數(shù)據(jù),也包括產(chǎn)生負(fù)面結(jié)果的數(shù)據(jù)。其次是選擇決策樹(shù)算法依據(jù)數(shù)據(jù)判斷出最重要的變量,再經(jīng)過(guò)審定保留那些具有預(yù)測(cè)能力的變量。最后是進(jìn)行建模與評(píng)估,形成生產(chǎn)規(guī)則。需要注意的是,由于不同工廠間的具體情況不同,這些規(guī)則并不能從一家工廠直接復(fù)制到另外一家工廠,因此數(shù)據(jù)挖掘工作不是一勞永逸的,應(yīng)在成功的基礎(chǔ)上不斷進(jìn)行研究。

      (3)優(yōu)化市場(chǎng)營(yíng)銷(xiāo)。由于信息的爆炸式增長(zhǎng),商業(yè)領(lǐng)域累積的數(shù)據(jù)庫(kù)越來(lái)越大,不僅占用空間,且無(wú)法直接增加價(jià)值,由此人們認(rèn)識(shí)到大量數(shù)據(jù)并非就是大量的信息,數(shù)據(jù)分析與萃取勢(shì)在必行。因此,數(shù)據(jù)挖掘技術(shù)從一開(kāi)始就是為應(yīng)用而產(chǎn)生的,且迅速應(yīng)用到了市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域。世界上許多具有創(chuàng)新性的公司都采用數(shù)據(jù)挖掘的方式改進(jìn)產(chǎn)品的推廣模式,改善營(yíng)銷(xiāo)、銷(xiāo)售、顧客服務(wù)營(yíng)運(yùn)上的不足,尋找最有價(jià)值的客戶,以最小的成本獲取最大的利益。例如銀行可以通過(guò)分析客戶的銀行賬戶余額、客戶已擁有的銀行產(chǎn)品以及所處地點(diǎn)和信貸風(fēng)險(xiǎn)等標(biāo)準(zhǔn)來(lái)評(píng)價(jià)記錄檔案,這些評(píng)價(jià)可用于確定客戶購(gòu)買(mǎi)某一具體產(chǎn)品的可能性,使得管理人員不必一一分析基礎(chǔ)數(shù)據(jù),大大提高了工作效率。對(duì)于零售商而言,可以利用數(shù)據(jù)挖掘技術(shù)收集并分析上百萬(wàn)個(gè)交易數(shù)據(jù),為各分店進(jìn)行每周和每日的銷(xiāo)售預(yù)測(cè),還可協(xié)助制訂季度銷(xiāo)售預(yù)測(cè)、用人計(jì)劃、存貨管理、年度預(yù)算等,甚至還能幫助為新的分店選址。以美國(guó)擁有1100多家分店、年銷(xiāo)售額近110億美元的Staples連鎖零售商店為例,它就是運(yùn)用數(shù)據(jù)挖掘方法成功對(duì)各家分店進(jìn)行管理,它采用的數(shù)據(jù)包括歷史銷(xiāo)售數(shù)據(jù)、客戶(包括商戶和家庭)的統(tǒng)計(jì)數(shù)據(jù)、分店所處的地段特征及該地段的競(jìng)爭(zhēng)水平等一系列海量數(shù)據(jù)??ǚ蚴称饭疽彩峭ㄟ^(guò)對(duì)擁有3000萬(wàn)客戶資料的數(shù)據(jù)庫(kù)進(jìn)行深入挖掘,得以了解特定客戶的興趣和口味,并以此為基礎(chǔ)向他們發(fā)送特定產(chǎn)品的優(yōu)惠券,并為他們推薦符合客戶口味和健康狀況的卡夫產(chǎn)品食譜。

      數(shù)據(jù)挖掘在市場(chǎng)營(yíng)銷(xiāo)中的應(yīng)用是基于“消費(fèi)者過(guò)去的行為是今后消費(fèi)傾向的最好說(shuō)明”這一基本假定,通過(guò)搜集和分析消費(fèi)者消費(fèi)行為的大量信息,以確定消費(fèi)群體和個(gè)體的消費(fèi)習(xí)慣、消費(fèi)熱點(diǎn)、消費(fèi)層次和潛在的消費(fèi)需求等,以此為基礎(chǔ),有針對(duì)性地進(jìn)行特定內(nèi)容的定向營(yíng)銷(xiāo),不僅節(jié)約了營(yíng)銷(xiāo)成本,還大大提高了營(yíng)銷(xiāo)效果,為企業(yè)帶來(lái)更多利潤(rùn)。

      (4)提升競(jìng)爭(zhēng)優(yōu)勢(shì)。在市場(chǎng)經(jīng)濟(jì)比較發(fā)達(dá)的國(guó)家和地區(qū),許多公司都開(kāi)始在原有信息系統(tǒng)的基礎(chǔ)上通過(guò)數(shù)據(jù)挖掘?qū)I(yè)務(wù)信息進(jìn)行深加工,以構(gòu)筑自己的競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)挖掘在提升企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)上主要包括兩個(gè)方面,一是提升企業(yè)自身實(shí)力,二是規(guī)避外部風(fēng)險(xiǎn),具體來(lái)說(shuō)主要包括分析企業(yè)內(nèi)部經(jīng)營(yíng)信息,搜集外部環(huán)境信息,創(chuàng)新優(yōu)質(zhì)產(chǎn)品和服務(wù),改善和維護(hù)客戶關(guān)系,進(jìn)行企業(yè)供應(yīng)鏈管理,識(shí)別風(fēng)險(xiǎn)和欺詐,控制和化解危機(jī)等。

      5 數(shù)據(jù)挖掘需要注意的問(wèn)題

      (1)對(duì)數(shù)據(jù)的要求。由于大多數(shù)運(yùn)營(yíng)商面臨的數(shù)據(jù)在質(zhì)量、完整性和一致性方面存在很多問(wèn)題,因此在利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,必須先對(duì)其進(jìn)行抽取、凈化和處理。

      (2)對(duì)人員素質(zhì)的要求。統(tǒng)計(jì)數(shù)據(jù)挖掘分析系統(tǒng)必須與實(shí)際緊密相聯(lián),在數(shù)據(jù)挖掘的多個(gè)環(huán)節(jié)中,都要求使用和分析人員不僅僅具備數(shù)據(jù)挖掘的相關(guān)知識(shí),還必須有對(duì)企業(yè)經(jīng)營(yíng)管理流程和行業(yè)背景的深刻理解。

      (3)數(shù)據(jù)挖掘的有效性。數(shù)據(jù)挖掘存在較長(zhǎng)的應(yīng)用周期,數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí)和規(guī)則必須讓決策者理解并采納,才能將知識(shí)轉(zhuǎn)化為生產(chǎn)力,并通過(guò)實(shí)踐不斷檢驗(yàn)和完善數(shù)據(jù)挖掘所產(chǎn)生的模型和規(guī)則,以使模型更具實(shí)用價(jià)值。

      (4)數(shù)據(jù)庫(kù)類(lèi)型的多樣性。一些數(shù)據(jù)庫(kù)可能包含復(fù)雜的數(shù)據(jù)對(duì)象、超文本和多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)間數(shù)據(jù)或事務(wù)數(shù)據(jù)。由于數(shù)據(jù)類(lèi)型的多樣性和數(shù)據(jù)挖掘的目標(biāo)不同,指望一個(gè)系統(tǒng)挖掘所有類(lèi)型的數(shù)據(jù)是不現(xiàn)實(shí)的。為挖掘特定類(lèi)型的數(shù)據(jù),應(yīng)當(dāng)構(gòu)造特定的數(shù)據(jù)挖掘系統(tǒng)。同樣,對(duì)于不同類(lèi)型的數(shù)據(jù),應(yīng)當(dāng)有不同的數(shù)據(jù)挖掘系統(tǒng)。

      (5)數(shù)據(jù)挖掘的局限性。雖然數(shù)據(jù)挖掘工具使用戶不必再掌握高深的統(tǒng)計(jì)分析技術(shù),但用戶仍然需要知道所選用的數(shù)據(jù)挖掘工具是如何工作的,它所采用的算法的原理是什么。選用的技術(shù)和優(yōu)化方法會(huì)對(duì)模型的準(zhǔn)確度和生成速度產(chǎn)生很大影響。數(shù)據(jù)挖掘永遠(yuǎn)不會(huì)替代有經(jīng)驗(yàn)的商業(yè)分析師或者管理人員所起的作用,它只是提供一個(gè)強(qiáng)大的工具。每個(gè)成熟的、了解市場(chǎng)的公司都已經(jīng)具有一些重要的、能產(chǎn)生高回報(bào)的模型,這些模型可能是管理人員花了很長(zhǎng)時(shí)間,作了很多調(diào)查,甚至是經(jīng)過(guò)很多失誤之后得來(lái)的。數(shù)據(jù)挖掘工具要做的就是使這些模型得到的更容易,更方便,而且有根據(jù)。

      6 結(jié)語(yǔ)

      總之,數(shù)據(jù)挖掘作為一個(gè)新興的多學(xué)科交叉應(yīng)用領(lǐng)域,正在各行各業(yè)的決策支持活動(dòng)扮演著越來(lái)越重要的角色。只有從數(shù)據(jù)中有效地提取信息,從信息中及時(shí)地發(fā)現(xiàn)知識(shí),才能為人類(lèi)的思維決策和戰(zhàn)略發(fā)展服務(wù)。

      參考文獻(xiàn)

      [1]陳文偉,等.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002.

      [2]朱明,數(shù)據(jù)挖掘.合肥:中國(guó)科技大學(xué)出版社2002.

      數(shù)據(jù)挖掘范文第3篇

      數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫(kù)和人工智能領(lǐng)域研究的熱點(diǎn)課題, 本文首先對(duì)數(shù)據(jù)挖掘技術(shù)的國(guó)內(nèi)外總體研究情況進(jìn)行概略介紹,包括數(shù)據(jù)挖掘技術(shù)產(chǎn)生背景、應(yīng)用領(lǐng)域、分類(lèi);然后詳細(xì)闡述了數(shù)據(jù)挖掘的各種技術(shù)方法,并對(duì)數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域做了相關(guān)介紹。

      【關(guān)鍵詞】數(shù)據(jù)挖掘 決策支持 關(guān)聯(lián)規(guī)則 模式

      1 前言

      數(shù)據(jù)挖掘含義是指從大量、模糊、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱藏在其內(nèi)部中、人

      們?cè)炔恢獣缘?、卻潛在有用的信息和知識(shí)的過(guò)程。我們把提取出的信息和知識(shí)表示為規(guī)律、概念、模式、規(guī)則等形式。數(shù)據(jù)挖掘被認(rèn)為是一門(mén)跨多知識(shí)領(lǐng)域和學(xué)科的新興課題,它為我們使用數(shù)據(jù)從簡(jiǎn)單查詢將變?yōu)樵跀?shù)據(jù)里挖掘與發(fā)現(xiàn)知識(shí)從而產(chǎn)生對(duì)決策行為提供支持。為了能夠滿足人們從大量數(shù)據(jù)里發(fā)現(xiàn)知識(shí)的需求,來(lái)自不同領(lǐng)域的專(zhuān)家學(xué)者,都致力于研究這個(gè)熱點(diǎn)課題――數(shù)據(jù)挖掘,不斷研究和產(chǎn)生出新的研究成果。自從加拿大蒙特利爾在1995年召開(kāi)了首屆KDD&Data Mining國(guó)際學(xué)術(shù)會(huì)議,此后每年舉辦一次。通過(guò)數(shù)年努力, 數(shù)據(jù)挖掘技術(shù)研究取得了豐碩的成果,不少數(shù)據(jù)挖掘的軟件產(chǎn)品,已在歐洲、北美等國(guó)家得到廣泛的應(yīng)用。目前,應(yīng)用廣泛的數(shù)據(jù)挖掘系統(tǒng)有:IBM公司的Intelligent Miner、SGI公司的SetMiner、SPSS公司的Clementine、SAS公司的Enterprise Miner、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、還有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。在我國(guó),數(shù)據(jù)挖掘技術(shù)的研究也取得了相當(dāng)客觀的成果。

      2 數(shù)據(jù)挖掘的技術(shù)方法

      通常情況下,我們把數(shù)據(jù)挖掘方法分為兩大方面,一是統(tǒng)計(jì)類(lèi)型,有概率分析、相

      關(guān)性、聚類(lèi)分析和判別分析等常用技術(shù);二是人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)型,通過(guò)訓(xùn)練和學(xué)量的樣品集獲得需要的模式或參數(shù)。

      2.1 遺傳算法

      遺傳算法是基于生物進(jìn)化過(guò)程組合優(yōu)化方法,它是和計(jì)算機(jī)科學(xué)與生物學(xué)結(jié)合的產(chǎn)物,由美國(guó)密西根大學(xué)教授D.J.Holland和他的同事們?cè)?975年首次提出。人們總結(jié)的遺傳算法基本思想分為兩點(diǎn):第一,將物種進(jìn)化理論用于求解問(wèn)題,物種進(jìn)化又分為變異和遺傳兩個(gè)方面;第二,只有最能適應(yīng)環(huán)境的物種才能生存下來(lái),所以需要反復(fù)求解后才可以獲得最佳解。遺傳算法按照規(guī)則產(chǎn)生經(jīng)過(guò)基因編碼最初群體,然后從代表問(wèn)題可能潛在答案的初始群體出發(fā),選擇適應(yīng)度強(qiáng)的個(gè)體進(jìn)行交換和變異,目的是發(fā)現(xiàn)適應(yīng)度更佳的個(gè)體,這樣一代代地演化,得到最優(yōu)個(gè)體,解碼,該最佳個(gè)體編碼就是對(duì)應(yīng)的問(wèn)題最佳解或近似最佳解。在遺傳算法的使用上,它的優(yōu)點(diǎn)是對(duì)問(wèn)題要求信息較少,比較高效性和靈活性。在數(shù)據(jù)挖掘中,經(jīng)常用于估測(cè)其它算法的適合度,同時(shí)遺傳算法擅長(zhǎng)于數(shù)據(jù)聚類(lèi),通過(guò)和空間上類(lèi)比和時(shí)間上類(lèi)比,能夠使大量復(fù)雜數(shù)據(jù)系統(tǒng)化、條理化,從而找出他們之間的內(nèi)在聯(lián)系,獲得有用概念和模式。

      2.2 關(guān)聯(lián)分析

      在大型數(shù)據(jù)庫(kù)中,關(guān)聯(lián)規(guī)則挖掘是最常見(jiàn)的數(shù)據(jù)挖掘任務(wù)之一。關(guān)聯(lián)規(guī)則挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間的相關(guān)聯(lián)系。最著名的關(guān)聯(lián)規(guī)則挖掘算法是由Agrawal等于1994年提出的 Apriori算法,其基本思想是:第一找出所有頻繁1-項(xiàng)集集合Ll,使用L1查找頻繁2-項(xiàng)集集合L2,繼而用L2用于L3,反復(fù)迭代,一直到不能找到頻繁k-項(xiàng)集。并利用事先設(shè)定好的最小支持度閾值進(jìn)行篩選,將小于最小支持度的候選項(xiàng)集刪除,再進(jìn)行下一次的合并生成該層的頻繁項(xiàng)集。經(jīng)過(guò)篩選可減少候選項(xiàng)集數(shù),從而加快關(guān)聯(lián)規(guī)則挖掘的速度。

      2.3 決策樹(shù)

      決策樹(shù)算法之所以在數(shù)據(jù)分析挖掘應(yīng)用中如此流行,主要原因在于決策樹(shù)的構(gòu)造不需要任何領(lǐng)域的知識(shí),很適合探索式的知識(shí)發(fā)掘,并且可以處理高維度的數(shù)據(jù)。在眾多的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析算法中,決策樹(shù)最大的優(yōu)點(diǎn)在于它所產(chǎn)生的一系列從樹(shù)根到樹(shù)枝(或樹(shù)葉)的規(guī)則,可以很容易地被分析師和業(yè)務(wù)人員理解,而且這些典型的規(guī)則甚至不用整理(或稍加整理),就是現(xiàn)成的可以應(yīng)用的業(yè)務(wù)優(yōu)化策略和業(yè)務(wù)優(yōu)化路徑。另外,決策樹(shù)技術(shù)對(duì)數(shù)據(jù)的分布甚至缺失非常寬容,不容易受到極值的影響。

      國(guó)際上最有影響的決策樹(shù)方法是由Quinlan 研制的ID3方法。ID3(Iterative Dichotomiser)算法其最大的特點(diǎn)在于自變量的挑選標(biāo)準(zhǔn)是:基于信息增益的度量選擇具有最高信息增益的屬性作為結(jié)點(diǎn)的分裂(分割)屬性,其結(jié)果就是對(duì)分割后的結(jié)點(diǎn)進(jìn)行分類(lèi)所需的信息量最小,這也是一種劃分純度的思想。

      決策樹(shù)技術(shù)在數(shù)據(jù)化運(yùn)營(yíng)中的主要用途體現(xiàn)在:作為分類(lèi)、預(yù)測(cè)問(wèn)題的典型支持技術(shù),它在用戶劃分、行為預(yù)測(cè)、規(guī)則梳理等方面具有廣泛的應(yīng)用前景,決策樹(shù)甚至可以作為其他建模技術(shù)前期進(jìn)行變量篩選的一種方法,即通過(guò)決策樹(shù)的分割來(lái)篩選有效地輸入自變量。

      2.4 粗糙集方法

      粗糙集理論定位為一種刻劃不確定性和不完整性的數(shù)學(xué)工具,可以有效地分析和處理不一致、不精確、不完整等信息,以從中發(fā)現(xiàn)隱藏的不為所知的知識(shí),揭示潛在的規(guī)律。該理論是由波蘭學(xué)者Z.Pawlak教授在1982年提出的,從1992年至今,每年召開(kāi)以RS為主題的國(guó)際會(huì)議,推動(dòng)了RS理論的拓展和應(yīng)用。

      粗糙集是處理模糊數(shù)據(jù)的有力工具,而要達(dá)到這樣的目的需要有兩個(gè)重要的步驟來(lái)進(jìn)行處理―屬性約簡(jiǎn)和值約簡(jiǎn),屬性約簡(jiǎn)是對(duì)粗糙集合(那些不能區(qū)分的集合)進(jìn)行縱向的簡(jiǎn)化,把不必要的屬性去掉,即去掉這些屬性也不會(huì)影響對(duì)象的區(qū)分能力,這樣便于以后進(jìn)一步的簡(jiǎn)約處理

      由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點(diǎn)就是直接對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識(shí)發(fā)現(xiàn)手段,與基于證據(jù)理論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法、基于概率論的數(shù)據(jù)挖掘方法等其他處理不確定性問(wèn)題理論的方法相比較,最顯著的區(qū)別是它不需要提供問(wèn)題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)知識(shí),而且與處理其他不確定性問(wèn)題的理論有很強(qiáng)的互補(bǔ)性。

      2.5 神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是指能夠模仿人腦神經(jīng)元聯(lián)接結(jié)構(gòu)特征并且進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。根據(jù)人腦的神經(jīng)元的原理所產(chǎn)生的人工神經(jīng)網(wǎng)絡(luò)能夠通過(guò)不斷修正其內(nèi)部的節(jié)點(diǎn)間相互連接的關(guān)系達(dá)到處理信息的目的。BP(Back Propagation)網(wǎng)絡(luò),也稱為誤差反向傳播算法,是目前使用較多也比較成熟的神經(jīng)網(wǎng)絡(luò)算法, 1985 年Rumelhart 等人提出,它的實(shí)質(zhì)是通過(guò)誤差反向傳播算法訓(xùn)練數(shù)據(jù)的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型。BP 神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)和存儲(chǔ)大量輸入-輸出模式映射關(guān)系,而且還并不需要預(yù)先揭示表現(xiàn)此種映射關(guān)系數(shù)學(xué)模型。它采用的學(xué)習(xí)規(guī)則是最速下降法,主要利用反向傳播不斷修訂網(wǎng)絡(luò)的權(quán)值和閾值,達(dá)到建立的神經(jīng)網(wǎng)絡(luò)誤差的平方和最小。在數(shù)據(jù)挖掘中,神經(jīng)網(wǎng)絡(luò)主要用于獲取分類(lèi)模式。BP 神經(jīng)網(wǎng)絡(luò)能夠用來(lái)聚類(lèi)、分類(lèi)和預(yù)測(cè)等,通常只需要一定歷史數(shù)據(jù),即把訓(xùn)練樣本作設(shè)為輸入,便能夠?qū)τ?xùn)練樣本訓(xùn)練,通過(guò)學(xué)習(xí)與存儲(chǔ)該數(shù)據(jù)樣本中隱含的知識(shí)信息后,能夠?yàn)楹竺娴臄?shù)據(jù)分析提供必要有用的知識(shí)。但是神經(jīng)網(wǎng)絡(luò)分類(lèi)方法獲得的模式常常隱藏在網(wǎng)絡(luò)結(jié)構(gòu)中,不能夠顯示地表達(dá)成為一定的規(guī)則,所以不容易被人們理解和解釋?zhuān)欢疫€需要多次掃描訓(xùn)練數(shù)據(jù),網(wǎng)絡(luò)需要的訓(xùn)練時(shí)間較長(zhǎng)。所以與其他數(shù)據(jù)挖掘方法相比較,神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘,要解決好兩個(gè)關(guān)鍵點(diǎn):降低不必要的訓(xùn)練時(shí)間,增強(qiáng)挖掘結(jié)果的可理解性。

      2.6 模糊技術(shù)

      模糊數(shù)據(jù)挖掘技術(shù)是通過(guò)利用原有數(shù)據(jù)挖掘技術(shù)同時(shí),與模糊理論相結(jié)合,以期從大量數(shù)據(jù)中發(fā)現(xiàn)更為廣泛的內(nèi)容,其挖掘結(jié)果將會(huì)使用戶更容易理解。由于現(xiàn)實(shí)生活中,數(shù)據(jù)之間的關(guān)系往往表現(xiàn)為模糊性,因此將模糊理論與數(shù)據(jù)挖掘技術(shù)結(jié)合從海量的、不完全的、隨機(jī)的、含噪聲的模糊數(shù)據(jù)中提取潛在的、未知即通過(guò)模糊集合理論對(duì)問(wèn)題模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類(lèi)分析。因?yàn)槟:允强陀^存在,而且系的復(fù)雜性越高,模糊性就越強(qiáng),通常模糊集合理論是用隸屬度來(lái)描述模糊事物,所以它為數(shù)據(jù)挖掘提供了概念和知識(shí)的表達(dá)、定性定量的轉(zhuǎn)換、概念綜合和分解方法。

      2.7 可視化技術(shù)

      可視化技術(shù)是指采用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),把數(shù)據(jù)轉(zhuǎn)換成圖形或圖像并且在屏幕上顯示出來(lái),從而進(jìn)行交互處理技術(shù)。它將信息的模式、數(shù)據(jù)關(guān)聯(lián)和趨勢(shì)展示給決策者,決策者能夠通過(guò)可視化的技術(shù)來(lái)交互分析數(shù)據(jù)之間的關(guān)系。可視化技術(shù)實(shí)現(xiàn)過(guò)程由四個(gè)步驟組成:數(shù)據(jù)預(yù)處理、映射、繪制和顯示。數(shù)據(jù)預(yù)處理階段,針對(duì)各不相同的可視化方法和內(nèi)容,要求對(duì)最初數(shù)據(jù)進(jìn)行變換處理,設(shè)置數(shù)據(jù)格式和標(biāo)準(zhǔn),并且要數(shù)據(jù)壓縮和解壓縮;在映射階段,針對(duì)不同類(lèi)型的應(yīng)用數(shù)據(jù),使用不同的映射技術(shù)把數(shù)值數(shù)據(jù)轉(zhuǎn)換成幾何數(shù)據(jù);在繪制階段將幾何數(shù)據(jù)繪制成目標(biāo)圖像;在顯示階段,將圖像數(shù)據(jù)按用戶要求進(jìn)行輸出。在整個(gè)過(guò)程中,映射功能完成數(shù)據(jù)的建模功能,是核心。模型可視化的具體方法則與數(shù)據(jù)挖掘采用算法相關(guān)聯(lián),如,決策樹(shù)算法用樹(shù)形表示;過(guò)程可視化可以用數(shù)據(jù)流圖來(lái)描述知識(shí)發(fā)現(xiàn)過(guò)程。

      3 數(shù)據(jù)挖掘應(yīng)用

      數(shù)據(jù)挖掘技術(shù)是面向應(yīng)用的。數(shù)據(jù)挖掘的研究有利地促進(jìn)了數(shù)據(jù)挖掘技術(shù)應(yīng)用的發(fā)展與推廣。隨著研究的深入,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來(lái)越廣泛。主要集中在以下幾方面:

      3.1 金融業(yè)

      數(shù)據(jù)挖掘技術(shù)用于銀行行業(yè)的存/貸款趨勢(shì)預(yù)測(cè),優(yōu)化存/貸款策略和投資組合。

      3.2 生物信息

      在基因工程中的染色體、基因序列的識(shí)別分析、基因表達(dá)路徑分析、基因表達(dá)相似性分析、以及制藥、生物信息和科學(xué)研究等。

      3.3 零售業(yè)

      數(shù)據(jù)挖掘技術(shù)被用來(lái)進(jìn)行分析購(gòu)物籃來(lái)協(xié)助貨架設(shè)置,安排促銷(xiāo)商品組合和促銷(xiāo)時(shí)間商業(yè)活動(dòng)。

      3.4 客戶關(guān)系管理

      數(shù)據(jù)挖掘技術(shù)被用于分析客戶的行為,分類(lèi)客戶,以此進(jìn)一步針對(duì)客戶流失、客戶利潤(rùn)、客戶響應(yīng)等方面進(jìn)行分析,最終改善客戶關(guān)系管理。

      3.5 電子商務(wù)

      數(shù)據(jù)挖掘技術(shù)被用于在線交互式營(yíng)銷(xiāo)系統(tǒng)的經(jīng)營(yíng)模式、市場(chǎng)策略、Web廣告效果分析以及在線購(gòu)物的消費(fèi)者行為分析,從而優(yōu)化網(wǎng)站結(jié)構(gòu),改善網(wǎng)頁(yè)推薦和商品推薦內(nèi)容等。

      4 結(jié)語(yǔ)

      綜上, 數(shù)據(jù)挖掘涵蓋多種理論和技術(shù),有著廣泛應(yīng)用前景。深入分析研究數(shù)據(jù)挖掘,應(yīng)用數(shù)據(jù)挖掘技術(shù)將是我們未來(lái)努力的方向。

      參考文獻(xiàn)

      [1]Fayyad U M,Piatet sky- shapiro G,Smyth P.Advances in knowledge discovery and data mining.California:AAAI/ MITPress, 1996.

      [2]Chen Lei-da et al.Date mining methods,applications,tools[J].Information Systems Management, 2000;17(1):65-70.

      [3]H Mannila,H Toivonen et al.Efficient algorithms for discovering as sociation rules[C].In :Knowledge Discovery in Databases(KDD’94),AAAI Press,1994:181-192.

      [4]陸汝鈐.人工智能.北京:科學(xué)出版社, 1996:823-844.

      [5]曾黃麟.粗集理論及其應(yīng)用[M].重慶:重慶大學(xué)出版社,1996.

      [6]Michie D,Spiegelhalter D J.Machine Learning,Neural an Stastical Classification.London:Ellis Horwood Press,1994.

      [7]何新貴.數(shù)據(jù)采掘中的模糊技術(shù)[J].計(jì)算機(jī)科學(xué),1998,25(專(zhuān)刊):129-131.

      [8]萬(wàn)家華,劉冰,江早.知識(shí)發(fā)現(xiàn)中的可視化技術(shù)[J].計(jì)算機(jī)科學(xué),2000,27(增刊):131-134.

      作者簡(jiǎn)介

      王雅軒(1969-),女,研究生學(xué)歷。現(xiàn)為大連外國(guó)語(yǔ)大學(xué)教授。主要研究方向?yàn)檐浖碚撆c應(yīng)用。

      頊聰(1977-)男,研究生學(xué)歷?,F(xiàn)為大連外國(guó)語(yǔ)大學(xué)講師。主要研究方向?yàn)橹悄苘浖?/p>

      數(shù)據(jù)挖掘范文第4篇

      關(guān)鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測(cè)

      中圖法分類(lèi)號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)22-6231-02

      Survey on Data Mining Technology

      WANG Wen

      (School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)

      Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.

      Key words: data mining; user preference; examination system; intrusion detection system

      隨著時(shí)代的發(fā)展,計(jì)算機(jī)科學(xué)在以飛快的速度前進(jìn)著。在計(jì)算機(jī)科學(xué)的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個(gè)領(lǐng)域。近幾十年來(lái),隨著人工智能技術(shù)的日漸成熟,人們對(duì)人工智能的研究更加深入,對(duì)人工智能更加重視。科學(xué)界對(duì)于人工智能的重要性也已形成共識(shí)。

      自進(jìn)入21世紀(jì)以來(lái),電子數(shù)據(jù)獲取與計(jì)算機(jī)技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應(yīng)用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨(dú)特的知識(shí)爆炸時(shí)代。就在最近幾十年很多超大型數(shù)據(jù)庫(kù)的產(chǎn)生使得整個(gè)社會(huì)發(fā)生著天翻地覆的變化,遍及銀行存款、超級(jí)市場(chǎng)銷(xiāo)售、粒子物理、天文學(xué)、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計(jì)等領(lǐng)域。在這個(gè)數(shù)字化、信息化時(shí)代,這么大規(guī)模的數(shù)據(jù)庫(kù)以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫(kù)的數(shù)據(jù)管理問(wèn)題將會(huì)是以后對(duì)數(shù)據(jù)處理的一個(gè)重要關(guān)注點(diǎn)。眾多科技工作者共同關(guān)注的焦點(diǎn)集中在了如何從這些大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的、信息、模式以及如何實(shí)現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進(jìn)了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個(gè)與統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)以及高性能并行計(jì)算等領(lǐng)域都有很大相關(guān)的新學(xué)科,正是計(jì)算機(jī)學(xué)科的一個(gè)研究重點(diǎn)。

      1 數(shù)據(jù)挖掘的一般過(guò)程

      數(shù)據(jù)挖掘一般分為如下四個(gè)步驟(圖1)。

      1.1 數(shù)據(jù)預(yù)處理

      收集和凈化來(lái)自各種數(shù)據(jù)源或數(shù)據(jù)倉(cāng)庫(kù)的信息,并加以存儲(chǔ), 一般存于數(shù)據(jù)倉(cāng)庫(kù)中。

      1.2 模型搜索

      利用數(shù)據(jù)挖掘在數(shù)據(jù)庫(kù)中匹配模型,這個(gè)搜索過(guò)程可以由系統(tǒng)自動(dòng)執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進(jìn)行用戶交互,由分析人員發(fā)問(wèn),自頂向下尋找以驗(yàn)證假設(shè)的正確性。一個(gè)問(wèn)題的搜索過(guò)程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹(shù))、機(jī)器學(xué)習(xí)、基于實(shí)例的推理等。

      1.3 評(píng)價(jià)輸出結(jié)果

      一般來(lái)說(shuō),數(shù)據(jù)挖掘的搜索過(guò)程需要反復(fù)多次,當(dāng)分析人員評(píng)價(jià)輸出結(jié)果后,它們可能會(huì)形成一些新的問(wèn)題,或者要求對(duì)某一方面作更精細(xì)的查詢,通過(guò)反復(fù)的搜索過(guò)程即可滿足分析人員的這種需求。

      1.4 生成報(bào)告

      知識(shí)的發(fā)現(xiàn)過(guò)程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示等幾個(gè)步驟組成。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識(shí)存放在知識(shí)庫(kù)中。

      2 數(shù)據(jù)挖掘應(yīng)用

      2.1 數(shù)據(jù)挖掘在實(shí)現(xiàn)網(wǎng)站用戶偏好度的應(yīng)用

      數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問(wèn)題。使數(shù)據(jù)能夠被更加高效的利用,對(duì)無(wú)用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實(shí)現(xiàn)形式,也是其最重要的應(yīng)用方式。傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)相對(duì)于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強(qiáng),是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點(diǎn)。因而,面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡(jiǎn)單許多。據(jù)統(tǒng)計(jì),網(wǎng)站上的絕大部分內(nèi)容對(duì)絕大部分用戶來(lái)說(shuō)是無(wú)用的信息。事實(shí)是對(duì)于某個(gè)特定用戶來(lái)說(shuō),其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對(duì)于這個(gè)用戶來(lái)說(shuō)是其不感興趣的,并且過(guò)多的信息往往會(huì)掩蓋有用的信息,使得用戶的查詢效率降低,并且對(duì)于網(wǎng)站也不是一件利事。

      對(duì)于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問(wèn)題是應(yīng)當(dāng)首要解決的問(wèn)題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問(wèn)題,有一個(gè)模型來(lái)清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對(duì)數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應(yīng)當(dāng)提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。

      用戶瀏覽網(wǎng)站上的內(nèi)容時(shí),他會(huì)被很的多因素影響,網(wǎng)頁(yè)的外觀,信息標(biāo)題,網(wǎng)頁(yè)鏈接以及個(gè)人的興趣和習(xí)慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問(wèn)題。

      2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用

      數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應(yīng)用最主要體現(xiàn)在題庫(kù)的構(gòu)建,下面分別介紹題庫(kù)的構(gòu)建中數(shù)據(jù)挖掘的應(yīng)用情況。

      在設(shè)計(jì)數(shù)據(jù)庫(kù)方面,數(shù)據(jù)庫(kù)主要由題庫(kù)、答案庫(kù)和答案關(guān)鍵字庫(kù)構(gòu)成,題型庫(kù)又涵括科目、題號(hào)、題型、題目、難度、分值等字段;答案庫(kù)中包含科目、題號(hào)、分值、答案以及在同一題中有不同答案時(shí)應(yīng)提供的不同答案序號(hào)等字段;答案關(guān)鍵字庫(kù)中有題號(hào)、答案序號(hào)、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫(kù)。對(duì)于客觀題而言,僅僅需要錄入唯一的答案;但對(duì)于主觀題而言,則需要盡量給出多個(gè)參考答案并將每個(gè)答案的關(guān)鍵字及其所對(duì)應(yīng)的權(quán)值、答案序號(hào)輸入答案關(guān)鍵字庫(kù)。

      通常有兩類(lèi)數(shù)據(jù)挖掘方法:①統(tǒng)計(jì)型,應(yīng)用概率分析、相關(guān)性、聚類(lèi)分析和判別分析等技術(shù)得以實(shí)現(xiàn);②通過(guò)人工智能中的機(jī)器學(xué)習(xí),經(jīng)過(guò)訓(xùn)練以及學(xué)習(xí)輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點(diǎn)都有其優(yōu)勢(shì)以及相應(yīng)的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢(shì)可以達(dá)到互補(bǔ)的要求,從而實(shí)現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①?zèng)Q策樹(shù)算法:為每個(gè)問(wèn)題的答案構(gòu)造一個(gè)二叉樹(shù),每個(gè)分支或者是一個(gè)新的決策點(diǎn),或者是一個(gè)葉子節(jié)點(diǎn)。在沿著決策樹(shù)從上到下的遍歷過(guò)程中,對(duì)每個(gè)問(wèn)題的不同回答導(dǎo)致不同的分支,最后到達(dá)一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)都會(huì)對(duì)應(yīng)確定的權(quán)值,通過(guò)對(duì)權(quán)值的計(jì)算判定得分;②模糊論方法:利用模糊集合理論,對(duì)實(shí)際問(wèn)題進(jìn)行模糊判斷、模糊決策、模糊模式識(shí)別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫(kù)中的答案進(jìn)行對(duì)照,以確定答案的正確度,從而更客觀準(zhǔn)確地評(píng)定主觀題分?jǐn)?shù)。

      2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)方面的應(yīng)用

      入侵檢測(cè)就是通過(guò)運(yùn)用一些分析方法對(duì)從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進(jìn)行分析、提煉,再根據(jù)分析結(jié)果對(duì)這些數(shù)據(jù)進(jìn)行評(píng)價(jià),從而能夠識(shí)別出正常和異常的數(shù)據(jù)或者對(duì)潛在的新型入侵做出預(yù)測(cè),以保證網(wǎng)絡(luò)的安全運(yùn)行。

      基于分布式數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)要對(duì)一個(gè)網(wǎng)段上的信息進(jìn)行全面而細(xì)致的監(jiān)測(cè),同時(shí)在網(wǎng)絡(luò)上多個(gè)點(diǎn)進(jìn)行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護(hù)的服務(wù)器等。整個(gè)系統(tǒng)構(gòu)成分為本地分類(lèi)器、規(guī)則學(xué)習(xí)模塊和集中分類(lèi)器三塊基本構(gòu)件。本地分類(lèi)器負(fù)責(zé)對(duì)從網(wǎng)絡(luò)上各個(gè)點(diǎn)采集到的數(shù)據(jù)通過(guò)預(yù)處理模塊去除掉無(wú)效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進(jìn)行數(shù)據(jù)挖掘算法可識(shí)別的格式,以實(shí)現(xiàn)對(duì)數(shù)據(jù)的初步檢測(cè)和處理。本地分類(lèi)器有2個(gè)輸出:一個(gè)輸出為分類(lèi)數(shù)據(jù),用于提交給規(guī)則學(xué)習(xí)模塊,另外一個(gè)為數(shù)據(jù)摘要,用于提交給集中分類(lèi)器。規(guī)則學(xué)習(xí)模塊負(fù)責(zé)對(duì)標(biāo)記過(guò)的分類(lèi)數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘,從而學(xué)習(xí)到新的知識(shí)。學(xué)習(xí)到的知識(shí)被直接錄入到規(guī)則庫(kù)中,這樣保證了規(guī)則庫(kù)可以根據(jù)網(wǎng)上的變化可以隨時(shí)達(dá)到更新的需求。另外一種方式是通過(guò)規(guī)則學(xué)習(xí)模塊實(shí)現(xiàn)人工訓(xùn)練系統(tǒng),從而實(shí)現(xiàn)升級(jí)規(guī)則庫(kù)的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類(lèi)器,由集中分類(lèi)器對(duì)各點(diǎn)數(shù)據(jù)摘要進(jìn)行匯集,從而做出綜合判斷,達(dá)到有效地檢測(cè)協(xié)同攻擊的效果,最后將檢測(cè)結(jié)果提交給決策模塊。

      3 結(jié)束語(yǔ)

      數(shù)據(jù)挖掘技術(shù)是人工智能學(xué)科的一個(gè)重要分支,也是現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)研究重點(diǎn)。現(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說(shuō)是碩果累累,自從人工智能這個(gè)概念被提出來(lái)之后,其發(fā)展一直是計(jì)算機(jī)學(xué)科的熱門(mén)而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計(jì)算機(jī)研究人員的不斷努力下數(shù)據(jù)挖掘會(huì)在更多的方面服務(wù)人們,并且期待著新的理論的提出。

      參考文獻(xiàn):

      [1] 何克抗.建立題庫(kù)的理論[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,1995.

      [2] 劉波,段麗艷.一個(gè)基于Internet的通用題庫(kù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2000(1):39-44.

      [3] 王實(shí),高文.數(shù)據(jù)挖掘中的聚類(lèi)方法[J].計(jì)算機(jī)科學(xué),2000,27(4):42-45.

      數(shù)據(jù)挖掘范文第5篇

      本課的教學(xué)對(duì)象為七年級(jí)學(xué)生,這個(gè)年齡段的學(xué)生自主和獨(dú)立意識(shí)較強(qiáng),具備一定的信息搜集、處理、表達(dá)能力,喜歡在學(xué)習(xí)的過(guò)程中體驗(yàn)和理解事物,但分析思考問(wèn)題缺乏深度。在日常學(xué)習(xí)、生活中,學(xué)生經(jīng)常要對(duì)數(shù)據(jù)做搜集、整理、運(yùn)算、統(tǒng)計(jì)和分析工作,但他們的認(rèn)知大多只停留在表層,僅學(xué)會(huì)了數(shù)據(jù)加工的一些基本操作,缺乏從數(shù)據(jù)挖掘角度分析數(shù)據(jù)的意識(shí),更不會(huì)運(yùn)用統(tǒng)計(jì)學(xué)方法尋找蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律,借助它解決學(xué)習(xí)和生活中的實(shí)際問(wèn)題。

      學(xué)習(xí)內(nèi)容分析

      本課是蘇科版七年級(jí)初中信息技術(shù)第三章第3節(jié)的內(nèi)容,主要包括“數(shù)據(jù)挖掘的作用”和“數(shù)據(jù)挖掘的過(guò)程”兩個(gè)部分,可深入細(xì)分為“什么是數(shù)據(jù)挖掘”“數(shù)據(jù)準(zhǔn)備”“數(shù)據(jù)挖掘”“規(guī)律表示”四個(gè)內(nèi)容。教學(xué)中,為了讓學(xué)生深刻體會(huì)數(shù)據(jù)挖掘的意義和價(jià)值,教師應(yīng)鼓勵(lì)他們對(duì)數(shù)據(jù)進(jìn)行多角度加工與分析,找到規(guī)律或有用的信息,用恰當(dāng)?shù)姆绞街庇^地表達(dá)出來(lái),學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話,讓數(shù)據(jù)挖掘更好地服務(wù)于生活與學(xué)習(xí)。

      教學(xué)目標(biāo)

      知識(shí)與技能目標(biāo):理解數(shù)據(jù)挖掘的概念,體會(huì)數(shù)據(jù)挖掘的作用。

      過(guò)程與方法目標(biāo):嘗試進(jìn)行數(shù)據(jù)挖掘,經(jīng)歷數(shù)據(jù)挖掘的一般過(guò)程。

      情感態(tài)度與價(jià)值觀目標(biāo):樹(shù)立用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)指導(dǎo)生活的思想意識(shí)。

      教學(xué)重難點(diǎn)

      重點(diǎn):數(shù)據(jù)挖掘的概念及數(shù)據(jù)挖掘的一般過(guò)程。

      難點(diǎn):數(shù)據(jù)準(zhǔn)備及挖掘的過(guò)程。

      教學(xué)策略

      數(shù)據(jù)挖掘是一種強(qiáng)大的分析數(shù)據(jù)的方法,因涉及到專(zhuān)業(yè)軟件和統(tǒng)計(jì)學(xué)術(shù)語(yǔ)、數(shù)學(xué)模型等,會(huì)讓學(xué)生難以理解。而日常使用的WPS表格,作為數(shù)據(jù)挖掘的有效工具,可以讓學(xué)生在分析具體數(shù)據(jù)的過(guò)程中,掌握數(shù)據(jù)挖掘的方法。因此,本節(jié)課教學(xué)應(yīng)讓學(xué)生從已有經(jīng)驗(yàn)出發(fā),運(yùn)用WPS表格中的簡(jiǎn)單工具,學(xué)習(xí)數(shù)據(jù)挖掘的一般方法。

      “數(shù)據(jù)挖掘”對(duì)學(xué)生而言,是一個(gè)全新的概念,概念的建構(gòu)需要一步步地不斷累積,從表層到內(nèi)涵,逐步深化。學(xué)生只有在了解了“數(shù)據(jù)挖掘”的基本含義,并嘗試挖掘的基礎(chǔ)上,才能體會(huì)其作用和意義。所以,筆者設(shè)計(jì)了層層遞進(jìn)的學(xué)習(xí)活動(dòng)(情境再現(xiàn),感受數(shù)據(jù)挖掘―案例研習(xí),認(rèn)識(shí)數(shù)據(jù)挖掘―比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘―同比空氣質(zhì)量,再探數(shù)據(jù)挖掘―暢想未來(lái),展望數(shù)據(jù)挖掘),并且在活動(dòng)中適時(shí)搭建學(xué)習(xí)所需的“支架”,來(lái)幫助學(xué)生完成知識(shí)的建構(gòu)。筆者通過(guò)一系列的活動(dòng),讓學(xué)生在做中學(xué),在學(xué)中思,在思中用,在情境化的技術(shù)活動(dòng)中,歸納出數(shù)據(jù)挖掘的方法,從而樹(shù)立用數(shù)據(jù)說(shuō)話、用數(shù)據(jù)指導(dǎo)生活的思想意識(shí)。

      教學(xué)過(guò)程

      1.情境再現(xiàn),感受數(shù)據(jù)挖掘

      活動(dòng)1:情境再現(xiàn),感受數(shù)據(jù)挖掘。

      ①猜一猜:不同的人群瀏覽同一個(gè)網(wǎng)頁(yè)時(shí),所看到的內(nèi)容是否一致。

      ②觀察鳳凰網(wǎng)的廣告區(qū)域截圖,在組內(nèi)交流(如下頁(yè)圖1,不同人群瀏覽的同一網(wǎng)頁(yè),推送的廣告不同)。

      ③京東為什么能夠根據(jù)個(gè)人喜好推送商品?

      小結(jié):京東在挖掘和分析用戶瀏覽行為的基礎(chǔ)上,進(jìn)行定向產(chǎn)品推廣。

      設(shè)計(jì)意圖:思維總是由問(wèn)題開(kāi)始的,激發(fā)問(wèn)題,能讓學(xué)生積極主動(dòng)地參與到學(xué)習(xí)活動(dòng)中。以京東廣告推送功能來(lái)設(shè)置情境,把兩種不同的瀏覽行為對(duì)照比較,設(shè)置懸念,第一時(shí)間抓住學(xué)生,激發(fā)學(xué)生學(xué)習(xí)新知識(shí)、新技術(shù)的渴望。

      2.案例研習(xí),認(rèn)識(shí)數(shù)據(jù)挖掘

      活動(dòng)2:學(xué)生觀看視頻,并思考、總結(jié)。

      ①安保為什么使用熱力圖(如圖2)?(對(duì)百度的定位數(shù)據(jù)、搜索數(shù)據(jù)進(jìn)行挖掘,把握人群密集點(diǎn)動(dòng)態(tài)趨勢(shì),幫助警方提前疏導(dǎo)、化解安全風(fēng)險(xiǎn))

      ②百度大數(shù)據(jù)對(duì)旅游有什么作用(如圖3)?(對(duì)用戶搜索數(shù)據(jù)深入挖掘,預(yù)測(cè)熱門(mén)旅游景點(diǎn))

      ③導(dǎo)航是如何規(guī)劃路徑的(如圖4)?(對(duì)道路環(huán)境、天氣情況、特征日等數(shù)據(jù)進(jìn)行挖掘和分析,得出每條道路在不同環(huán)境或不同時(shí)間的路況規(guī)律,確定最優(yōu)的交通路線)

      師生對(duì)數(shù)據(jù)進(jìn)行分析、總結(jié)(如表1)。

      小結(jié):數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。數(shù)據(jù)挖掘的目的主要有三個(gè):把握趨勢(shì)、預(yù)測(cè)和求最優(yōu)解。

      設(shè)計(jì)意圖:選取日常生活中運(yùn)用數(shù)據(jù)挖掘的三個(gè)典型事例視頻――熱力圖、旅游預(yù)測(cè)、導(dǎo)航,借助半成品表格作為輸出支架,歸納出數(shù)據(jù)挖掘的概念和數(shù)據(jù)挖掘的三個(gè)目的。體會(huì)挖掘數(shù)據(jù)價(jià)值性的同時(shí),認(rèn)識(shí)數(shù)據(jù)加工的重要性,為數(shù)據(jù)挖掘的學(xué)習(xí)做好鋪墊。

      3.比較空氣質(zhì)量,嘗試數(shù)據(jù)挖掘

      師:圖5中空氣質(zhì)量預(yù)報(bào)實(shí)現(xiàn)了數(shù)據(jù)挖掘的哪一種目標(biāo)?(把握趨勢(shì))鹽城市空氣質(zhì)量如何?借助熟悉的WPS表格工具,嘗試挖掘空氣質(zhì)量狀況。

      活動(dòng)3:比較鹽城、秦州、淮安等周邊城市空氣質(zhì)量狀況。

      ①登錄中國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)(http:///historydata/),建立鹽城周邊三市空氣質(zhì)量狀況工作表(如圖6)。

      影響空氣質(zhì)量的因素很多,AQI指數(shù)是衡量空氣質(zhì)量的重要指標(biāo)。

      教師演示:瀏覽數(shù)據(jù),提取數(shù)據(jù),組成工作表(如圖7)。

      ②計(jì)算各市4月份空氣質(zhì)量指數(shù)AQI的平均數(shù)。(提示:AVERAGE公式使用方法以及自動(dòng)填充柄的使用)

      ③比較4月份空氣質(zhì)量狀況。(結(jié)論:質(zhì)量指數(shù)平均值大小依次是鹽城、秦州、淮安)

      師:根據(jù)質(zhì)量指數(shù),利用函數(shù)工具計(jì)算平均數(shù),得出空氣質(zhì)量狀況,其實(shí)就是數(shù)據(jù)的挖掘。數(shù)據(jù)挖掘的一般過(guò)程如圖8所示。

      設(shè)計(jì)意圖:從全國(guó)空氣質(zhì)量在線監(jiān)測(cè)分析平臺(tái)搜集數(shù)據(jù),選擇WPS函數(shù)工具挖掘數(shù)據(jù),并對(duì)挖掘結(jié)果加以解釋?zhuān)瑏?lái)建構(gòu)數(shù)據(jù)挖掘的一般過(guò)程。在嘗試數(shù)據(jù)挖掘的過(guò)程中,學(xué)會(huì)運(yùn)用計(jì)算思維解決問(wèn)題,借助流程圖總結(jié)挖掘過(guò)程,有助于學(xué)生從整體上把握知識(shí),進(jìn)一步促進(jìn)認(rèn)知體系的構(gòu)建。

      4.同比空氣質(zhì)量,再探數(shù)據(jù)挖掘

      師:通過(guò)挖掘比較,我們得出鹽城市4月份空氣質(zhì)量在周邊城市當(dāng)中最好,各市以前的空氣質(zhì)量狀況如何?

      活動(dòng)4:比較各市2014年、2015年空氣質(zhì)量數(shù)據(jù),說(shuō)明哪一年空氣質(zhì)量更好(如圖9)。

      ①在選定城市后,思考如何同比質(zhì)量。

      ②選取函數(shù)或圖表工具,完成挖掘。

      ③規(guī)律表示。

      ④從“我的數(shù)據(jù)分析報(bào)告”中的各組中任選城市,從“2014年數(shù)據(jù)、2015年數(shù)據(jù)”工作表中,選取數(shù)據(jù)到“同比空氣質(zhì)量”進(jìn)行分析(如下頁(yè)表2)。

      小組匯報(bào)挖掘過(guò)程和得出的結(jié)論,形成對(duì)數(shù)據(jù)挖掘的新認(rèn)識(shí)。

      小結(jié):用平均數(shù)比較,各市兩年的數(shù)據(jù)基本相同,但是合格月份數(shù)不一定相同,同比AQI低的月份數(shù)也不相同。學(xué)生同比之后發(fā)現(xiàn),2015年空氣質(zhì)量好于2014年。

      設(shè)計(jì)意圖:學(xué)生借助分析報(bào)告,以分組合作的形式,再次經(jīng)歷挖掘數(shù)據(jù)的過(guò)程,找到規(guī)律或有用的信息,加深對(duì)挖掘過(guò)程的理解。鼓勵(lì)學(xué)生對(duì)數(shù)據(jù)進(jìn)行多角度的加工與分析,選擇合適的工具進(jìn)行挖掘,體現(xiàn)了多元化的思想。

      5.暢想未來(lái),展望數(shù)據(jù)挖掘

      觀看視頻(如上頁(yè)圖10,圖10中左圖為京東慧眼的視頻截圖,右圖為基因測(cè)序的視頻截圖),想象:數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,對(duì)生活會(huì)產(chǎn)生怎樣的影響?

      如今,數(shù)據(jù)挖掘改變了傳統(tǒng)的生活模式,未來(lái)將會(huì)產(chǎn)生更加深遠(yuǎn)的影響。因此,我們應(yīng)學(xué)會(huì)搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話,挖掘數(shù)據(jù)創(chuàng)造出更智慧的生活方式。

      設(shè)計(jì)意圖:通過(guò)視頻播放,讓學(xué)生深度感受“數(shù)據(jù)挖掘”與生活息息相關(guān),挖掘數(shù)據(jù)將給人們生活帶來(lái)的改變,培養(yǎng)學(xué)生搜集、分析身邊的數(shù)據(jù),用數(shù)據(jù)說(shuō)話的意識(shí)。

      點(diǎn) 評(píng)

      如今,數(shù)據(jù)挖掘已被廣泛應(yīng)用在各個(gè)領(lǐng)域。什么是數(shù)據(jù)挖掘?顧名思義就是從龐大的數(shù)據(jù)中挖掘?qū)毑兀ㄐ畔ⅰ⒅R(shí)、見(jiàn)解等)的方法和過(guò)程。顯然,對(duì)于初學(xué)者而言,這是一個(gè)全新的概念,僅靠上述說(shuō)明難以理解它的含義。在傳統(tǒng)教學(xué)中,教師往往讓學(xué)生背誦記憶這些內(nèi)容,學(xué)生并沒(méi)有形成概念的深層理解。為此,董老師從理解數(shù)據(jù)挖掘出發(fā),選取數(shù)據(jù)挖掘的三個(gè)典型事例――熱力圖、旅游預(yù)測(cè)、導(dǎo)航,精心組織學(xué)習(xí)活動(dòng),在半成品表格的引導(dǎo)下,歸納出數(shù)據(jù)挖掘的三個(gè)目的――把握趨勢(shì)、預(yù)測(cè)和求最優(yōu)解,體會(huì)挖掘數(shù)據(jù)的價(jià)值,進(jìn)而概括出數(shù)據(jù)挖掘的概念。

      相關(guān)期刊更多

      數(shù)據(jù)

      省級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      北京市統(tǒng)計(jì)局

      大數(shù)據(jù)

      統(tǒng)計(jì)源期刊 審核時(shí)間1個(gè)月內(nèi)

      工業(yè)和信息化部

      數(shù)據(jù)法學(xué)

      部級(jí)期刊 審核時(shí)間1個(gè)月內(nèi)

      中國(guó)人民公安大學(xué)法學(xué)院

      亚洲日韩乱码中文无码蜜桃臀 | www国产亚洲精品久久麻豆| 免费人妻无码不卡中文字幕18禁| 亚洲av无码成人yellow| 91综合久久婷婷久久| 日本亚洲视频免费在线看| 久久99精品久久久久婷婷| 午夜成人无码福利免费视频| 欧美成人精品三级在线观看| 成人激情视频一区二区三区 | 熟女乱乱熟女乱乱亚洲| 亚洲精品粉嫩美女一区| 48沈阳熟女高潮嗷嗷叫| 国产免费一级高清淫日本片| 亚洲国产成人av第一二三区| 蜜桃一区二区在线视频| 中文字幕肉感巨大的乳专区| 国产一区曰韩二区欧美三区| 亚洲老女人区一区二视频 | 久久天堂精品一区专区av| 强d乱码中文字幕熟女免费| 国产女人高潮视频在线观看| 国产短视频精品区第一页| 亚洲国产精品线路久久| 少妇激情av一区二区| AⅤ无码精品视频| 精品一区二区三区免费爱| 久久精品国产亚洲av成人网| 免费a级毛片在线播放| 三级特黄60分钟在线观看| 日韩一区二区不卡av| 国产一区二区资源在线观看| 激情内射人妻1区2区3区| 亚洲粉嫩高潮的18p| 国产盗摄XXXX视频XXXX| 国产精品亚洲一区二区麻豆| а天堂中文在线官网| 国产一级免费黄片无码AV| 少妇太爽高潮在线播放| 亚洲av首页在线| 欧美伊人久久大香线蕉在观 |