99精品久久这里只有精品,三上悠亚免费一区二区在线,91精品福利一区二区,爱a久久片,无国产精品白浆免费视,中文字幕欧美一区,爽妇网国产精品,国产一级做a爱免费观看,午夜一级在线,国产精品偷伦视频免费手机播放

    <del id="eyo20"><dfn id="eyo20"></dfn></del>
  • <small id="eyo20"><abbr id="eyo20"></abbr></small>
      <strike id="eyo20"><samp id="eyo20"></samp></strike>
    • 淺談高校網(wǎng)站檢測(cè)系統(tǒng)的設(shè)計(jì)

      前言:本站為你精心整理了淺談高校網(wǎng)站檢測(cè)系統(tǒng)的設(shè)計(jì)范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

      淺談高校網(wǎng)站檢測(cè)系統(tǒng)的設(shè)計(jì)

      1近似鏡像網(wǎng)頁(yè)與檢測(cè)概述

      1.1高校網(wǎng)站群近似鏡像網(wǎng)頁(yè)的分類(lèi)

      (1)在某些相同的時(shí)間點(diǎn),比如五四青年節(jié),容易在眾多的二級(jí)部門(mén)出現(xiàn)很多相似的網(wǎng)頁(yè)信息,比如各部門(mén)一起參加了學(xué)校的五四青年節(jié)晚會(huì),得到的網(wǎng)站新聞信息就會(huì)近似,甚至雷同。

      (2)相同的引用網(wǎng)頁(yè)內(nèi)容。比如財(cái)務(wù)處了新的財(cái)務(wù)管理制度,如果下面二級(jí)部門(mén)做了引用,那么財(cái)務(wù)處的這些管理制度方面的網(wǎng)頁(yè)內(nèi)容就會(huì)造成重復(fù)。

      (3)新舊網(wǎng)站改版或者遷移的時(shí)候,如果老網(wǎng)站沒(méi)有及時(shí)在網(wǎng)絡(luò)上去除,就容易出現(xiàn)重復(fù)的網(wǎng)站和重復(fù)的信息。

      (4)相同內(nèi)容,不同格式的網(wǎng)頁(yè)文件,也會(huì)一定程度上造成近似網(wǎng)頁(yè)的形成。比如一些網(wǎng)頁(yè)是html格式的,另外一些網(wǎng)頁(yè)是jsp格式的,這樣重復(fù)的內(nèi)容,就造成了近似網(wǎng)頁(yè)的增加。

      1.2近似鏡像網(wǎng)頁(yè)的檢測(cè)綜述

      近似網(wǎng)頁(yè)檢測(cè)算法是全文分段簽名的近似鏡像網(wǎng)頁(yè)檢測(cè)算法,通過(guò)檢測(cè)網(wǎng)頁(yè)分段的簽名來(lái)識(shí)別近似網(wǎng)頁(yè)。Google搜索引擎發(fā)現(xiàn),全世界35%的網(wǎng)頁(yè)是近似的。伯德等人提出了網(wǎng)頁(yè)的相似度和包容度等指標(biāo)與定義,通過(guò)計(jì)算不通網(wǎng)頁(yè)之間相似度與包容度來(lái)判別網(wǎng)頁(yè)的重合程度。中國(guó)的天網(wǎng)搜索系統(tǒng),提出了文檔的向量化表示方式,并借此來(lái)對(duì)近似網(wǎng)頁(yè)進(jìn)行區(qū)分,也取得了很好的效果。另外,一種網(wǎng)頁(yè)預(yù)處理的方法,其預(yù)處理包含以下幾個(gè)步驟:網(wǎng)頁(yè)預(yù)凈化,網(wǎng)頁(yè)特征值消重和網(wǎng)頁(yè)最終整合,并最后將所有網(wǎng)頁(yè)都轉(zhuǎn)化為一種通用的文檔格式,這種算法已經(jīng)在天網(wǎng)搜索引擎系統(tǒng)的網(wǎng)頁(yè)消重和網(wǎng)頁(yè)自動(dòng)分類(lèi)系統(tǒng)中得到應(yīng)用,并已經(jīng)逐步得到推廣。

      2高校網(wǎng)站群近似網(wǎng)頁(yè)檢測(cè)系統(tǒng)設(shè)計(jì)

      2.1分析

      高校網(wǎng)站群的推廣已經(jīng)有數(shù)年了,網(wǎng)站群由于其使用方便、便捷,獲得了廣大師生的認(rèn)同,也極大的推動(dòng)了高校信息化的發(fā)展。但從高校網(wǎng)站群建立開(kāi)始,由于歷史數(shù)據(jù)不斷沉積,近似網(wǎng)頁(yè)的數(shù)量也在不斷增加,若是人工去查找、判別,難免費(fèi)時(shí)費(fèi)力,如何能快速檢測(cè)識(shí)別,具有一定的現(xiàn)實(shí)意義。

      2.2近似網(wǎng)頁(yè)檢測(cè)功能模塊設(shè)計(jì)

      (1)近似網(wǎng)頁(yè)標(biāo)準(zhǔn)定義模塊,此模塊負(fù)責(zé)整個(gè)近似網(wǎng)頁(yè)的評(píng)判標(biāo)準(zhǔn)。提供給用戶(hù)一個(gè)清晰明了的輸入界面,頁(yè)面布局具有很好的友好性。用戶(hù)將按照系統(tǒng)提示,去對(duì)需要檢測(cè)主題進(jìn)行一個(gè)嚴(yán)格的定義。比如針對(duì)信息公開(kāi)的內(nèi)容,除了要輸入信息公開(kāi)需要抽取的一些關(guān)鍵字之外,還需要提供網(wǎng)頁(yè)檢測(cè)的條件,比如信息來(lái)源、作者、發(fā)表時(shí)間、發(fā)表部門(mén)、所在網(wǎng)站等,根據(jù)這些條件對(duì)重復(fù)的網(wǎng)頁(yè)進(jìn)行過(guò)濾,最后能得到用戶(hù)所需要的信息。

      (2)近似網(wǎng)頁(yè)檢測(cè)模塊,這個(gè)模塊承擔(dān)著整個(gè)系統(tǒng)的實(shí)際工作,它必須要完成近似網(wǎng)頁(yè)的檢測(cè)與評(píng)判。結(jié)合近似網(wǎng)頁(yè)的研究現(xiàn)狀,本系統(tǒng)采用基于生物特征(比如指紋等)識(shí)別的文檔識(shí)別算法,原理就是將每個(gè)文檔,都計(jì)算出各自的特征值,然后再根據(jù)網(wǎng)頁(yè)的特征值去定義每個(gè)網(wǎng)頁(yè)。如果根據(jù)關(guān)鍵字搜索得到的網(wǎng)頁(yè)有多個(gè),然后就會(huì)用計(jì)算得到的向量去比對(duì),如果各個(gè)網(wǎng)頁(yè)的向量值都比較接近,即可認(rèn)為這兩個(gè)網(wǎng)頁(yè)是近似的,予以排除。在這里我們可以用信息抽取技術(shù)先將網(wǎng)頁(yè)抽取出來(lái),然后再聚類(lèi)分析,再定義每個(gè)組中的網(wǎng)頁(yè)對(duì)比,判別是否為相似網(wǎng)頁(yè)。

      (3)網(wǎng)頁(yè)信息抽取展示模塊,是相似網(wǎng)頁(yè)檢測(cè)系統(tǒng)的最后一個(gè)模塊,也就是將正確,無(wú)重復(fù)的網(wǎng)頁(yè)抽取出來(lái)之后,再在一個(gè)統(tǒng)一的平臺(tái)上。這個(gè)一般通過(guò)和網(wǎng)站群的接口進(jìn)行交互,即網(wǎng)站群給網(wǎng)頁(yè)抽取系統(tǒng)開(kāi)放接口,網(wǎng)頁(yè)信息抽取展示模塊即可將抽取到的網(wǎng)頁(yè)遠(yuǎn)程到網(wǎng)站群的專(zhuān)門(mén)網(wǎng)站上。

      2.3使用效果評(píng)價(jià)

      本文選取了一個(gè)高校網(wǎng)站群系統(tǒng)做為測(cè)試網(wǎng)站,總共搜索到了3400多個(gè)網(wǎng)頁(yè),這么多的網(wǎng)頁(yè)來(lái)源于五十多個(gè)二級(jí)部門(mén)網(wǎng)站及教學(xué)網(wǎng)站。這些網(wǎng)頁(yè)都用計(jì)算機(jī)程序預(yù)先進(jìn)行了處理,并得到了每個(gè)網(wǎng)頁(yè)的特征值。本系統(tǒng)安裝在windows2003的服務(wù)器上,內(nèi)存為4G。在特定的活動(dòng)里面,選定“文明創(chuàng)建”為選取標(biāo)準(zhǔn),最后搜索到了98條與文明創(chuàng)建有關(guān)的,并且無(wú)重復(fù)的網(wǎng)頁(yè),按照的時(shí)間新舊進(jìn)行排序,自動(dòng)生成了學(xué)校文明創(chuàng)建網(wǎng)站新聞條目,省去了大量的人工。

      3結(jié)束語(yǔ)

      本文設(shè)計(jì)了一個(gè)基于高校網(wǎng)站群的近似鏡像網(wǎng)頁(yè)檢測(cè)系統(tǒng),改進(jìn)了以往近似鏡像網(wǎng)頁(yè)鑒別方式,設(shè)計(jì)了基于高校網(wǎng)站群的近似網(wǎng)頁(yè)檢測(cè)系統(tǒng)。系統(tǒng)分三個(gè)主要模塊:近似網(wǎng)頁(yè)標(biāo)準(zhǔn)定義模塊、近似網(wǎng)頁(yè)檢測(cè)模塊和網(wǎng)頁(yè)信息抽取展示模塊。通過(guò)搭建實(shí)驗(yàn)平臺(tái),并經(jīng)過(guò)學(xué)校文明創(chuàng)建活動(dòng)的檢驗(yàn),實(shí)驗(yàn)結(jié)果表明,系統(tǒng)能自動(dòng)檢測(cè)相似網(wǎng)頁(yè),能自動(dòng)展示內(nèi)容,省去了很多的管理工作量。

      作者:樓俊君單位:上海電力學(xué)院

      色yeye免费视频免费看| av无码国产精品色午夜| 国产69精品久久久久久久| 国产精品户露av在线户外直播 | 国产精品一区成人亚洲| 色婷婷久久综合中文蜜桃| 无码国产精品久久一区免费| 国产成人vr精品a视频| 国产一线视频在线观看高清| 国内偷拍精品一区二区| 男人的天堂av网站| 亚洲成a人v欧美综合天堂麻豆| 国产精品久久久久久久y| 日韩在线一区二区三区中文字幕 | 国产av精品一区二区三区不卡 | 免费无码不卡视频在线观看| 国产一区二区三区在线观看免费 | av网站在线观看二区| 国产白浆一区二区三区性色| 免费a级毛片无码a∨男男| 亚洲精品6久久久久中文字幕| 在线观看高清视频一区二区三区| 99久久无色码中文字幕人妻蜜柚| 免费xxx在线观看| 日韩不卡av高清中文字幕 | 日本不卡的一区二区三区中文字幕| 久久精品无码av| 久久er国产精品免费观看8| 亚洲天堂av在线免费看| 狠狠色噜噜狠狠狠8888米奇| 日本精品人妻无码77777| 欧美人与物videos另类| 国产一区二区三区av免费| 特级毛片爽www免费版| 青草网在线观看| 男男做h嗯啊高潮涩涩| 国产福利永久在线视频无毒不卡| 国产精品99久久精品爆乳| 能看的网站中文字幕不卡av| 久久久精品视频网站在线观看| 内射无码专区久久亚洲|