99精品久久这里只有精品,三上悠亚免费一区二区在线,91精品福利一区二区,爱a久久片,无国产精品白浆免费视,中文字幕欧美一区,爽妇网国产精品,国产一级做a爱免费观看,午夜一级在线,国产精品偷伦视频免费手机播放

    <del id="eyo20"><dfn id="eyo20"></dfn></del>
  • <small id="eyo20"><abbr id="eyo20"></abbr></small>
      <strike id="eyo20"><samp id="eyo20"></samp></strike>
    • 首頁 > 文章中心 > 正文

      特種醫(yī)學深網(wǎng)信息自動獲取技術(shù)研究

      前言:本站為你精心整理了特種醫(yī)學深網(wǎng)信息自動獲取技術(shù)研究范文,希望能為你的創(chuàng)作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。

      特種醫(yī)學深網(wǎng)信息自動獲取技術(shù)研究

      一面向深網(wǎng)資源的信息抽取與分類技術(shù)研究

      筆者以實現(xiàn)深網(wǎng)信息自動化獲取為研究目標,從面向深網(wǎng)資源的搜索提取方法、面向?qū)嶓w層Web的信息索引和分類技術(shù)、面向用戶的信息檢索平臺建設3個技術(shù)層面展開研究,有計劃地將大量無序的特色網(wǎng)絡資源實現(xiàn)自有化并得以快捷利用。

      1基于半監(jiān)督順序回歸模型的爬蟲算法

      在資源搜索方面,將搜索目標設定為通常無法訂購但軍事特種醫(yī)院特點鮮明的特色資源。通常,這些網(wǎng)絡資源都是以深網(wǎng)的方式存儲,并且無法直接獲取。為此,筆者研究了面向深網(wǎng)的信息提取技術(shù),研究并實現(xiàn)了一種面向軍事特種醫(yī)院資源的基于半監(jiān)督順序回歸模型的快速爬蟲算法。此算法主要包括以下3個步驟:首先,根據(jù)軍事特種醫(yī)院網(wǎng)站資源的特點,利用半監(jiān)督順序回歸的方法構(gòu)造深網(wǎng)頁面分類器,定義所需的主題相關(guān)的網(wǎng)頁分為N個不同的層次。此時層次的數(shù)量級根據(jù)所給定網(wǎng)站資源特點設定。一般情況下,N≤4。其次,構(gòu)造深網(wǎng)鏈接信息抽取器,抽取對應N層次的有效鏈接。在提取這些鏈接信息時,采用多線程的方法完成。最后,把深網(wǎng)頁面分類器的分類作為指導,形成特征庫,利用讓爬蟲自動提取滿足要求的鏈接特征,快速實時地找到各層有效鏈接。對于爬行過程而言,筆者具體采用如下方法:在開始爬行前,把預先定義的符合特種醫(yī)院資源信息的種子放入最低層的鏈接隊列中,鏈接信息提取器從深網(wǎng)頁面中抽取滿足特點規(guī)則的鏈接信息,包括鏈接的網(wǎng)址、頁面標題,鏈接的錨屬性等信息,并同時交付鏈接特征學習器。在鏈接特征學習器中,筆者將采用深度機器學習方法,將這些特征進行歸類、分析。然后,按照上述方法,將所有N層隊列中的鏈接進行爬行。對于同一層次的鏈接,根據(jù)預先定義的規(guī)則讓距離網(wǎng)站主頁近的鏈接先爬行。這樣,既可以爬行到最佳的鏈接,又保證讓所有的鏈接都被爬行到。系統(tǒng)運行結(jié)果表明筆者提出的爬行策略能夠提取深網(wǎng)中有效鏈接的基本特征,并過濾掉無關(guān)鏈接,提高了爬蟲的速度和準確度。

      2面向?qū)嶓w層Web的信息索引技術(shù)

      采用高效的爬蟲技術(shù)從DeepWeb上抽取出的軍事特種醫(yī)院特點鮮明的特色資源之后,將其存儲在本地數(shù)據(jù)庫中。對于索引而言,由于軍事特種醫(yī)院信息的特色,其索引對象可表示為Web實體(WebEntity)。Web實體通常具有各種屬性,并由屬性進行描述。如海軍信息、潛水艇實體,具有長、寬、重量、下水深度等屬性,可以將軍事特種醫(yī)院信息劃歸為多種不同實體。顯然,進行實體搜索,索引的對象為實體而非頁面,其索引域為實體的各個屬性。用戶進行檢索時,搜索器根據(jù)搜索關(guān)鍵字來查詢實體索引域,然后進行綜合排序?;诖耍P者提出了一種基于迭代和組合的信息抽取方法,實現(xiàn)Web實體的信息抽取及其索引建立。整個基于迭代和組合的信息抽取和索引方法實現(xiàn)框架圖。為實現(xiàn)此信息抽取方法,首先生成簡單的頁面索引。頁面層的索引技術(shù),主要采用基于關(guān)鍵字的倒排排序方法,然后再對其按實體關(guān)鍵屬性進行分類。其次,采用學習和深度搜索的方法抽取基本實體屬性信息。在該過程,首先利用基于反饋的條件隨機域模型來抽取實體的屬性信息,之后通過快速排序及其深度搜索方法窮盡搜索包含某些特定實例的所有頁面集。采用基于反饋的條件隨機域模型的基本思想是先從已有的實體集中構(gòu)造訓練數(shù)據(jù)集,采用預先定義的規(guī)則對訓練數(shù)據(jù)集中的頁面進行有條件的標注,然后進行模型訓練。在訓練中,筆者采用基于反饋的方式進行,即通過已有的訓練結(jié)果對訓練模型進行反饋,提高訓練的速度和效率,最終使得抽取精度較高。最后,在迭代抽取和組合集成過程中,采用方法的基本原理是:對所有的待抽取頁面集,進行用戶交互定義的頁面快速分割,將頁面分割成多個不同的部分。然后,根據(jù)實體模型,對于還未抽取的相關(guān)實體屬性,采用上述的抽取方法進行迭代抽取,并將抽取的數(shù)據(jù)結(jié)果集成在一起,最后構(gòu)成一個完整可信的信息實體。

      3面向用戶的分布式信息檢索平臺建設

      在此分布式信息檢索平臺建設中,根據(jù)用戶的需求,采用上述相關(guān)關(guān)鍵技術(shù),設計了一個面向用戶的分布式信息檢索平臺。本平臺的后端服務器采用主從分布式架構(gòu)。本檢索平臺由3個主要部分構(gòu)成,分別為:總體控制服務器、半監(jiān)督順序回歸爬蟲服務器和迭代與組合實體索引檢索服務器。其中,總體控制服務器主要負責整個爬蟲系統(tǒng)的整體控制管理、各個服務器之間消息的發(fā)送、傳遞以及任務的分配等等;半監(jiān)督順序回歸爬蟲服務器主要負責爬行深網(wǎng),下載軍事特種醫(yī)院信息網(wǎng)頁,并抽取網(wǎng)頁中包含的各種實體信息;索引檢索服務器主要負責接收采集到的特種醫(yī)院軍事等實體信息,并以建立索引,為用戶提信息搜索等服務。此外,為了保證系統(tǒng)運行的可靠性,總體控制服務器和迭代與組合實體索引檢索服務器均采用了雙機熱備份的方式,以維護服務器和對應的備用服務器之間數(shù)據(jù)的同步。本系統(tǒng)中的控制服務器是采用按用戶指定的靜態(tài)任務分配模式來進行網(wǎng)頁采集,所以控制服務器和它的備用服務器之間的通信量不會太大,之間的數(shù)據(jù)同步壓力并不大,從而可以解決主從式分布爬蟲系統(tǒng)中控制服務器的效率瓶頸問題。

      二總結(jié)

      綜上所述,采用基于順序回歸模型的爬蟲方法,跟蹤搜集獲取深網(wǎng)中不定期的各類難以獲取的專業(yè)文獻信息,準確度和時效性均高于利用人工進行數(shù)據(jù)篩選的方式;采用基于迭代和組合的信息抽取和索引方法,結(jié)合面向軍事特種醫(yī)學學科的網(wǎng)絡實體信息分類技術(shù),可以實現(xiàn)專業(yè)文獻分類架構(gòu)及其專業(yè)分類簡表的構(gòu)建,獲取數(shù)據(jù)的基本屬性識別率達到85%以上。結(jié)合上述關(guān)鍵技術(shù),可有效提高構(gòu)建基于深網(wǎng)信息的軍事特種醫(yī)學全文數(shù)據(jù)信息檢索平臺的速度。

      作者:楊柳 仇順海 單位:海軍醫(yī)學研究所醫(yī)學科技信息中心

      日韩女同一区二区三区久久| 天天躁狠狠躁狠狠躁夜夜躁| 精品久久久久久国产| 亚洲中文字幕精品久久久久久直播| 韩国黄色三级一区二区| 亚洲av无码乱码国产麻豆| 亚洲精品国偷拍自产在线麻豆| 国产精品23p| 日韩一二三四区免费观看| 亚洲天堂二区三区三州| 97夜夜澡人人双人人人喊| 日韩国产一区| 东京道一本热码加勒比小泽| 国产亚洲精品国产精品| 五月综合激情婷婷六月色窝| 亚洲成人777| 国产一区二区av在线观看| 51国产偷自视频区视频| 军人粗大的内捧猛烈进出视频| 久久综合视频网站| 日本高清不卡二区三区| 免费无码又爽又刺激网站直播| 亚洲欧洲精品成人久久曰影片| 国产人成无码视频在线1000| 国产精品一区二区三区在线观看| 亚洲乱码一区av春药高潮| 亚洲国产精品一区二区久| 国产一区二区三区资源在线观看| 人妻一区二区三区av| 性欧美videofree高清精品| 中文人妻无码一区二区三区信息| 久久久精品人妻一区二区三区免费| 国产三级a三级三级| 成av人片一区二区三区久久| WWW拍拍拍| 精品久久综合日本久久综合网| 人妻熟女一区二区三区app下载| 欧美亚洲午夜| 日韩男女av中文字幕| 国产爆乳无码一区二区麻豆| 丰满爆乳无码一区二区三区|