前言:本站為你精心整理了關(guān)聯(lián)出版物數(shù)據(jù)組織框架范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
關(guān)聯(lián)數(shù)據(jù)特性
關(guān)聯(lián)數(shù)據(jù),尤其是關(guān)聯(lián)公開(kāi)數(shù)據(jù)是互聯(lián)網(wǎng)的巨大財(cái)富,為圖書(shū)館從書(shū)目管理向知識(shí)關(guān)聯(lián)的遷移提供了重要的發(fā)展機(jī)會(huì)[3]。相比其他的技術(shù),關(guān)聯(lián)數(shù)據(jù)的門(mén)檻較低,難度較小。關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義網(wǎng)較為成功的應(yīng)用。通過(guò)將現(xiàn)有數(shù)據(jù)以RDF的形式重新并加以關(guān)聯(lián)、共享,將無(wú)結(jié)構(gòu)、半結(jié)構(gòu)的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化表達(dá)。將已有數(shù)據(jù)為關(guān)聯(lián)數(shù)據(jù)需要遵循以下原則。首先,任何實(shí)體必須有唯一的URI[4]。即所有的事物應(yīng)以HTTP形式表達(dá)。例如,關(guān)于圖書(shū)有ISBN、出版商、出版時(shí)間、地點(diǎn)等。關(guān)于某人的數(shù)據(jù)包括出生地、出生年月日、工作地、發(fā)表的論文、科研項(xiàng)目等必須有唯一的URI表示。此方法確保實(shí)體不會(huì)被混淆。這種方法較之圖書(shū)館、情報(bào)服務(wù)界過(guò)去沿用的DOI等方式,更具有機(jī)器可讀性。因此適于應(yīng)用在更廣闊的領(lǐng)域[2]。其次,數(shù)據(jù)需要以RDF三段式表達(dá)。即文件事物、特性、值。例如,“某書(shū)的出版單位是武漢大學(xué)出版社”。其中,“某書(shū)”是主語(yǔ),“出版單位是”為謂語(yǔ),“武漢大學(xué)出版社”是賓語(yǔ)。其中,“武漢大學(xué)出版社”在“所在地”、“主管單位”、“成立時(shí)間”、“重要出版物”、“郵政編碼”、“電話區(qū)號(hào)”、“經(jīng)緯度”等RDF三段式表達(dá)中又可以作為主語(yǔ)。通過(guò)這種形式,所有的關(guān)系都可以關(guān)聯(lián)起來(lái)。其中,特定的“郵政編碼”、“電話區(qū)號(hào)”、“經(jīng)緯度”等一般為常量,不再進(jìn)行新的RDF關(guān)聯(lián)。以RDF三段式表達(dá)的數(shù)據(jù)形式,每一段均可回答特定問(wèn)題。例如,“哪本書(shū)是由武漢大學(xué)出版社出版的?其作者的工作單位、聯(lián)系方式是?”這些問(wèn)題以傳統(tǒng)的數(shù)據(jù)庫(kù)查詢方式即可完成。但類似于“科研項(xiàng)目與武漢大學(xué)無(wú)關(guān)但在武漢大學(xué)出版社出版著作的有多少作者?”等涉及多表聯(lián)查的問(wèn)題是數(shù)據(jù)庫(kù)處理的瓶頸。而這恰恰是關(guān)聯(lián)數(shù)據(jù)的優(yōu)勢(shì)。由于大量RDF數(shù)據(jù)已經(jīng)通過(guò)關(guān)聯(lián)數(shù)據(jù)的形式在語(yǔ)義數(shù)據(jù)云圖中提供共享訪問(wèn),因此,不需要重復(fù)輸入大量數(shù)據(jù)。而是通過(guò)對(duì)關(guān)聯(lián)數(shù)據(jù)集進(jìn)行SPARQL查詢等形式獲取所需關(guān)系。由這些例子可以看到,關(guān)聯(lián)數(shù)據(jù)的三段式形式在問(wèn)答中的重要作用。又如,“某人和武漢大學(xué)圖書(shū)館有何關(guān)系?”,類似的開(kāi)放性問(wèn)題的智能問(wèn)答,需要在RDF中查找所有可能存在的關(guān)系,然后以合理的計(jì)算時(shí)間和空間代價(jià)完成收斂。毫無(wú)疑問(wèn),這些數(shù)據(jù)如果依靠人工提取會(huì)耗費(fèi)大量時(shí)間和人力。如果約定使用標(biāo)準(zhǔn)的謂詞詞匯表,可以用自動(dòng)提取的形式完成此類工作。
在出版物方面的應(yīng)用中,瑞典國(guó)家圖書(shū)館對(duì)聯(lián)合書(shū)目進(jìn)行關(guān)聯(lián)數(shù)據(jù)化處理。美國(guó)國(guó)會(huì)圖書(shū)館、法國(guó)、德國(guó)等國(guó)的國(guó)家圖書(shū)館用標(biāo)題表等形式將書(shū)目等數(shù)據(jù)與語(yǔ)義數(shù)據(jù)云圖進(jìn)行關(guān)聯(lián)。在關(guān)聯(lián)公開(kāi)數(shù)據(jù)集中,數(shù)據(jù)來(lái)自不同專業(yè)機(jī)構(gòu),通過(guò)DataHub(數(shù)據(jù)集成交換)鏈接在一起。CKAN項(xiàng)目對(duì)其中的數(shù)據(jù)進(jìn)行統(tǒng)一評(píng)價(jià)、管理。在目前集成的關(guān)聯(lián)數(shù)據(jù)集中,數(shù)據(jù)質(zhì)量參差不齊。截至2011年質(zhì)量較高的關(guān)聯(lián)數(shù)據(jù)集已有200多個(gè),而這一數(shù)字在未來(lái)1~2年內(nèi)可能會(huì)增長(zhǎng)3倍。其中,統(tǒng)計(jì)數(shù)據(jù)集、詞匯表、藝術(shù)、氣象、圖書(shū)館書(shū)目數(shù)據(jù)關(guān)聯(lián)組提供的數(shù)據(jù)經(jīng)過(guò)測(cè)評(píng)被公認(rèn)為具有較高質(zhì)量。該數(shù)據(jù)集提供的詞表、本體、人名、地名規(guī)范、會(huì)議名稱等對(duì)于本領(lǐng)域及其他領(lǐng)域?qū)W者的研究和具體應(yīng)用作用巨大[3]。在具體的應(yīng)用中,通過(guò)RDF嵌入到HTML中,鏈接到Dbpedia等關(guān)聯(lián)數(shù)據(jù)集。也可以專門(mén)的應(yīng)用程序(Apps)實(shí)現(xiàn)對(duì)關(guān)聯(lián)數(shù)據(jù)的調(diào)用。據(jù)預(yù)測(cè),未來(lái)3年內(nèi),互聯(lián)網(wǎng)上的大部分人物、事件將具有關(guān)聯(lián)數(shù)據(jù)的形式并提供公開(kāi)訪問(wèn)。在LinkedOpenData(關(guān)聯(lián)公開(kāi)數(shù)據(jù))中,最重要的是關(guān)聯(lián)(Linked)。盡管關(guān)聯(lián)程度可能存在差異,不一定是整個(gè)數(shù)據(jù)集完全關(guān)聯(lián),但即使部分?jǐn)?shù)據(jù)實(shí)現(xiàn)了關(guān)聯(lián),也可以先將已有的關(guān)聯(lián)數(shù)據(jù)資源提供共享和訪問(wèn)[4]。公開(kāi)(Open)是LOD(LinkedOpenData)的重要性質(zhì)。關(guān)聯(lián)數(shù)據(jù)的公開(kāi)要求者和使用者署名完整。
未經(jīng)許可,禁止進(jìn)行商業(yè)使用。關(guān)聯(lián)數(shù)據(jù)使用要求以相同形式分享。例如,在某PPT中使用了關(guān)聯(lián)數(shù)據(jù)中的圖表,則需要完整署名、同等分享。這一規(guī)定的作用在于,首先,數(shù)據(jù)提供者可以通過(guò)標(biāo)準(zhǔn)描述語(yǔ)言數(shù)據(jù)。其次,使得圖書(shū)館資源不再囿于原有束縛,面向更為寬廣的應(yīng)用領(lǐng)域。將書(shū)目數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)集鏈接,使得大量信息得到豐富。作者簡(jiǎn)介、書(shū)號(hào)、出版時(shí)間、出版社等大量?jī)?nèi)容可供訪問(wèn)。RDF三段式中的主謂賓的賓語(yǔ)又可變?yōu)橹髡Z(yǔ),在關(guān)聯(lián)數(shù)據(jù)集中不斷擴(kuò)展。從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)打開(kāi),使其變?yōu)榫W(wǎng)絡(luò)數(shù)據(jù)庫(kù)的部分功能[5-6]。例如,通過(guò)關(guān)聯(lián)數(shù)據(jù)查詢胡昌平教授主編的《信息服務(wù)與用戶》出版單位和出版時(shí)間,不僅可以獲得所需要信息,還可以進(jìn)一步擴(kuò)展至作者胡昌平教授的簡(jiǎn)介、研究方向、科研項(xiàng)目、、論文合作者、其他相關(guān)著作及出版物的書(shū)目、體裁、語(yǔ)種。圖書(shū)館通過(guò)將現(xiàn)有數(shù)據(jù)通過(guò)關(guān)聯(lián)數(shù)據(jù)的形式進(jìn)行再利用,充分發(fā)揮已有較大規(guī)模、高質(zhì)量書(shū)目數(shù)據(jù)的優(yōu)勢(shì),將已有數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù)集中的語(yǔ)義資源接軌。例如,上海圖書(shū)館將下屬各分館所在地址、館藏書(shū)目等信息聯(lián)系起來(lái),通過(guò)規(guī)范數(shù)據(jù),圖書(shū)館關(guān)聯(lián)數(shù)據(jù)孵化小組對(duì)于數(shù)據(jù)的獲取、匹配、關(guān)聯(lián)等方法進(jìn)行了一系列研究。過(guò)去圖書(shū)館中的數(shù)據(jù)是知識(shí)獲取的終點(diǎn),而在關(guān)聯(lián)數(shù)據(jù)的支持下會(huì)變?yōu)橹R(shí)獲取的起點(diǎn)。圖書(shū)館不僅提供詳細(xì)、準(zhǔn)確的書(shū)目信息和圖書(shū)資料,還能與外部非圖書(shū)館、非文獻(xiàn)等數(shù)據(jù)進(jìn)行關(guān)聯(lián),從而重新成為知識(shí)殿堂。
本文提出一種基于映射的圖書(shū)館關(guān)聯(lián)出版物數(shù)據(jù)自動(dòng)生成方法。映射的依據(jù)是語(yǔ)義相似度。首先需要明確兩個(gè)概念:語(yǔ)義相關(guān)度和語(yǔ)義距離。語(yǔ)義相關(guān)度表示詞語(yǔ)之間的關(guān)聯(lián)程度,反映的是概念之間的組合特點(diǎn)。例如圖書(shū)與出版社相似度很小,但是相關(guān)度卻非常的大,每個(gè)圖書(shū)都離不開(kāi)出版社。語(yǔ)義距離表示詞語(yǔ)之間在語(yǔ)義樹(shù)上經(jīng)歷的路徑,是衡量?jī)蓚€(gè)詞語(yǔ)之間的語(yǔ)義相似度的一種手段,語(yǔ)義距離越小,語(yǔ)義相似度越大。本文在關(guān)聯(lián)出版物數(shù)據(jù)的組織中,采用語(yǔ)義相似度來(lái)判斷出版物概念間語(yǔ)義關(guān)系。
關(guān)聯(lián)出版物數(shù)據(jù)組織框架
關(guān)聯(lián)出版物數(shù)據(jù)組織模塊關(guān)聯(lián)出版物數(shù)據(jù)組織與語(yǔ)義查詢的總體結(jié)構(gòu)如圖1所示。通過(guò)人工或半自動(dòng)方式建立基本知識(shí)本體;以其中的概念為基礎(chǔ)對(duì)獲取的出版物資源預(yù)處理并將結(jié)果轉(zhuǎn)化為RDF三元組構(gòu)建關(guān)聯(lián)數(shù)據(jù)。用戶通過(guò)服務(wù)接口以自然語(yǔ)言或SPARQL方式查詢,經(jīng)過(guò)語(yǔ)義推理和語(yǔ)義擴(kuò)展對(duì)關(guān)聯(lián)出版物數(shù)據(jù)進(jìn)行語(yǔ)義查詢;擴(kuò)展基本本體構(gòu)建領(lǐng)域知識(shí)本體庫(kù)。出版物網(wǎng)站和圖書(shū)館網(wǎng)站中已經(jīng)積累了大量的文檔資源,基于語(yǔ)義Web和本體技術(shù)將這些異構(gòu)無(wú)序、缺泛關(guān)聯(lián)的文檔轉(zhuǎn)換成具有語(yǔ)義索引結(jié)構(gòu)的關(guān)聯(lián)出版物數(shù)據(jù)。進(jìn)一步擴(kuò)建和集成領(lǐng)域知識(shí)本體,構(gòu)建可管理的知識(shí)體系,為知識(shí)服務(wù)建立數(shù)據(jù)基礎(chǔ)。通過(guò)領(lǐng)域詞典和專家知識(shí)構(gòu)建出版物知識(shí)本體,建立基于學(xué)習(xí)特征的知識(shí)本體元數(shù)據(jù)模型,全面描述出版物知識(shí)基本信息、知識(shí)類型、認(rèn)知結(jié)構(gòu)、知識(shí)之間的語(yǔ)義關(guān)聯(lián)和認(rèn)知順序。建立包含出版物結(jié)構(gòu)中章、節(jié)、知識(shí)點(diǎn)的知識(shí)本體,包括各種粒度知識(shí)的標(biāo)識(shí)、名稱、類型、描述、前導(dǎo)、后繼和關(guān)聯(lián)知識(shí)等。研究知識(shí)本體使用RDF框架描述和用關(guān)系數(shù)據(jù)庫(kù)方式存儲(chǔ)出版物知識(shí)本體庫(kù)?;谥R(shí)本體的語(yǔ)義標(biāo)注組建關(guān)聯(lián)出版物數(shù)據(jù),對(duì)XML元數(shù)據(jù)描述的出版物學(xué)習(xí)對(duì)象及URL定位的學(xué)習(xí)資源,在出版物知識(shí)本體庫(kù)的支持下,以RDF三元組描述和用URI建立它們之間的鏈接,組建關(guān)聯(lián)出版物數(shù)據(jù)[9]。結(jié)合目前的出版物網(wǎng)站資源進(jìn)行關(guān)聯(lián)出版物數(shù)據(jù)集成,并進(jìn)行領(lǐng)域知識(shí)本體擴(kuò)展[6]。通過(guò)基于本體推理和gate的半監(jiān)督機(jī)器學(xué)習(xí)自動(dòng)語(yǔ)義關(guān)系標(biāo)注算法,以gate工具對(duì)出版物資源訓(xùn)練集進(jìn)行實(shí)體識(shí)別,構(gòu)建半監(jiān)督機(jī)器學(xué)習(xí)的樣本集合集訓(xùn)練樣例,完成自動(dòng)語(yǔ)義關(guān)系標(biāo)注[11-12]。通過(guò)基于多出版物網(wǎng)站來(lái)源的多文檔自動(dòng)摘要算法,以已有的出版物網(wǎng)站資源為輔助,通過(guò)復(fù)合多項(xiàng)式算法進(jìn)行文本塊語(yǔ)義聚類,實(shí)現(xiàn)知識(shí)點(diǎn)自動(dòng)摘要[13-15]。在以自然語(yǔ)言處理技術(shù)完成用戶查詢語(yǔ)句語(yǔ)義標(biāo)注的基礎(chǔ)上,應(yīng)用領(lǐng)域本體實(shí)現(xiàn)用戶查詢語(yǔ)義擴(kuò)展,提高對(duì)用戶查詢需求理解的精準(zhǔn)度。應(yīng)用領(lǐng)域本體推理,約簡(jiǎn)用戶查詢的語(yǔ)義表達(dá),提高復(fù)雜語(yǔ)義查詢效率。應(yīng)用語(yǔ)義/語(yǔ)法近似技術(shù),實(shí)現(xiàn)OWL-DL描述的大規(guī)模關(guān)聯(lián)出版物數(shù)據(jù)的推理,在保持OWL-DL近似的語(yǔ)義查詢精準(zhǔn)度的基礎(chǔ)上,提高其語(yǔ)義查詢效率。
關(guān)鍵技術(shù)海量出版物資源的組織與處理是關(guān)于知識(shí)管理和知識(shí)服務(wù)的關(guān)鍵科學(xué)問(wèn)題,解決方案包括:(1)基于語(yǔ)義網(wǎng)層次體系結(jié)構(gòu)描述和組織出版物資源,把異構(gòu)無(wú)序的海量資源組織成符合人認(rèn)知規(guī)律的知識(shí)點(diǎn)關(guān)聯(lián)的領(lǐng)域知識(shí)體系,實(shí)現(xiàn)無(wú)語(yǔ)義結(jié)構(gòu)資源到有序可管理知識(shí)的轉(zhuǎn)變。(2)對(duì)海量學(xué)習(xí)資源隱含的概念、屬性及關(guān)系進(jìn)行自動(dòng)語(yǔ)義數(shù)據(jù)提取和標(biāo)注,建立并擴(kuò)展知識(shí)本體,為知識(shí)服務(wù)提供支持。(3)利用本體推理,實(shí)現(xiàn)針對(duì)大規(guī)模關(guān)聯(lián)出版物數(shù)據(jù)的精準(zhǔn)語(yǔ)義查詢。
實(shí)驗(yàn)系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
本文設(shè)計(jì)基于Protégé的關(guān)聯(lián)出版物數(shù)據(jù)構(gòu)建算法。
系統(tǒng)算法設(shè)計(jì)例如:概念“ELSA總線”繼承了多個(gè)匿名類,分別代表了它的多個(gè)性質(zhì),其中“hasPrevsomeBUS”是它的第一個(gè)性質(zhì),hasPrev是一個(gè)對(duì)象屬性,some關(guān)鍵字就是類表達(dá)能力里面描述的ObjectSomeValues-From存在限制,BUS是一種命名類,此種動(dòng)賓結(jié)構(gòu)式的表達(dá)用于匿名類中,然后讓其他類去繼承,以此來(lái)達(dá)到表現(xiàn)性質(zhì)的效果。此處的匿名類“hasPrevsomeBUS”是內(nèi)部類,也即“某總線”內(nèi)部的父類,該父類無(wú)法被其他類共享或繼承。完成如上步驟后,該類就具有了相應(yīng)的性質(zhì),這種性質(zhì)是具有語(yǔ)義信息的,能夠?yàn)橥评頇C(jī)所識(shí)別、理解、推理。同時(shí)這些性質(zhì)就像對(duì)外的接口,能被其他類識(shí)別,以此作為橋梁和自身產(chǎn)生關(guān)聯(lián),比如推理出存在隱含的父子關(guān)系。關(guān)聯(lián)數(shù)據(jù)構(gòu)建中的算法Input:源于出版物資源的經(jīng)預(yù)處理后文本Step1.提取出一個(gè)類的性質(zhì),將每個(gè)性質(zhì)寫(xiě)成動(dòng)賓結(jié)構(gòu)Step2.對(duì)每個(gè)動(dòng)賓結(jié)構(gòu)提取相應(yīng)的動(dòng)詞Step3.對(duì)應(yīng)對(duì)象屬性,提取相應(yīng)的賓語(yǔ),對(duì)應(yīng)對(duì)象屬性的客體Step4.將每組動(dòng)賓結(jié)構(gòu)寫(xiě)成匿名類的方式,然后作為該類的父類Output:Protégé中的類、屬性表達(dá)本文將采用Bootstrapping方法進(jìn)行未標(biāo)注數(shù)據(jù)的分類(1)從圖書(shū)館館藏的電子出版物資源中下載關(guān)于“微機(jī)原理及接口”出版物的文檔數(shù)據(jù),文檔規(guī)模約為3G;(2)從所下載的電子出版物資源中找出含有實(shí)體對(duì)應(yīng)關(guān)系的句子。從這些句子中抽取特征以形成對(duì)應(yīng)的特征向量。為每個(gè)實(shí)體對(duì)選擇50個(gè)實(shí)例作為待標(biāo)注語(yǔ)料;(3)選取不同的類種子集,訓(xùn)練分類器,對(duì)特征值維度超過(guò)設(shè)定閾值的對(duì)象進(jìn)行降維處理。對(duì)生成的實(shí)例測(cè)試集進(jìn)行測(cè)試,分析所設(shè)定閾值的合理性,必要時(shí)進(jìn)行調(diào)校。根據(jù)計(jì)算獲得的最大關(guān)系類別概率設(shè)定關(guān)系類別閾值;(4)將符合條件的新標(biāo)注數(shù)據(jù)添加至原訓(xùn)練集中,重新訓(xùn)練,對(duì)剩余的未標(biāo)注數(shù)據(jù)進(jìn)行測(cè)試,過(guò)濾得到較高質(zhì)量的標(biāo)注數(shù)據(jù);(5)如果過(guò)濾后得到的標(biāo)注數(shù)據(jù)數(shù)量大于等于設(shè)定的閾值,結(jié)束標(biāo)注過(guò)程。否則回到(4)。此處閾值根據(jù)最大類別權(quán)值與極大類別權(quán)值的差值而設(shè)定的。我們以文本塊為單位,識(shí)別出了包含一個(gè)概念的所有文本塊及該概念所對(duì)應(yīng)的具體類。下一步需要標(biāo)注出這些類的屬性實(shí)例,以及和其它類之間的關(guān)系實(shí)例,并在此基礎(chǔ)之上生成RDF文檔。我們首先找出包含指定概念的所有文本塊;然后基于語(yǔ)義詞典進(jìn)行概念的識(shí)別,識(shí)別出領(lǐng)域?qū)I(yè)名詞;在此基礎(chǔ)上,生成triples集合;最后進(jìn)行統(tǒng)一實(shí)例的融合,并生成RDF文檔。以輸入的出版物資源片段為例:“RAM(randomaccessmemory)隨機(jī)存儲(chǔ)器。存儲(chǔ)單元的內(nèi)容可按需隨意取出或存入,且存取的速度與存儲(chǔ)單元的位置無(wú)關(guān)的存儲(chǔ)器。這種存儲(chǔ)器在斷電時(shí)將丟失其存儲(chǔ)內(nèi)容,故主要用于存儲(chǔ)短時(shí)間使用的程序。按照存儲(chǔ)信息的不同,隨機(jī)存儲(chǔ)器又分為靜態(tài)隨機(jī)存儲(chǔ)器(StaticRAM,SRAM)和動(dòng)態(tài)隨機(jī)存儲(chǔ)器(DynamicRAM,DRAM)。這一文本塊的核心概念是隨機(jī)存儲(chǔ)器,通過(guò)前面的方法,我們已經(jīng)識(shí)別出它是一個(gè)存儲(chǔ)器的實(shí)例。接下來(lái),首先,找出包含“隨機(jī)存儲(chǔ)器”的句子,在本例中即是:“隨機(jī)存儲(chǔ)器又分為靜態(tài)隨機(jī)存儲(chǔ)器(StaticRAM,SRAM)和動(dòng)態(tài)隨機(jī)存儲(chǔ)器(DynamicRAM,DRAM)”。然后,通過(guò)基于語(yǔ)義詞典的命名識(shí)別算法,可提取出概念的包含關(guān)系———本例中的謂詞“分為”,概念名———本例中的客體“靜態(tài)隨機(jī)存儲(chǔ)器”,概念名———本例中的客體“動(dòng)態(tài)隨機(jī)存儲(chǔ)器”。根據(jù)本體規(guī)范生成三元組:(隨機(jī)存儲(chǔ)器,包含靜態(tài)隨機(jī)存儲(chǔ)器)、(隨機(jī)存儲(chǔ)器,包含,動(dòng)態(tài)隨機(jī)存儲(chǔ)器)。
實(shí)驗(yàn)系統(tǒng)環(huán)境實(shí)驗(yàn)系統(tǒng)環(huán)境為CPU1.8GHz、內(nèi)存2G、硬盤(pán)大小為500GB。操作系統(tǒng)MicrosoftWindowsXPProfession-al。安裝如下軟件apache-tomcat-6.0.29、jdk1.6.0_14、apache-solr-1.4.1、Gate6.0、WordNet2.1、Protege4.2。
實(shí)驗(yàn)系統(tǒng)實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)集合采用武漢大學(xué)出版社、華中科技大學(xué)出版社等出版機(jī)構(gòu)自2002至2012年間出版的計(jì)算機(jī)硬件課程出版物共72本,如《微機(jī)原理及接口》、《數(shù)字電路原理》、《計(jì)算機(jī)組成原理》、《大規(guī)模集成電路》等。
關(guān)聯(lián)出版物數(shù)據(jù)自動(dòng)生成實(shí)驗(yàn)本文對(duì)關(guān)聯(lián)圖書(shū)館數(shù)據(jù)自動(dòng)生成進(jìn)行實(shí)驗(yàn)。首先參照MUC和MET的評(píng)估指標(biāo)對(duì)本信息抽取系統(tǒng)進(jìn)行一個(gè)整體的評(píng)測(cè),系統(tǒng)中的知識(shí)庫(kù)涵蓋了概念的中英文名稱、概念解釋、概念關(guān)系、所屬知識(shí)單元、難度級(jí)別等內(nèi)容,基本涵蓋了關(guān)聯(lián)出版物數(shù)據(jù)所涉及到的各個(gè)角度的內(nèi)容,能夠提供很好的支持。對(duì)該系統(tǒng)進(jìn)行測(cè)試的數(shù)據(jù)集含有2336個(gè)經(jīng)相關(guān)領(lǐng)域?qū)<胰斯徍说母拍?,其?139個(gè)概念已經(jīng)由專家通過(guò)人工標(biāo)注關(guān)聯(lián)信息(用Link(total)表示)。在實(shí)驗(yàn)中,系統(tǒng)自動(dòng)標(biāo)注出關(guān)聯(lián)信息2105個(gè),用Link(autoannotation)表示。經(jīng)過(guò)人工核查,發(fā)現(xiàn)系統(tǒng)自動(dòng)標(biāo)注2105個(gè)關(guān)聯(lián)信息中有213個(gè)未達(dá)到摘要要求,用Link(error)表示。
關(guān)聯(lián)出版物數(shù)據(jù)管理與本體建模實(shí)驗(yàn)圖2是以為出版物《微機(jī)原理及接口》為例,介紹圖書(shū)館關(guān)聯(lián)出版物數(shù)據(jù)管理與本體建模的界面。
實(shí)驗(yàn)結(jié)果分析由于實(shí)驗(yàn)中使用的出版物數(shù)據(jù)主要是教材,以說(shuō)明文的形式出現(xiàn),具有較為規(guī)范的文法表達(dá),通過(guò)一些常用的指示詞(如:…是指…等)就能夠?qū)蜻x摘要內(nèi)容進(jìn)行較準(zhǔn)確的定位。因此,還可以對(duì)現(xiàn)有自動(dòng)摘要算法中的特征模型進(jìn)行修改,使其更加符合面向關(guān)聯(lián)課程數(shù)據(jù)的多文檔摘要內(nèi)容的形式和規(guī)律。良好的擴(kuò)展性使得本文方法能夠在不斷擴(kuò)展抽取內(nèi)容范圍的同時(shí),提高抽取信息的準(zhǔn)確率。從應(yīng)用角度來(lái)說(shuō),關(guān)聯(lián)課程數(shù)據(jù)處理平臺(tái)要求盡可能對(duì)每一個(gè)概念都能夠提取一定的信息生成相應(yīng)摘要,而對(duì)生成的摘要而言,并不要求其所表達(dá)的內(nèi)容與來(lái)源文檔表達(dá)的意思完全吻合。因此,在設(shè)計(jì)多文檔摘要抽取系統(tǒng)時(shí)采用了提升段落、句子位置權(quán)重的方式提高信息抽取的準(zhǔn)確率,這從一定程度上降低了摘要抽取的召回率。從實(shí)驗(yàn)可以看出,系統(tǒng)的準(zhǔn)確率達(dá)到了一個(gè)較理想的狀態(tài)。除了上述主觀因素外,可能還受到了文檔來(lái)源比較單一、數(shù)量較少的影響。這些因素在一定程度上提高了準(zhǔn)確率,從而可能使多文檔自動(dòng)摘要的準(zhǔn)確率高于真實(shí)水平。下一步改進(jìn)的內(nèi)容為:擴(kuò)展多文檔數(shù)據(jù)來(lái)源,收集更廣泛的語(yǔ)義數(shù)據(jù)資源(如:出版物關(guān)聯(lián)數(shù)據(jù)集),進(jìn)一步完善關(guān)聯(lián)出版物數(shù)據(jù)平臺(tái)內(nèi)容。
結(jié)語(yǔ)
用戶眼中的信息空間已經(jīng)發(fā)生了很大改變,不再局限于圖書(shū)館等機(jī)構(gòu)內(nèi)部,而是進(jìn)入開(kāi)放的互聯(lián)網(wǎng)環(huán)境。用戶對(duì)于信息的關(guān)聯(lián)性及可用性更加重視。關(guān)聯(lián)數(shù)據(jù)的應(yīng)用關(guān)系到圖書(shū)館的發(fā)展前景。在互聯(lián)網(wǎng)高速發(fā)展的形勢(shì)下,圖書(shū)館在功能和存在價(jià)值方面不斷受到挑戰(zhàn),整個(gè)局勢(shì)較為嚴(yán)峻,圖書(shū)館界對(duì)此應(yīng)高度重視,積極尋找應(yīng)對(duì)策略。實(shí)驗(yàn)結(jié)果說(shuō)明,本文所提出的方法可以滿足關(guān)聯(lián)數(shù)據(jù)構(gòu)建的要求,但在關(guān)聯(lián)出版物數(shù)據(jù)的更高級(jí)應(yīng)用中可能需要本體推理,因此,在基于Protégé構(gòu)建關(guān)聯(lián)出版物數(shù)據(jù)時(shí),需要在類的對(duì)象屬性中設(shè)置互斥屬性或函數(shù)屬性,但此兩種匿名屬性當(dāng)類層次較多時(shí)容易出現(xiàn)本體不一致的情形,所以,當(dāng)關(guān)聯(lián)出版物數(shù)據(jù)處理平臺(tái)在面對(duì)海量出版物資源應(yīng)用時(shí),應(yīng)增加本體一致性檢測(cè)環(huán)節(jié)。
作者:瞿成雄單位:武漢大學(xué)信息管理學(xué)院