99精品久久这里只有精品,三上悠亚免费一区二区在线,91精品福利一区二区,爱a久久片,无国产精品白浆免费视,中文字幕欧美一区,爽妇网国产精品,国产一级做a爱免费观看,午夜一级在线,国产精品偷伦视频免费手机播放

    <del id="eyo20"><dfn id="eyo20"></dfn></del>
  • <small id="eyo20"><abbr id="eyo20"></abbr></small>
      <strike id="eyo20"><samp id="eyo20"></samp></strike>
    • 生僻字信息處理

      前言:本站為你精心整理了生僻字信息處理范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢(xún)。

      摘要:漢字生僻字的輸入,一直是困擾文史工作者的難題,本文試在前人的研究基礎(chǔ)上,提出一些關(guān)于漢字信息處理的設(shè)想和相關(guān)的解決方案。

      關(guān)鍵字:生僻字;字符集;信息處理

      漢字的信息處理經(jīng)過(guò)多年的摸索,沖破了以前漢字不能進(jìn)入計(jì)算機(jī)的迷信,取得了可喜的成績(jī),但離能完全滿(mǎn)足實(shí)際使用的需要還有很長(zhǎng)一段距離。

      我們先回顧一下計(jì)算機(jī)中的字庫(kù),然后討論生僻字的信息處理方法。

      一、漢字庫(kù)發(fā)展簡(jiǎn)介

      漢字庫(kù)通俗地說(shuō)就是計(jì)算機(jī)軟件系統(tǒng)中的漢字倉(cāng)庫(kù),依據(jù)不同的標(biāo)準(zhǔn),字庫(kù)中漢字的數(shù)量是不同的,以前的主要標(biāo)準(zhǔn)有:

      1、GB2312漢字編碼字符集

      從1975年開(kāi)始,我國(guó)為了研究漢字的使用頻度,進(jìn)行了大規(guī)模的字頻統(tǒng)計(jì)工作,內(nèi)容包括工業(yè)、農(nóng)業(yè)、軍事、科技、政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、教育、體育、醫(yī)藥衛(wèi)生、天文地理、自然、化學(xué)、文字改革、考古等多方面的出版物,在數(shù)以?xún)|計(jì)的浩瀚文獻(xiàn)資料中,統(tǒng)計(jì)出實(shí)際使用的不同的漢字?jǐn)?shù)為6335個(gè),而其中有3000多個(gè)漢字的累計(jì)使用頻度達(dá)到了99.9%,而另外的3000多個(gè)累計(jì)頻度不到0.1%,說(shuō)明了常用漢字與次常用漢字的數(shù)量不足7000個(gè),這就為國(guó)家制定漢字庫(kù)標(biāo)準(zhǔn)提供了依據(jù)。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國(guó)標(biāo)交換碼,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB2312-80,選入了6763個(gè)漢字,分為兩級(jí),一級(jí)字庫(kù)中有3755個(gè),是常用漢字,二級(jí)字庫(kù)中有3008個(gè),是次常用漢字;還選入了682個(gè)字符,包含有數(shù)字、一般符號(hào)、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號(hào)、注音字母等。以前我國(guó)大陸的各種中文DOS版本、Windows3.1/3.2版本,裝入的字庫(kù)都是國(guó)標(biāo)一二級(jí)字庫(kù)。遇到“镕、啰、瞭、袆、祎、曌、赟、贇、鱻、驫、犇……”等漢字,既無(wú)法輸入,又不能打印。

      后來(lái)國(guó)家技術(shù)監(jiān)督局又頒布了一個(gè)與之相對(duì)應(yīng)的繁體字集,全稱(chēng)《信息交換用漢字編碼字符集輔助集》,標(biāo)準(zhǔn)號(hào)為GB/T12345-90。

      2、臺(tái)灣BIG5字庫(kù)

      BIG-5碼是通行于臺(tái)灣、香港地區(qū)的一個(gè)繁體字編碼方案,俗稱(chēng)“大五碼”。地區(qū)標(biāo)準(zhǔn)號(hào)為:CNS11643,這就是人們講的BIG5碼。

      BIG-5碼收錄漢字13053個(gè),分為常用字和次常用字兩部分,各部分中的漢字按筆劃/部首排列。其中常用字5401個(gè),包括臺(tái)灣教育管理部門(mén)頒布的《常用漢字標(biāo)準(zhǔn)字體表》中的全部漢字4808個(gè),臺(tái)灣中小學(xué)教科書(shū)常用字587個(gè),異體字6個(gè);次常用字7652個(gè),包括臺(tái)灣教育管理部門(mén)頒布的《次常用漢字標(biāo)準(zhǔn)字體表》的全部漢字6341個(gè),《罕用漢字標(biāo)準(zhǔn)字體表》中使用頻率較高的字1311個(gè)。

      后來(lái)為了協(xié)助解決眾多使用BIG5碼單位于進(jìn)行公文電子傳遞時(shí)遇到自造字無(wú)法轉(zhuǎn)換CNS的問(wèn)題,實(shí)行了“BIG5碼字集擴(kuò)編計(jì)劃”,1986年7月擴(kuò)編完成,這就是所謂的“BIG5+碼”。

      BIG5+碼系以CNS為藍(lán)本,共增編標(biāo)準(zhǔn)字集4760個(gè)字符與推薦字集3250個(gè)字符;其標(biāo)準(zhǔn)字集即納編CNS第3字面字集內(nèi)之4145個(gè),第4個(gè)字面字集內(nèi)之219個(gè)字,均為一般文書(shū)常用之中文字,總支持文字量達(dá)141376個(gè)

      3、大字符集字庫(kù)(又叫GBK字庫(kù))

      國(guó)際標(biāo)準(zhǔn)化組織為了將世界各民族的文字進(jìn)行統(tǒng)一編碼,制定了UCS標(biāo)準(zhǔn)。根據(jù)這一標(biāo)準(zhǔn),中、日、韓三國(guó)共同制定了《CJK統(tǒng)一漢字編碼字符集》,其國(guó)際標(biāo)準(zhǔn)號(hào)為:ISO/IEC10646,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB13000-90,該漢字編碼字符集就是通常人們所說(shuō)的大字符集,它編入了20902個(gè)漢字,收集了大陸一二級(jí)字庫(kù)中的簡(jiǎn)體字,臺(tái)灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,58個(gè)香港特別用字和92個(gè)延邊地區(qū)朝鮮族“吏讀”字,甚至涵蓋了日文與韓文中的通用漢字,滿(mǎn)足了方方面面的需要。Windows95/98/NT/2000中都裝入了大字符集漢字庫(kù),人們一般稱(chēng)它為GBK(“國(guó)家標(biāo)準(zhǔn)擴(kuò)展”的拼音縮寫(xiě))字庫(kù)。

      4、新標(biāo)準(zhǔn)漢字庫(kù)

      2000年3月,國(guó)家信息產(chǎn)業(yè)部和質(zhì)量技術(shù)監(jiān)督局在北京聯(lián)合了《信息技術(shù)和信息交換用漢字編碼字符集、基本集的擴(kuò)充》,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB18030-2000,收錄了27000多個(gè)漢字,還收錄了藏、蒙、維等主要少數(shù)民族的文字,以期一舉解決郵政、戶(hù)政、金融、地理信息系統(tǒng)等生僻漢字與主要少數(shù)民族語(yǔ)言的輸入,該標(biāo)準(zhǔn)于2000年12月31日強(qiáng)制執(zhí)行。GB18030-2000作為GBKforUnicode3.0的更新而誕生,它帶有包含所有Unicode的擴(kuò)展,完全向下兼容GB2312-1980和GBK。

      二、對(duì)于漢字庫(kù)設(shè)計(jì)的想法

      字集不是越大越好,因?yàn)楝F(xiàn)存于大型字典辭書(shū)的字有一部分是歷史用字,還有大量的異體字。根據(jù)使用的需要和研究的情況,對(duì)漢字的信息處理可以分為幾個(gè)層次

      1、日常生活用字:(可有一個(gè)人名、地名輔助集和錯(cuò)字集)

      日常生活用字就是常用字,這個(gè)數(shù)字可能就在3000字左右,再加上一些次常用字,可能也就在6000字左右,當(dāng)然,其中哪些是常用字,哪些是次常用字,具體的字可能要隨著時(shí)代不同而發(fā)生變化。日常生活用字要求有規(guī)范性,現(xiàn)在進(jìn)行的“規(guī)范漢字表”課題研究可能有助于此字集的確定。

      人名和地名用字是一個(gè)比較特殊的問(wèn)題,國(guó)家語(yǔ)言文字工作委員會(huì)正在進(jìn)行“人名、地名規(guī)范”的研究,如果此研究成果面世,則可能有助于解決現(xiàn)代人的人名、地名用字問(wèn)題。

      此集中最好還應(yīng)該有一個(gè)錯(cuò)字集,在早期識(shí)字教育和對(duì)外漢語(yǔ)教學(xué)中,經(jīng)常要使用到一些錯(cuò)別字,別字好打,缺筆少劃的錯(cuò)字沒(méi)有辦法處理,所以應(yīng)特置一個(gè)錯(cuò)字集,有利于錯(cuò)別字教學(xué)的信息化與錯(cuò)別字的集中糾正。

      2、一般古籍整理用字:(應(yīng)該有一個(gè)異體字輔助集)

      古籍用字,數(shù)量比現(xiàn)代生活用字多。因?yàn)闅v代沉積下來(lái)的異體字、死字比較多。關(guān)于這個(gè)問(wèn)題,首先應(yīng)該進(jìn)行異體字的整理,異體字整理完成后,正體字就可以確定一個(gè)數(shù)量。為了保持古籍版本原樣,古籍整理工作者和語(yǔ)言文字研究者也要用到異體字,所以附錄一個(gè)異體字集。

      還有一個(gè)問(wèn)題就是方言字,很多方言字來(lái)源于古代的字典辭書(shū)、地方韻書(shū)和方言詞典,少部分來(lái)源于民間文藝作品。首先方言字有一個(gè)規(guī)范的問(wèn)題,那些有本字又意義比較明確的,應(yīng)該首先選用本字。如本字不明,可沿用俗字。

      3、古文字用字:(也有一個(gè)異體字輔助集)

      關(guān)于古文字,一般定義為小篆以前的文字為古文字,其中有很多字還不可識(shí),這種情況,就首先要區(qū)分出可識(shí)字(與小篆或楷書(shū)有對(duì)應(yīng)字)與不可識(shí)字,然后進(jìn)行異體字的整理。并且要能為每個(gè)不可識(shí)字設(shè)計(jì)可以調(diào)用的編碼,以利于檢索。

      漢字庫(kù)的設(shè)計(jì),針對(duì)不同的用戶(hù)與使用目的,分級(jí)分層次是很必要的。各級(jí)之中首先要全,同時(shí)要考慮各級(jí)之間正體字與異體字、繁體與簡(jiǎn)體、古文字與今字的正確對(duì)應(yīng)等。

      此外,各種常用圖符也可考慮收錄到各級(jí)字庫(kù)中,如傳世古籍中出現(xiàn)的圈點(diǎn)符號(hào)、古文字中的有句讀作用的符號(hào)。少數(shù)民族和外域的漢字型變體字,也可考慮單置一類(lèi),以有利于文字的比較研究。三、解決方案

      以下所使用的操作系統(tǒng),沒(méi)有特別指出的為Windows98,字處理軟件則為Word2000。其它則專(zhuān)門(mén)指出。

      (一)利用GBK漢字集解決生僻字的輸入方法。

      微軟從Windows95(簡(jiǎn)體中文版)視窗操作系統(tǒng)起,都采用了GBK字庫(kù),該字庫(kù)收字20902個(gè),基本能滿(mǎn)足日常生活用字(生僻人名、地名字除外)。要利用該字庫(kù),通??刹捎孟铝袔追N方法。

      1.改用GBK輸入法

      Windows95版本及以后版本提供了GBK內(nèi)碼、GBK全拼、GBK雙拼、GBK表形碼和GBK鄭碼5種GBK輸入法。但這些輸入法不是安裝的默認(rèn)選項(xiàng),需要從“控置面板”中打開(kāi)“輸入法”對(duì)話(huà)框來(lái)添加。Windows98默認(rèn)安裝全拼輸入法則可以選擇輸入一般漢字和GBK漢字(使用該輸入法的屬性設(shè)置)。其它同樣需要安裝。

      這些GBK輸入法中只有全拼比較常用,而且,這些輸入法所輸入的漢字,包括了GBK繁體和GBK簡(jiǎn)體,數(shù)量非常大,所以造成兩方面的不便:一是重碼率高,選字非常麻煩;二是繁體簡(jiǎn)體同時(shí)出現(xiàn),有些字不容易分辨繁簡(jiǎn),同時(shí)如果不知道字的讀音,也很難選擇拼音輸入法。

      現(xiàn)在已有軟件研制商研制出能輸入GBK字庫(kù)的五筆字形輸入法,如智能陳橋,對(duì)于熟悉五筆輸入法者,比較便利。

      2、用Word插入符號(hào)的方法

      選“插入”菜單中的“符號(hào)”命令,在“字體”下拉列表中選“標(biāo)準(zhǔn)字體”(Word97是“宋體”),在“子集”中選“CJK統(tǒng)一漢字”(Word97是“部首及難檢字”)。一般可在列表中找到所需的漢字。雖然該字庫(kù)大致是按部首和筆畫(huà)進(jìn)行編排的,但查找起來(lái)還是相當(dāng)麻煩。以前有萬(wàn)學(xué)仁先生編有《通用字符集部首表及區(qū)位碼(16進(jìn)制)》[1],有利于查找,如果沒(méi)有該部首表,還有一種方法可以采用,先輸入一個(gè)與所要輸入的生僻字相同偏旁的漢字,并選中該漢字,然后用鼠標(biāo)單擊“插入”菜單中的“符號(hào)”項(xiàng),此時(shí)會(huì)彈出“符號(hào)”對(duì)話(huà)框,再用左右方向箭進(jìn)行逐個(gè)查找和挑選,就會(huì)很快找到該生僻字的。如果是一個(gè)獨(dú)體字,則可以輸入一個(gè)筆畫(huà)相同的的獨(dú)體字(也不作偏旁)。很快會(huì)在其附近找到該字。

      (二)GBK字集以外生僻字的輸入

      1、使用Windows自帶的“造字程序”

      該程序操作簡(jiǎn)單,使用方便,既可以用兩個(gè)字重新拆分組合成一個(gè)新字;也可以選一個(gè)相近的字加以修改而造一個(gè)新字;還可以直接在編輯框中畫(huà)出您所需要的字,比較便利的是前兩種方法,其步驟如下。

      (l)取兩個(gè)字中有用的部分,重新組合成一個(gè)新字。以“腘”字為例(為便于排版,沒(méi)有選用GBK以外的字作為例字,下同),單擊“開(kāi)始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒(méi)有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時(shí)在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復(fù)制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯?,在“造字”窗中出現(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國(guó)”,將它拖到編輯框中合適的位置,然后關(guān)閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對(duì)話(huà)框中按“確定”按鈕。

      此時(shí)該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。

      如果要在以后能以平時(shí)的輸入方法輸入該字,那還要補(bǔ)上下一步操作;選“編輯”中的“輸入法鏈接”命令,如為第一次輸入,將彈出搜索對(duì)話(huà)框,在文件名輸人框中以英數(shù)方式輸入你常用的輸入法,單擊“打開(kāi)”按鈕,彈出是否要?jiǎng)?chuàng)建該文件的詢(xún)問(wèn),單擊“是”。如有多種輸入方法,則依次鍵入不同的輸入法文件名,完成后彈出輸入外碼對(duì)話(huà)框,輸入該字的外碼(如鏈接了多種輸入法,則有不同輸入法的外碼)。按“注冊(cè)”按鈕。但要注意輸入的外碼必須符合該輸入法的規(guī)定,計(jì)算機(jī)不承認(rèn)你自行定義的外碼。

      (2)用相近的字修改。以“臿”字為例:前邊的步驟與前例相同,只是將參考字改為“插”。用上述的方法刪除“插”字的提手旁后圈選“編輯”框中的“臿”,將它向左拖至框的中間,通過(guò)調(diào)整八個(gè)控制點(diǎn)來(lái)改變形狀大小至滿(mǎn)意。以后的操作與上例相同。

      該法的優(yōu)點(diǎn)是:不管是否知道該字的讀音,總能通過(guò)拆分組合的方法造出來(lái)。并且,當(dāng)正確輸入外碼注冊(cè)后,平時(shí)還能以習(xí)慣的輸入方法輸入該字。缺點(diǎn)在于如果需要將使用了該造字文件的文檔拷貝到其它計(jì)算機(jī)中,還需要拷貝造字文件。

      (3)對(duì)于某些類(lèi)似于圖形的字,可以選用各種工具畫(huà)出需要的字形。

      2、用Word組字

      Word2000的“格式”菜單中有“中文版式/雙行合一”功能,工具欄上有“字符縮放”按鈕,利用它們您可組合一些冷僻字。較之用其他方法要簡(jiǎn)便得多,操作方法如下:

      (l)對(duì)于左右型字體,以“嬿”字為例:輸入“女”字后緊接著輸入“燕”字;選中“女”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選50%);選中“燕”字,單擊“字符縮放”按鈕,選擇合適的比例(該字可選80%);同時(shí)選中“女”與“燕”,選“格式/字體”命令,單擊“字符間距”標(biāo)簽,在“間距”框中選“緊縮”,再單擊“確定”按鈕即可。

      (2)對(duì)于上下型字體(以“斊”字為例):鍵入“文耳”兩字,然后選中它,在“格式”工具欄上的“字號(hào)”框內(nèi)選擇合適的字號(hào)(通常輸入“四號(hào)”字時(shí)可選“小五”號(hào),輸入“五號(hào)”字時(shí)可選“小六”號(hào)。但有時(shí)差距可能還要大一些);單擊“字符縮放”按鈕,選擇合適的比例(該字可選200%);選“格式/中文版式/雙行合一”命令,按“確定”按鈕。

      采用上法輸入冷僻字要使字型漂亮,對(duì)于左右型字關(guān)鍵在于輸入合適的比例;上下型字則在于合適的比例及“大小”框中的數(shù)值,當(dāng)然字號(hào)的大小也是十分重要。但此法對(duì)于結(jié)構(gòu)復(fù)雜如包圍型、半包圍型、聲(形)占一角型等的字則不適用。采用該法組成的字,還可以作為字符串檢索。

      3、如果要經(jīng)常運(yùn)用到大量生僻字形,則可以選用已有的自造字字庫(kù)進(jìn)行插入。

      現(xiàn)在已經(jīng)有大型的自造字字庫(kù)出現(xiàn),如由日本《今昔文字鏡》研究所制作的《今昔文字鏡》,包括24個(gè)TTF格式的矢量字庫(kù),共包括九萬(wàn)個(gè)漢字。其中收錄日本《ISO10646字符集》漢字兩萬(wàn)個(gè),《大漢和字典》漢字五萬(wàn)個(gè),其他四萬(wàn)個(gè)漢字包括:甲骨文、梵文、大陸、臺(tái)、港漢字、水文、越南字喃、漢字偏旁和造字部件、日文假名、俄文、拉丁文等各種常用字母和符號(hào)。適用于WINDOWS95/98/NT為操作系統(tǒng)的各種文字處理應(yīng)用軟件。還提供了一個(gè)簡(jiǎn)單易用的檢索應(yīng)用軟件。

      還有如北師大漢字與中文信息處理研究所研制的《說(shuō)文小篆輸入法》,能夠輸入所有小篆字形和《說(shuō)文》所收古文、籀文等字形。

      其它還有一些古籍?dāng)?shù)字化機(jī)構(gòu)與研究人員也造了各種各樣的字庫(kù),只需要安裝到字體中,就可以顯示打印他們所造的字。此種字庫(kù),如能有統(tǒng)一的規(guī)范與標(biāo)準(zhǔn)就比較好交流使用。并且最好能有一個(gè)檢索和輸入字符的相應(yīng)軟件才可資重復(fù)利用。

      4、用字體制作軟件制作自己的字庫(kù)?,F(xiàn)在已經(jīng)有比較好用的字體制作軟件,如FontCreatorProgram,如果能熟練使用,則可以自己量身定做自己的字體,優(yōu)點(diǎn)在于可以隨時(shí)補(bǔ)充修改。缺點(diǎn)在于自造字庫(kù)千差萬(wàn)別,通用性差。

      參考文獻(xiàn):

      [1]萬(wàn)學(xué)仁.談?wù)劮浅S米值男畔⑻幚韀J].內(nèi)江師范學(xué)院學(xué)報(bào),2001,(3).

      文檔上傳者
      亚洲精品第四页中文字幕| 欧美性色黄大片手机版| 天天噜日日噜狠狠噜免费| 桃花影院理论片在线| 麻豆成人在线视频| 无码午夜剧场| 国产精品毛片av一区二区三区| 亚洲一区二区日韩专区| 欧美疯狂性受xxxxx喷水| 国产亚洲午夜高清国产拍精品| 亚洲av无码乱观看明星换脸va| 探花国产精品三级在线播放| av毛片亚洲高清一区二区| 国产又黄又硬又粗| 日韩精品一区二区亚洲av| 日韩AV无码免费二三区| av中文码一区二区三区| 日本啪啪视频一区二区| 国产日本精品一二三四区| 亚洲综合成人婷婷五月网址| 久久久精品人妻无码专区不卡| 精品人妻系列无码人妻免费视频| 国内视频偷拍一区,二区,三区| 日韩最新av一区二区| 一本色道久久亚洲加勒比| 亚洲精品久久久久久久蜜桃| 久久99久久99精品中文字幕| 中文字幕影片免费在线观看| 日本一本草久国产欧美日韩| 国产精品一区二区三区女同| 色大全全免费网站久久| 亚欧美日韩香蕉在线播放视频| 国产一级特黄无码免费视频| 中文字幕一区二区三区在线乱码| 成人免费播放视频影院| 丰满人妻熟妇乱又仑精品| 成年无码av片完整版| 高清国产日韩欧美| 久久久9色精品国产一区二区三区| 日韩一级精品亚洲一区二区精品| 国产一区二区长腿丝袜高跟鞋 |