電 話:18937133779
網(wǎng) 址:http://www.tpiin.com
郵 箱:zboao@qq.com
藏品數(shù)字化管理就是將蘊涵在藏品內(nèi)部的各種信息通過以文字、符號、圖像等形式,記錄描述、復(fù)制加工于電子載體并為使用者調(diào)用。
為什么要實行數(shù)字化管理?
美術(shù)館的藏品屬于國家的珍貴文化財產(chǎn),通過電腦管理軟件的引入,可將藏品的大部分信息經(jīng)過處理后,在傳統(tǒng)手寫入賬的基礎(chǔ)上,把有關(guān)藏品的一切資料錄入電腦藏品管理系統(tǒng),如藏品名稱、年代、尺寸、質(zhì)材、放置位置、著錄、作者簡介、曾獲何種獎項等等文字資料,特別是作品的圖片及污損之處拍成圖樣及藏品修復(fù)前后的圖像數(shù)據(jù)對比等,均可輸入電腦,再利用電腦軟件的檢索功能,實現(xiàn)藏品利用的最大化。這樣在藏品資料的反復(fù)使用上,比人工檢索存查檔案有著很大的優(yōu)勢。查閱藏品時,可從電腦庫中看到該藏品的圖片及局部放大的圖樣,使得對藏品的認識更直觀,也有助于對藏品相關(guān)資料的研究和信息交流,服務(wù)于社會。
同時,引入藏品電腦管理系統(tǒng)后不必經(jīng)常從庫房中提取藏品實物,減少了珍貴藏品人為損壞的機率,從而有效地保護了藏品。
怎樣進行數(shù)據(jù)化管理?
1、 藏品圖片的數(shù)字化
隨著美術(shù)館藏品數(shù)量及系列性藏品的逐漸增加,出版成為藏品圖片向大眾及學(xué)者提供信息及研究的一種有效方式,通過對藏品進行數(shù)字化采集轉(zhuǎn)換成數(shù)字化文件。
2、 信息資料的數(shù)字化
在原來電腦藏品管理系統(tǒng)的基礎(chǔ)上,將軟件進行升級,建立聯(lián)機版的電腦操作系統(tǒng),既方便了部門內(nèi)部進行藏品管理,又方便了藏品資源的共享。在此基礎(chǔ)上,將出版的書刊與藏品有關(guān)的資料進行有序地錄入,使以往零散的資料進行科學(xué)的整合,能夠更全面地為藏品的研究提供全面及便捷的途徑。
3、 藏品資源的網(wǎng)絡(luò)化
有了一整套較為完善的文字資料數(shù)據(jù),即可將藏品的文字資料上傳至美術(shù)館現(xiàn)有網(wǎng)站的典藏專區(qū),以便查閱。今年又對典藏區(qū)網(wǎng)頁進行改版,完善和豐富了查閱資料,可按作者姓名、作品名稱,作品分類分別進行搜索,同時還配上圖片,使資料更為齊全。
4、 部分藏品進行數(shù)據(jù)化開發(fā)
目前許多美術(shù)館為了社會多種層次的需要,進行部分藏品進行精印復(fù)制,這種方式是將作品進行原大的高精度復(fù)制,并通過先進的色彩管理系統(tǒng)進行色彩的進一步還原,效果十分理想。此舉為開發(fā)藏品資源邁出具有試驗性的第一步,也是藏品數(shù)據(jù)資源服務(wù)社會的一種延伸。
藏品數(shù)字化的實質(zhì)性應(yīng)用
進行藏品數(shù)字化是為了更好地保護藏品及將這些珍貴的資源服務(wù)于社會,使藏品資源利用最大化。
1、 應(yīng)用于研究出版
在將大部分藏品圖像進行拍攝及電分掃描后,可以隨時將館藏的作品進分系列、分研究項目出版印刷,同時也為研究工作及文化傳播提供了一種最直觀的查閱方式。
2、 應(yīng)用于展覽
該館對一些比較珍貴及易損壞的作品,特別是攝影作品的展覽可利用數(shù)字化進行展覽級別的沖印,專門用于展覽,而將原件保存在庫房內(nèi),減少了藏品損壞及遺失的危險性。
3、 應(yīng)用于宣傳
美術(shù)館的藏品不但要通過展覽,更需要通過不同媒介的宣傳,包括平面的報刊雜志及現(xiàn)代的電子網(wǎng)絡(luò)宣傳,特別是針對個別系列的宣傳報道,藏品資料的數(shù)字化可以隨時為非盈利目的的宣傳提供詳盡的資料。
4、 應(yīng)用于策展和文案的制作
有了系統(tǒng)化的數(shù)據(jù)管理資料,方便了展覽策劃人員進行展品的挑選,并制作為不同類型的文檔,如Powerpoint等軟件,以制作策展方案和設(shè)計布展。
5、應(yīng)用于公共教育及服務(wù)
可將藏品制作成動態(tài)畫面,以影像資料的形式播放,開展美術(shù)教育和藝術(shù)欣賞活動。
6、應(yīng)用于藝術(shù)品開發(fā)
通過數(shù)字化圖像,能衍生出高精度復(fù)制品和其它立體或平面的禮品、紀念品,滿足了藝術(shù)愛好者的需求。
藏品數(shù)字化需要注意的問題及發(fā)展趨向
1、在進行藏品資源數(shù)字化的進程中,也發(fā)現(xiàn)了一些問題,特別是版權(quán)的問題,由于目前國家在這方面的相關(guān)管理規(guī)定還不明確,所以使用時應(yīng)避免侵權(quán)行為的發(fā)生。因此在進行相關(guān)的數(shù)字化之前,必須與有關(guān)的單位、個人簽定版權(quán)協(xié)議和保密協(xié)議,并以國家法律作為依據(jù)。
2、基于藏品需要進行開發(fā),必須處理好與藝術(shù)家或家屬的關(guān)系,并與版權(quán)擁有者簽定相關(guān)的協(xié)議或使用合同,從而保證各方面的合法權(quán)益。
3、藏品數(shù)字化后資料的保存及安全問題。當(dāng)前眾多美術(shù)館采用DVD及服務(wù)器的形式進行儲存,但這種儲存方式未考慮到自然原因或火災(zāi)造成的資料丟失等意外情況。對此,目前尚未找到穩(wěn)妥的辦法.
4、資源數(shù)據(jù)的保存問題,目前的數(shù)字化是以應(yīng)用為基礎(chǔ)進行的一種管理方式,暫未考慮到以后的藏品源文件數(shù)據(jù)的升級換代的需要和應(yīng)用于更高層次的需要,因此,有一定的局限性。
數(shù)字化博物館的核心是建設(shè)數(shù)字化技術(shù)和藏品資源信息為主的數(shù)據(jù)庫,它的建設(shè)將最終改變傳統(tǒng)博物館資源的單一展示方式,實現(xiàn)藏品資源的充分利用和先進管理。我們可以看到,數(shù)字博物館以傳統(tǒng)博物館為基礎(chǔ),發(fā)展迅猛,正以嶄新的面貌和獨特的優(yōu)勢受到社會的重視和公眾的關(guān)注,逐漸顯示出美好的發(fā)展前景和利用價值,加快數(shù)字化建設(shè)十分有利于事業(yè)的發(fā)展。
數(shù)字化技術(shù)對民間藝術(shù)保護的風(fēng)險問題論文
摘要 :在規(guī)范性保護、系統(tǒng)性保護、原生態(tài)保護、整體性保護以及創(chuàng)新型保護原則的指導(dǎo)下,民間藝術(shù)可以采用如數(shù)字地圖、數(shù)字攝影、數(shù)字視頻、數(shù)字音頻、數(shù)字全景、數(shù)字動畫以及觸覺媒體、虛擬現(xiàn)實等數(shù)字化技術(shù)加以保護,通過這些方式,有效的避免了在民間藝術(shù)保護過程中相關(guān)的技術(shù)、文化、知識產(chǎn)權(quán)以及成本等風(fēng)險。通過數(shù)字化技術(shù),民間藝術(shù)擺脫了時間和空間的限制,最大程度的得到展示、利用和共享,也就是說民間藝術(shù)的數(shù)字化保護已經(jīng)成為一種新的應(yīng)用平臺在公眾傳播方面發(fā)揮著巨大的作用。
關(guān)鍵詞 :數(shù)字化技術(shù);民間藝術(shù)保護;風(fēng)險問題
民間藝術(shù)數(shù)字化技術(shù)保護是一個全新話題,也是一個涉及范圍廣涵蓋面寬的綜合性工程。數(shù)字化技術(shù)為民間傳統(tǒng)藝術(shù)的保護和傳播提供了技術(shù)手段,同時改變了文化遺產(chǎn)傳統(tǒng)的保護方式,但是應(yīng)該看到,數(shù)字化技術(shù)雖能促進不同文化之間的溝通和交流,卻也可能在保護文化遺產(chǎn)的過程中的技術(shù)和傳播層面弱化、扭曲甚至抹殺不同文化之間的差異性。如何預(yù)防民間藝術(shù)數(shù)字化進中的風(fēng)險,是民間藝術(shù)數(shù)字化保護中的新問題。
一、數(shù)字化保護過程中的技術(shù)風(fēng)險
1.信息采集、處理和儲存過程中隱含的風(fēng)險
民間藝術(shù)的數(shù)字化涉及信息的采集、處理和儲存,這其中包含采集設(shè)備的選擇、數(shù)據(jù)處理方式、儲存格式和數(shù)據(jù)庫技術(shù)。但是截止到目前,并沒有一個全國統(tǒng)一的數(shù)據(jù)加工規(guī)范或標準,無論在民間藝術(shù)普查階段還是在名錄項目申過程中,都不同程度存在一些問題,具體表現(xiàn)在:數(shù)據(jù)資料保存很好,但標示和描述很差,以至于使?jié)撛诘挠脩魺o法了解發(fā)現(xiàn)它們;由于沒有將與民間藝術(shù)相關(guān)的信息進行很好的鏈接綁定,導(dǎo)致人們存取資源時而資源本身卻不能被人們理解,或者不可靠;往往由于數(shù)據(jù)確認和數(shù)據(jù)處理軟件的獨立性,造成數(shù)據(jù)的實用性降低的結(jié)果;數(shù)據(jù)庫中數(shù)據(jù)集可以被保留,但由于各自采用不同的數(shù)據(jù)庫技術(shù),使得他人無法理解其結(jié)和規(guī)則,數(shù)據(jù)不能夠被存??;也有一些采用了口令保護、加密、安全設(shè)備等措施的數(shù)據(jù)但在不適用時也會導(dǎo)致資料的不可使用。民間藝術(shù)分布在各地,如果各地都以不同的方式、規(guī)格和技術(shù)進行數(shù)據(jù)加工,就很難達到民間藝術(shù)的最終目的——保護、傳承以及資源的整合、共享。
2.數(shù)據(jù)庫技術(shù)采用不當(dāng)隱含的風(fēng)險
中央管理系統(tǒng)是民間藝術(shù)數(shù)字化技術(shù)保護的核心,通常都離不開后據(jù)庫臺數(shù)的支持。我國的目前常用的管理系統(tǒng)后臺軟件都是一些商業(yè)軟件。而這些商業(yè)軟件除了價格高,還會隨著新版本的升級重新造成使用者被動學(xué)習(xí)的負擔(dān),用戶對軟件的內(nèi)部結(jié)構(gòu)是不了解的。況且,生產(chǎn)軟件及公司都有其生命周期,這對于我們民間藝術(shù)幾百年甚至上千年的延續(xù),可以不值一提。一旦我們依賴的軟件和技術(shù)停止開發(fā)或公司倒閉,那么我們前期開發(fā)的系統(tǒng)只能停止使用,造成浪費。并且可能導(dǎo)致對數(shù)字技術(shù)分離。
二、數(shù)字化保護過程中的文化風(fēng)險
1.人文把握不當(dāng)隱含的.風(fēng)險
隨著數(shù)字技術(shù)的深入,在文化遺產(chǎn)保護方面的問題也一一凸顯。數(shù)字技術(shù)雖然是目前最有效的保護手段,但其技術(shù)弊端也不可避免地損害了文化傳承。它容易形成一種新的話語霸權(quán),在記錄保護文化的同時,可能會抹殺某些歷史文化傳承,將過多的現(xiàn)代化的東西植入其中,讓本來應(yīng)該盡量原生態(tài)的保護,摻雜了太多的技術(shù)人為因素,使得文化保護不再純粹,而成為一種帶有所謂“創(chuàng)造性”的保護,這需引起我們高度重視。
2.引進別國技術(shù)隱含的風(fēng)險
近年來,我國在民間藝術(shù)的數(shù)字化保護上成果顯著,但與國外相比,我們的民間傳統(tǒng)藝術(shù)數(shù)字化過程中還存在許多欠缺和不足。目前由于我們信息資源的發(fā)展方面仍然很弱,導(dǎo)致技術(shù)信息的輸入多于技術(shù)信息的流出。而由于技術(shù)水平上的差距,讓我們在民間藝術(shù)的保護中往往受制于人,引進的軟件技術(shù)同時也存在泄露文化核心內(nèi)容的風(fēng)險,所以在民間藝術(shù)使用數(shù)字技術(shù)保護方面所隱含的風(fēng)險也要嚴加防范。
三、數(shù)字化保護中的知識產(chǎn)權(quán)風(fēng)險
民間藝術(shù)是我們的寶貴財富,是我們國家和民族的發(fā)展過程和精神財富。隨著現(xiàn)代社會經(jīng)濟的發(fā)展,一些民間藝術(shù)正面臨著消亡的危險;而其蘊含的文化、商業(yè)價值卻慢慢顯現(xiàn)出來,而民間藝術(shù)的權(quán)屬糾紛等問題也逐漸凸顯。而我國在民間藝術(shù)保護的司法領(lǐng)域卻相對滯后,從而造成民間藝術(shù)的法律保護和怎樣能促其繁榮發(fā)展等問題日漸重要。民間藝術(shù)數(shù)字化技術(shù)的合理使用其過程面臨最多的就是信息的采集和集中,這需要通過相關(guān)的文化管理等部門或著是傳承人的允許后才能對民間藝術(shù)等工藝信息進行全方位細致的分類、收集。而采集后所形成的數(shù)字化信息藝術(shù),根據(jù)我國的《著作權(quán)法》的相關(guān)規(guī)定,在特定的情況下是可以“合理使用”的,如博物館、美術(shù)館、圖書館和檔案館等公共機構(gòu)在對傳統(tǒng)藝術(shù)作品的選用、陳列、保存等方面使用有著作權(quán)的作品是不必征得許可的。民間藝術(shù)數(shù)字化資料的檢索問題。民間藝術(shù)文化的數(shù)字化保護目的之一是建立館藏資源數(shù)據(jù)庫,可以以多種形式進行保護,如博物館或其他公共社會機構(gòu)的形式,其保護目的主要是為了能更好地保護好我們的民間藝術(shù)資源,能讓更多的人們以及我們的后人進行了解和觀賞以及應(yīng)用。為了更好的方便檢索館藏資源數(shù)據(jù)庫,必須對龐大的數(shù)據(jù)庫信息資源進行有效的分類與歸檔,建立數(shù)子化檢索系統(tǒng),這樣才便于人們對所需資源的檢索與查找,從而提高使用效率。對數(shù)據(jù)庫資源的開發(fā)與建立,需要投入大量的人力物力和財力,而且還需要投入大量的經(jīng)費用于后期的維護,應(yīng)該享有著作權(quán),得到《著作權(quán)法》的保護。因此我們在對民間藝術(shù)原數(shù)據(jù)信息進行檢索,查閱和復(fù)制時就應(yīng)征得權(quán)利人的許可并支付相應(yīng)的報酬。
四、數(shù)字化技術(shù)保護的成本風(fēng)險
隨著對民間藝術(shù)數(shù)字化技術(shù)保護的過程中,投入的財力成本也會隨著設(shè)備的軟件和硬件的更新?lián)Q代,以及對圖像的質(zhì)量要求的提高而加大。為了有更好的直觀效果而使用視頻模式擴大存儲容量也會造成成本越來越高,資源消耗加大,費用提高等情況。而這些都是在民間藝術(shù)數(shù)字化技術(shù)保護過程中不得不重視的問題。同時數(shù)字化數(shù)據(jù)庫的后期資源維護也需要投入人物和財力,為了更好的對數(shù)據(jù)庫信息的使用滿足人們的需求,必須對民間藝術(shù)數(shù)字化技術(shù)保護的投入產(chǎn)出進行有效的規(guī)劃與論證??刂撇槐匾睦速M和投入,在資金有限的情況下對民間藝術(shù)數(shù)字化信息的對象和傳播方式進行選擇,避免造成成本過高或垃圾數(shù)據(jù)堆積等情況。
參考文獻:
[1]周全明,耿國華.文化遺產(chǎn)數(shù)字化保護技術(shù)及應(yīng)用.北京:高等教育出版社,2011.
[2]張耕.民間文學(xué)藝術(shù)的知識產(chǎn)權(quán)保護研究.北京:法律出版社,2007.
[3]李欣.數(shù)字化保護:非物質(zhì)文化遺產(chǎn)保護的新路向.北京:科學(xué)出版社,2011.
★常用文件擴展名列表
A 對象代碼庫文件
AAM Authorware shocked文件
AAS Authorware shocked包
ABF Adobe二進制屏幕字體
ABK CorelDRAW自動備份文件
ABS 該類文件有時用于指示一個摘要(就像在一篇有關(guān)科學(xué)方面的文章的一個摘要或概要,取自abstract)
ACE Ace壓縮檔案格式
ACL CorelDRAW 6鍵盤快捷鍵文件
ACM Windows系統(tǒng)目錄文件
ACP Microsoft office助手預(yù)覽文件
ACR 美國放射醫(yī)學(xué)大學(xué)文件格式
ACT Microsoft office助手文件
ACV OS/2的驅(qū)動程序,用于壓縮或解壓縮音頻數(shù)據(jù)
AD After Dark屏幕保護程序
ADA Ada源文件(非-GNAT)
ADB Ada源文件主體(GNAT);HP100LX組織者的約定數(shù)據(jù)庫
ADD OS/2用于引導(dǎo)過程的適配器驅(qū)動程序
ADF Amiga磁盤文件
ADI AutoCAD設(shè)備無關(guān)二進制繪圖儀格式
ADM After Dark多模塊屏幕保護;Windows NT策略模板
ADP FaxWork用于傳真調(diào)制解調(diào)器的交互安裝文件;Astound Dynamite文件
ADR After Dark隨機屏幕保護;Smart Address的地址簿
ADS Ada源文件說明書(GNAT)
AFM Adobe的字體尺度
AF2,AF3 ABC的FlowChat文件
AI Adobe Illustrator格式圖形
AIF,AIFF 音頻互交換文件,Silicon Graphic and Macintosh應(yīng)用程序的聲音格式
AIFC 壓縮AIF
AIM AOL即時信息傳送
AIS ACDSee圖形序列文件;Velvet Studio設(shè)備文件
AKW RoboHELP的幫助工程中所有A-關(guān)鍵詞
ALAW 歐洲電話音頻格式
ALB JASC Image Commander相冊
ALL 藝術(shù)與書信庫
AMS Velvet Studio音樂模塊(MOD)文件;Extreme的Tracker模塊文件
ANC Canon Computer的調(diào)色板文件,包含一系列可選的顏色板
ANI Windows系統(tǒng)中的動畫光標
ANS ANSI文本文件
ANT SimAnt For Windows中保存的游戲文件
API Adobe Acrobat使用的應(yīng)用程序設(shè)計接口文件
APR Lotus Approach 97文件
常用文件擴展名及含義(B開頭)
BIN 二進制文件
BK,BK$ 有時用于代表備份版本
BKS IBM BookManager Read書架文件
BMK 書簽文件
BMP Windows或OS/2位圖文件
BMI Apogee BioMenace數(shù)據(jù)文件
BOOK Adobe FrameMaker Book文件
BOX Lotus Notes的郵箱文件
BPL Borlard Delph 4打包庫
BQY BrioQuery文件
BRX 用于查看多媒體對象目錄的文件
BSC MS Developer Studio瀏覽器信息文件
BSP Quake圖形文件
BS1 Apogee Blake Stone數(shù)據(jù)文件
BS_ Microsoft Bookshelf Find菜單外殼擴展名
BTM Norton 應(yīng)用程序使用的批處理文件
BUD Quicken的備份磁盤
BUN CakeWalk 聲音捆綁文件(一種MIDI程序)
BW SGI黑白圖像文件
BWV 商業(yè)波形文件
BYU BYU的電影文件格式
B4 Helix Nuts and Bolts文件
常用擴展名及含義(C開頭)
C C代碼文件
C0l 臺風(fēng)波形文件
CAB Microsoft壓縮檔案文件
CAD Softdek的Drafix CAD文件
CAL CALS壓縮位圖;日歷計劃表數(shù)據(jù)
CAM Casio照相機格式
CAP 壓縮音樂文件格式
CAS 逗號分開的ASCⅡ文件
CAT Quicken使用 的IntellCharge分類文件
CB Microsoft干凈引導(dǎo)文件
CBI 二進制卷格式文件(用于IBM大型機系統(tǒng))
CC Visual dBASE用戶自定義類文件
CCA cc:郵件文件
CCB Visual Basic動態(tài)按鈕配置文件
CCF 多媒體查看器配置文件,用于OS/2
CCH Corel圖表文件
CCM Lotus cc:郵箱(例如“INBOX.CCM”)
CCO CyberChat數(shù)據(jù)文件
CCT Macromedia Director Shockwave投影
CDA CD音頻軌道
CDF Microsoft頻道定義格式文件
CDI Philip的高密盤交互格式
CDM Visual dBASE自定義數(shù)據(jù)模塊文件
CDR CorelDRAW繪圖文件;原始音頻CD數(shù)據(jù)文件
CDT CorelDRAW模板
CDX CorelDRAW壓縮繪圖文件;Microsoft Visual FoxPro索引文件
CEL CIMFast事件語言文件
CER 證書文件(MIME x-x509-ca-cert)
CFB Compton的多媒文件
CFG 配置文件
CFM CotdFusion模板文件;Visual dBASE Windows用戶定制表單
CGI 公共網(wǎng)關(guān)接口腳本文件
CGM 計算機圖形元文件
CH OS/2配置文件
CHK 由Windows磁盤碎片整理器或磁盤掃描保存的文件碎片
CHM 編譯過的HTML文件
CHR 字符集(字體文件)
CHP Ventura Publisher章節(jié)文件
CHT ChartViem文件;Harvard Graphics矢量文件
CIF Adaptec CD 創(chuàng)建器 CD映像文件
CIL Clip Gallery下載包
CIM SimCity 2000文件
CIN OS/2改變控制文件用于跟蹤INI文件中的變化
CK1 iD/Apogee Commander Keen 1數(shù)據(jù)文件
CK2 iD/Apogee Commander Keen 2數(shù)據(jù)文件
CK3 iD/Apogee Commander Keen 3數(shù)據(jù)文件
CK4 iD /Apogee Commander Keen 4數(shù)據(jù)文件
CK5 iD /Apogee Commander Keen 5數(shù)據(jù)文件
CK6 iD /Apogee Commander Keen 6數(shù)據(jù)文件
CLASS Java類文件
CLL Crick Software Clicker文件
CLP Windows 剪貼板文件
CLS Visual Basic類文件
CMD Windows NT,OS/2的命令文件;DOS CD/M命令文件;dBASEⅡ程序文件
CMF Corel元文件
CMG Chessmaster保存的游戲文件
CMP JPEG位圖文件;地址文檔
CMV Corel Move動畫文件
CMX Corel Presentation Exchange圖像
CNF Telnet,Windows和其他其內(nèi)格式會發(fā)生改變的應(yīng)用程序使用的配置文件
CNM Windows應(yīng)用程序菜單選項和安裝文件
CNQ Compuworks Design Shop文件
CNT Windows(或其他)系統(tǒng)用于幫助索引或其他目的內(nèi)容文件
COB TrueSpace 2對象文件
COD Microsoft C編譯器產(chǎn)生的可顯示機器碼/匯編代碼文件,其中附有源C代碼作為注釋
COM 命令文件(程序)
CPD,CPE 傳真覆蓋文檔
CPI Microsoft MS-DOS代碼頁信息文件
CPL 控制面板擴展名,Corel顏色板
CPO Corel打印存儲文件
CPP C++代碼文件
CPR Corel提供說明書文件
CPT Corel 照片-繪畫圖像
CPX Corel Presentation Exchange壓縮圖形文件
CRD Windows Cardfile文件
CRP Corel 提供的運行時介紹文件;Visual dBASE自定義報表文件
CRT 認證文件
CSC Corel腳本文件
CSP PC Emcee On_Screen圖像
CSS 瀑布式表格文件
CST Macromedia Director Cast文件
CSV 逗號分隔的值文件
CT Scitex CT位圖文件;Paint Shop Pro Grapic編輯器文件
CTL 通常用于表示一個包含控件信息的文件;FaxWork用它來保持有關(guān)每個傳真收到或發(fā)出的信息
CUE Microsoft提示牌數(shù)據(jù)文件
CUR Windows光標文件
CUT Dr Halo位圖文件
CV Corel版本的檔案文件;Microsoft CodeView信息屏幕文件
CWK ClarisWorks數(shù)據(jù)文件.
CWS ClarisWorks模塊
CXT Macromedia Director受保護的(不可編輯的)投影文件
CXX C++源代碼文件
常用擴展名及含義(D開頭)
DAT 數(shù)據(jù)文件;WrodPerfect合并數(shù)據(jù)文件;用于一些MPEG格式的文件
DB Borland的Paradox 7表
DBC Microsoft Visual FoxPro數(shù)據(jù)庫容器文件
DBF dBASE文件,一種由Ashton-Tate創(chuàng)建的格式,可以被ACT!、Lipper、FoxPro、Arago、Wordtech、Xbase和類似數(shù)據(jù)庫或與數(shù)據(jù)庫有關(guān)產(chǎn)品識別;可用數(shù)據(jù)文件(能被Excel 97打開);Oracle 8.1.x表格空間文件
DBX DataBearn圖像;Microsoft Visual FoxPro表格文件
DCM DCM模塊格式文件
DCR 沖擊波文件
DCS 桌面顏色分隔文件
DCT Microsoft Visual FoxPro數(shù)據(jù)庫容器
DCU Delphi編譯單元文件
DCX Microsoft Visual FoxPro數(shù)據(jù)庫容器;基于PCX的傳真圖像;宏
DC5 DataCAD繪圖文件
DDF Btrieve或Xtrieve數(shù)據(jù)定義文件,它包含用于描述Btrieve或Xtrieve文件的元數(shù)據(jù)
DDIF Digital Equipment或 Compaq格式,用于保存他們圖像與字處理文檔
DEF SmartWareⅡ數(shù)據(jù)文件;C++模塊定義文件
DEFI Oracle 7 卸載腳本文件
DEM 用于表示數(shù)字高度模型的USGS基準的文件
DER 認證文件
DEWF Macintosh Sound Cap/Sound Edit錄音設(shè)備格式
DGN Macintosh 95 CAD繪圖文件
DIB 設(shè)備無關(guān)位圖
DIC 目錄
DIF 可進行數(shù)據(jù)互換的電子表格
DIG DigiLink格式;Sound DesignerⅠ音頻文件
DIR MacromediaDirector文件
DIZ 描述文件
DLG C++對話框腳本文件
DLL 動態(tài)鏈接庫
DLS 可下載聲音文件
DMD Visual dBASE數(shù)據(jù)模塊文件
DMF X-Trakker音樂模塊(MOD)文件
DOC FrameMaker或FrameBuilder文檔;Word Star文檔、Word Perfect文檔、Microsoft Word文檔;DisplayWrite文檔
DOT Microsoft Word文檔模板
DPL Borland Delph3壓縮庫
DPR Borland Delphi工程頭文件
DRAW Acorn的基于對象的矢量圖像文件
DRV 驅(qū)動程序
DRW Micrografx Designer/Draw;Pro/E繪畫文件
DSF Micrografx Designer VFX文件
DSG DOOM保存的文件
DSM Dynamic Studio音樂模塊(MOD)文件
DSP Microsoft Developer Studio工程文件
DSQ Corel QUERY(查詢)文件
DST 刺繡機圖形文件
DSW Microsoft Developer Studio工作區(qū)文件
DTA Word Bank(世界銀行)的STARS數(shù)據(jù)文件
DTD SGML文檔類型定義(DTD)文件
DTED 地面高度數(shù)字數(shù)據(jù)(圖形的數(shù)據(jù)格式)文件
DTF Symantec Q&A相關(guān)的數(shù)據(jù)庫數(shù)據(jù)文件
DTM DigiTrakker模塊文件
DUN Microsoft拔號網(wǎng)絡(luò)導(dǎo)出文件
DV 數(shù)字視頻文件(MIME)
DWD DiamondWare數(shù)字化文件
DWG AutoCAD工程圖文件;AutoCAD或Generic CADD老版本的繪圖格式
DXF 可進行互交換的繪圖文件格式,二進制的DWG格式的文本表示;數(shù)據(jù)交換文件
DXR Macromedia Director受保護(不可編輯)電影文件
D64 Commodore的64位模擬磁盤圖像文件
常用擴展名及含義(E開頭)
EDA Ensoniq ASR磁盤映像
EDD 元素定義文檔(FrameMaker+SGML文檔)
EDE Ensoniq EPS磁盤映像
EDK Ensoniq KT磁盤映像
EDQ Ensoniq SQ1/SQ2/Ks32磁盤映像
EDS Ensoniq SQ80磁盤映像
EDV Ensoniq VFX-SD磁盤映像
EFA Ensoniq ASR文件
EFE Ensoniq EPS文件
EFK Ensoniq KT文件
EFQ Ensoniq SQ1/SQ2/Ks32文件
EFS Ensoniq SQ80文件
EFV Ensoniq VFX-SD文件
EMD ABT擴展模塊
EMF Windows增強元文件
EML Microsoft Outlook Express郵件消息(MIME RTC822)文件
ENC 重演文件
ENFF 中性文件格式擴展名
EPHTML Perl解釋增強HTML文件
EPS 壓縮的PostScript圖像
EPSF 壓縮的PostScript文件
ERI ERWin文件
ERR 當(dāng)RobooHELP幫助編譯器企圖編譯一個幫助系統(tǒng)源文件時用來存儲錯誤消息的文件
EPX ERWin文件
ESPS ESPS音頻文件
EUI Ensoniq ESP家族的壓縮磁盤映像
EVY 特使文檔
EWL Microsoft Encarta文檔
EXC Microsoft Word禁止字字典
EXE 可執(zhí)行文件(程序)
常用擴展名及含義(F開頭)
F FORTRAN文件
F2R Farandoyle線性模塊格式
F3R Farandoyle分塊線性模塊格式
F77 FORTRAN文件
F90 FORTRAN文件
FAR Fradole Composer音樂模塊(MOD)文件
FAV Microsoft Outlook導(dǎo)航條
FAX 傳真類型圖像
FBK Navison 金融備份
FCD 虛擬CD-ROM
FDB Navison 金融數(shù)據(jù)庫
FDF Adobe Acrobat表單文檔文件
FEM CADRE有限元素網(wǎng)絡(luò)文件
FFA,F(xiàn)FL,F(xiàn)FO,F(xiàn)FK Microsoft快速查找文件
FFF GUS PnP銀行文件格式
FH3 Aldus Freehand 3繪圖文件
FIF Fractal圖像文件
FIG REND386/AVRIL使用的文件格式
FITS CCD照相機圖像;靈活圖像傳輸系統(tǒng)
FLA Macromedia Flash電影
FLC Autodesk FLIC動畫文件
FLF Corel Paradox產(chǎn)生的格式:Navison Financials許可文件;OS/2驅(qū)動程序文件
PLI Autodesk FLIC動畫
FLT StarTrekker音樂模塊(MOD)文件;MultiGen Inc的Open Flight使用的文件格式;Corel過濾器文件
FM Adobe FrameMaker文檔
FMB Oracle4.0版或以后版本表單的二進制源代碼文件
FML 文件鏡象列表(GetRight)
FMT Oracle 4.0版或以后版本表單的文本格式;Microsoft Schedule+ 打印文件
FMX Oracle 4.0版或以后版本可執(zhí)行表單
FND Microsoft Explorer保存的搜索文件(Find applet)
FNG 字體組文件(字體導(dǎo)航器,F(xiàn)ont Navigator)
FNK Funk Tracker模塊格式
FOG Fontographer模塊字體
FON 系統(tǒng)字體
FOR FORTRAN文件
FOT 字體相關(guān)文件
FP FileMaker Pro文件
FP1 Flying Pigs for Windows數(shù)據(jù)文件
FP3 FileMaker Pro文件
FPT FileMaker Pro文件;Microsoft Fox Pro備注字體文件
FPX FlashPix位圖
FRM 表單;Frame Maker或Frame Builder文檔;Oracle可執(zhí)行表(3.0版或早期版本);Visual Basic表單;WordPerfect Merge表單;DataCAD標志報表文件
FRT Microsoft FoxPro報表文件
FRX Visual Basic表單文本;Microsoft FoxPro報表文件
FSF fPrint Audit Tool文件格式
FSL Borland的Paradox 7表單;Corel Paradox保存的表單
FSM Parandoyle示例格式
FT Lotus Notes全文本索引
FTG 全文本搜索組文件,由Windows幫助系統(tǒng)查找時產(chǎn)生——可以刪除,并在需要時重建起來
FTS 全文本搜索引文件,由Windows幫助系統(tǒng)查找時產(chǎn)生
FW2 Framework Ⅱ文件
FW3 Framework Ⅲ文件
FW4 Framework Ⅳ文件
FXP 經(jīng)Microsoft FoxPro編譯的源文件
FZB Casio FZ-1銀行轉(zhuǎn)儲
FZF Casio FZ-1完全轉(zhuǎn)儲
FZV Casio FZ-1聲音轉(zhuǎn)儲
常用擴展名及含義(G開頭)
G721 Raw CCITT G.721 $bit ADPCM格式數(shù)據(jù)
G723 Raw CCITT G.723 3或5bit ADPCM格式數(shù)據(jù)
GAL Corel多媒體管理器相集
GCD Generic CADD繪畫文件(后續(xù)版本)
GCP Ground Control Point(地面控制點)文件,用于遠景數(shù)據(jù)形成圖像過程,經(jīng)常用于生成圖工程—CHIPS(copenhagen image processing system)使用這些文件
GDB InterBase數(shù)據(jù)庫文件
GDM 鈴聲、口哨聲和聲音板模塊格式
GED GEDCOM 系譜數(shù)據(jù)文件,用于記錄和交換系譜數(shù)據(jù)的流行格式;圖形環(huán)境文檔繪畫
GEM GEM元文件
GEN Ventura產(chǎn)生的文本文件
GetRight GetRight未完成的下載文件
GFC Patton&Patton FlowCharting 4 flowchart文件
GFI,GFX Genigraphics圖形鏈接表示文件
GHO Norton 克隆磁盤映像
GID Windows 95全局索引文件(包括幫助狀態(tài))
GIF CompuServe位圖文件
GIM,GIX Genigraphics圖形鏈接介紹文件
GKH Ensoniq EPS家簇磁盤映像文件
GNA Genigraphics圖形鏈接介紹文件
GNT 生成代碼,Micro Focus屬性格式里的可執(zhí)行代碼
GNX Genigraphics圖形鏈接介紹文件
GRA Microsoft Graph文件
GRD 用于遠程視景數(shù)據(jù)產(chǎn)生地圖過程的格式文件,通常應(yīng)用于形成地圖工程—CHIPS(copenhagen image processing system)使用這些文件
GRF Grapher(Golden Software公司)圖形文件
GRP 程序管理組
GSM Raw GSM 6.10音頻流;Raw“byte aligned(比特對齊的)” GSM 6.10音頻流;US Robotics語音調(diào)制解調(diào)器
GTK Graoumftracker(老)音樂模塊(MOD)文件
GT2 Graoumftracker(新)音樂模塊(MOD)文件
GWX,GWZ Cenigraphis圖形鏈接介紹文件
GZ UNIX gzip壓縮文件
常用擴展名及含義(H開頭)
H C程序頭文件
HCM IBM HCM配置文件
HCOM 聲音工具HCOM格式
HCR IBM HCD/HCM產(chǎn)品配置文件
HDF 高級計算機應(yīng)用程序本地中心(NCSA) geospatial Hierarchial數(shù)據(jù)格式文件
HED HighEdit文檔
HEL Microsoft Hellbender格式保存的游戲文件
HEX Macintosh BinHex2.0文件
HGL HP圖形語言繪圖文件
HH 映射文件,包括一些話題ID和在幫助文件系統(tǒng)中話題的映射數(shù)字—允許運行中應(yīng)用程序發(fā)送給用戶合適的上下文幫助話題
HLP 幫助文件;Date CAD Windows幫助文件
HOG Lucas Arts的Dark Forces WAD文件
HPJ Visual Basic幫助工程
HPP C++程序頭文件
HQX Macintosh BinHex 4.0文件
HST 歷史文件
HT HyperTerminal(超級終端)
HTM,HTML 超文本文檔
HTT Microsoft超文本模板
HTX 擴展HTML模板
HXM Descent2 HAM文件擴展
常用擴展名及含義(I開頭)
ICA Citrix文件
ICB Targa位圖文件
ICC Kodak打印機格式文件
ICL 圖標庫文件
ICM 圖形顏色匹配配置文件
ICO Windows圖標
IDB MSDev中間層文件
IDD MIDI設(shè)備定義
IDF MIDI設(shè)備定義(Windows 95需要的文件)
IDQ Internet數(shù)據(jù)查詢文件
IDX Microsoft FoxPro相關(guān)數(shù)據(jù)庫索引文件;Symantec Q&A相關(guān)數(shù)據(jù)庫索引文件;Microsoft Outlook Express文件
IFF 交換格式文件;Amiga ILBM
IGES 初始圖形交換說明文件
IGF 插入系統(tǒng)元文件
IIF QuickBooks for Windows交換文件
ILBM 位圖圖形文件
IMA WinImage磁盤映像文件
IMG GEM映像
IMZ WinImage壓縮磁盤映像文件
INC 匯編語言或動態(tài)服務(wù)器包含文件
INF 信息文件
INI 初始化文件;MWave DSP Synth的“nwsynth.ini” GMS安裝;Cravis Ultrasound bank安裝
INP Oracle 3.0版或早期版本的表單源代碼
INRS INRS遠程通信聲頻
INS InstallShield安裝腳本;X-Internet簽字文件;Ensoniq EPS字簇設(shè)備;Cell/ⅡMAC/PC抽樣設(shè)備
INT 中間代碼,當(dāng)一個源程序經(jīng)過語法檢查后編譯產(chǎn)生一個可執(zhí)行代碼
IOF Findit文檔
IQY Microsoft Internet查詢文件
ISO 根據(jù)ISD 9660有關(guān)CD-ROM文件系統(tǒng)標準列出CD-ROM上的文件
ISP X-Internet簽字文件
IST 數(shù)字跟蹤設(shè)備文件
ISU InstallShield卸裝腳本
IT 脈沖跟蹤系統(tǒng)音樂模塊(MOD)文件
ITI 脈沖跟蹤系統(tǒng)設(shè)備
ITS 脈沖跟蹤系統(tǒng)抽樣,Internet文檔位置
IV Open Inventor中使用的文件格式
IVD 超過20/20微觀數(shù)據(jù)維數(shù)或變量等級文件
IVP 超過20/20的用戶子集配置文件
IVT 超過20/20表或集合數(shù)據(jù)文件
IVX 超過20/20微數(shù)據(jù)目錄文件
IW Idlewild屏幕保護程序
IWC Install Watch文檔
常用擴展名及含義(J開頭)
J62 Ricoh照相機格式
JAR Java檔案文件(一種用于applet和相關(guān)文件的壓縮文件)
JAVA Java源文件
JBF Paint Shop Pro圖像瀏覽文件
JFF,JFIF,JIF JPEG文件
JMP SAS的JMPDiscovery表格統(tǒng)計文件
JN1 Epic MegaGames的Jill of the Jungle數(shù)據(jù)文件
JPE,JPEG,JPG JPEG圖形文件
JS javascript源文件
JSP HTML網(wǎng)頁,其中包含有對一個Java servlet的參考
JTF JPEG位圖文件
常用擴展名及含義(K開頭)
K25 Kurzweil 2500抽樣文件
KAR 卡拉OK MIDI文件(文本+MIDI)
KDC Kodak光增強器
KEY DataCAD圖標工具條文件
KFX KoFak Group 4圖像文件
KIZ Kodak數(shù)字明信片文件
KKW RoboHELP幫助工程索引設(shè)計器中與主題無關(guān)的K開頭的所有關(guān)鍵字
KMP Korg Trinity KeyMap文件
KQP Konica照相機本地文件
KR1 Kurzweil 2000抽樣(多軟驅(qū))文件
KRZ Kurzweil 2000抽樣文件
KSF Korg Trinity抽樣文件
KYE Kye游戲數(shù)據(jù)
常用擴展名及含義(L開頭)
LAB Visual dBASE標簽文件
LBM Deluxe Paint位圖文件
LBT,LBX Microsoft FoxPro標簽文件
LDB Microsoft Access加鎖文件
LDL Corel Paradox分發(fā)庫
LEG Legacy文檔
LES Logitech娛樂系統(tǒng)游戲配置文件(與REC文件一樣)
LFT 3D Studio(DOS)放樣文件
LHA LZH更換文件后綴
LIB 庫文件
LIN DataCAD線型文件
LIS 結(jié)構(gòu)化查詢報告(SQR)程序產(chǎn)生的輸出文件
LLX Laplink交換代理
LNK Windows快捷方式文件
LOG 日志文件
LPD Helix Nut和Bolt文件
LRC Intel可視電話文件
LSL Corel Paradox保存的庫文件
LSP AutoLISP、CommonLISP和其他LISP語言文件
LST 列表文件
LU ThoughtWing庫單元文件
LVL Parallax Software的 Miner Descent/D2 Level擴展
LWLO Lightwave分層對象文件
LWOB Lightwave對象文件
LWP Lotus WordPro 96/97文件
LWSC Lightwave視景文件
LYR DataCAD層文件
LZH LH ARC壓縮檔案
LZS Skyroads數(shù)據(jù)文件
常用擴展名及含義(M開頭)
M1V MPEG相關(guān)文件(MIME“mpeg”類型)
M3D Corel Motion 3D動畫文件
M3U MPEG URL(MIME聲音文件)
MAC MacPaint圖像文件
MAD Microsoft Access模塊文件
MAF Microsoft Access表單文件
MAG 在一些日本文件中發(fā)現(xiàn)的圖形文件格式
MAGIC 魔力郵件監(jiān)視器配置文件
MAK Visual Basil或Microsoft Visual C++工程文件
MAM Microsoft Access宏
MAN UNIX手冊頁輸出
MAP 映射文件;Duke Nukem 3D WAD游戲文件
MAQ Microsoft Access查詢文件
MAR Microsoft Access報表文件
MAS Lotus Freelance Graphics Smart Master文件
MAT Microsoft Access表;3D Studio MAX材料庫
MAUD MAUD抽樣格式
MAX Kinetx的3DStudio MAX文件;該格式用于一個3D場景文件;Paperport文件;OrCAD設(shè)計文件
MAZ Hover迷路數(shù)據(jù);Division的dVS/dVISE使用的文件格式
MB1 Apogee Monster Bash數(shù)據(jù)文件
MBOX Berkeley Unix郵箱格式
MBX Microsoft Outlook保存email格式;Eudora郵箱
MCC Dailerl0呼叫卡
MCP Metrowerks CodeWarrior工程文件
MCR DataCAD鍵盤宏文件
MCW Microsoft Word的Macintosh文檔
MDA Microsoft Access內(nèi)抽入器;Microsoft Access 2.0版及其后續(xù)版本的工作組事件
MDB Microsoft Access數(shù)據(jù)庫
MDE Microsoft Access MDE文件
MDL 數(shù)字跟蹤器音樂模塊(MOD)文件;Quake模 塊文件
MDN Microsoft Access空數(shù)據(jù)庫模板
MDW Microsoft Access工作組文件
MDZ Microsoft Access向?qū)0逦募?
MED 音樂編輯器,OctaMED音樂模塊(MOD)文件
MER 電子表格/數(shù)據(jù)庫數(shù)據(jù)交換格式;FileMaker、Excel及其他軟件能識別
MET 表示管理器元文件
MFG Pro/ENGINEER制造文件
MGF 在材料與幾何學(xué)里的文件格式
MHTM,MHTML MHTML文檔(MIME)
MI 雜項
MIC Microsoft Image Composer文件
MID MIDI音樂
MIF Adobe FramMaker交換格式
MIFF 與機器無關(guān)格式文件
MIM,MIME,MME Internet郵件擴展格式的多用途文件,經(jīng)常作為發(fā)送e-mail時在AOL里附件而創(chuàng)建的文件;在一個多區(qū)MIM文件里的文件能用WinZip或其他類似程序打開
MLI 3D Studio的材料庫格式文件
MMF Meal Master格式;一個處方類格式;Microsoft郵件文件
MMG 超過20/20表或集會數(shù)據(jù)文件
MMM Microsoft多媒體電影
MMP Mindmapor Mind Manager文件
MN2 Descent2任務(wù)文件
MND,MNI Mandelbort for Windows
MNG 多映像網(wǎng)絡(luò)圖形
MNT,MNX Microsoft FoxPro菜單文件
MNU Visual dBASE菜單文件;Intertel Systems Interact菜單文件
MOD Fast Tracker、Star Trekker、Noise Tracker(等等)音樂模塊文件;Microsoft多計劃電子表格;Amiga/PC磁道文件
MOV QuickTime for Windows電影
MP2 第二層MPEG音頻文件
MP3 第三層MPEG音頻文件
MPA MPEG相關(guān)文件,MIME“mpeg類型”
MPE,MPEG,MPG MPEG動畫文件
MPP Microsoft工程文件;CAD繪圖文件格式
MPR Microsoft FoxPro菜單(已編譯)
MRI MRI掃描文件
MSA 魔術(shù)陰影檔案
MSDL Manchester的場景描述語言
MSG Microsoft郵件消息
MSI Windows 安裝器包
MSN Microsoft網(wǎng)絡(luò)文檔;Descent Mission文件
MSP Microsoft Paint(畫圖)位圖文件;Windows Installer路徑文件
MST Windows 安裝器傳輸文件
MTM Multi 跟蹤器音樂模塊(MOD)文件
MUL Ultima在線
MUS 音樂
MUS10 Mus10聲音
MVB Microsoft多媒體查看器文件
MWP Lotus WordPro 97 Smart Master文件
常用擴展名及含義(N開頭)
NAP NAP元文件
NCB Microsoft Developer Studio文件
NCD Norton改變目錄
NCF NetWare命令文件;Lotus Notes內(nèi)部剪切板
NDO 3D 低多邊形建模器,Nendo
netCDF 網(wǎng)絡(luò)公用數(shù)據(jù)表單
NFF 中性文件格式
NFT NetObject Fusion模板文件
NIL Norton光標庫文件(EasyIcons-兼容)
NIST NIST Sphere聲音
NLB Oracle 7數(shù)據(jù)
NLM NetWare可裝載模塊
NLS 用于本地化的國家語言支持文件(例如,Uniscape)
NLU Norton Live Update e-mail 觸發(fā)器文件
NOD NetObject Fusion文件
NSF Lotus Notes數(shù)據(jù)庫
NSO NetObject Fusion文檔文件 t多媒體查看器文件
MWP Lotus WordPro 97 Smart Master文件
NST Noise Tracker音樂模塊(MOD)文件
NS2 Lotus Notes數(shù)據(jù)庫(第二版)
NTF Lotus Notes數(shù)據(jù)庫模板
NTX CA-Clipper索引文件
NWC Noteworthy Composer歌曲文件
NWS Microsoft Outlook Express新聞消息(MIME RFC822)
常用擴展名及含義(O開頭)
O01 臺風(fēng)聲音文件
OBD Microsoft Office活頁夾
OBJ 對象文件
OBZ Microsoft Office活頁夾向?qū)?
OCX Microsoft對象鏈接與嵌入定制控件
ODS Microsoft Outlook Express郵箱文件
OFF 3D 網(wǎng)狀物對象文件格式
OKT Oktalyzer音樂模塊(MOD)文件
OLB OLE對象庫
OLE OLE對象
OOGL 面向?qū)ο髨D形庫
OPL 組織者編程語言源文件——Psion/Symbian
OPO OPL輸出可執(zhí)行文件
OPT Microsoft Developer Studio文件
OPX OPL擴展DLL(動態(tài)鏈接庫)
ORA Oracle 7 配置文件
ORC Oracle 7腳本文件
ORG Lotus Organ
郭慧錦 賈國鋒 馬飛飛 張茜
(全國地質(zhì)資料館)
摘要 本文在描述雙層PDF及OCR技術(shù)特點及應(yīng)用前景基礎(chǔ)上,探討了地質(zhì)資料數(shù)字化圖文數(shù)據(jù)雙層PDF轉(zhuǎn)換的意義;提出了轉(zhuǎn)換方法的選擇,并詳細介紹了OCR數(shù)字加工系統(tǒng),以及提高識別率的方法;最后提出了雙層PDF在地質(zhì)資料館建設(shè)中的意義。
關(guān)鍵詞 雙層PDF OCR識別率
當(dāng)前,地質(zhì)資料館藏機構(gòu)都在加緊開展數(shù)字化工作。截至2013年底,全國已有20多個省級資料館完成館藏資料的數(shù)字化工作,全國地質(zhì)資料館的成果地質(zhì)資料數(shù)字化工作也接近尾聲,所形成的海量數(shù)據(jù)已成為地質(zhì)資料信息社會化服務(wù)重要數(shù)據(jù)資源。此類數(shù)字化數(shù)據(jù)是靜態(tài)的,有利于閱覽使用,但無法進行全文檢索,也不利于進一步分析處理。因此,在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,開展OCR識別,使之轉(zhuǎn)化成雙PDF文件,實現(xiàn)靜態(tài)向動態(tài)的轉(zhuǎn)變,建立全文數(shù)據(jù)庫,完成對地質(zhì)資料的全文信息的檢索,成為地質(zhì)資料館藏機構(gòu)推進資料數(shù)字化工作。
1 關(guān)于雙層 PDF與OCR技術(shù)
雙層PDF是在掃描數(shù)據(jù)的基礎(chǔ)上通過OCR識別生成的可檢索的PDF文件,即上層是原始圖像,下層是識別結(jié)果,且位置上下一一對應(yīng)。雙層PDF文件不僅可以100%保留原始版面效果,而且支持選擇、復(fù)制、檢索等功能,這樣的PDF文件最后可以存儲在光盤、硬盤或磁盤陣列中,并通過建立索引數(shù)據(jù)庫進行科學(xué)的管理。
OCR(Optical Character Recognition),即光學(xué)字符識別,是指電子設(shè)備(如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程。即對文本資料進行掃描,然后對圖像文件進行分析處理,獲取文字及版面信息的過程。隨著計算機網(wǎng)絡(luò)飛速發(fā)展,信息電子化已經(jīng)成為一個時代必然趨勢。文字作為信息中最重要、最集中的載體,其電子化進程顯得尤為重要。而OCR技術(shù)則是文字電子化過程中最重要的環(huán)節(jié),它改變了傳統(tǒng)的紙介質(zhì)資料輸入的概念。通過OCR技術(shù),用戶可以將通過攝像機、掃描儀等光學(xué)輸入方式得到的報刊、書籍、文稿、表格等印刷品的圖像信息轉(zhuǎn)化為可以供計算機識別和處理的文本信息。因此,與傳統(tǒng)的手工錄入方式相比,OCR技術(shù)大大提高了人們進行資料存儲、檢索、加工的效率。
2 應(yīng)用現(xiàn)狀
PDF正在世界各國政府、金融財務(wù)、法律、工程技術(shù)、醫(yī)療等諸多部門獲得廣泛的應(yīng)用,并已成為政府、學(xué)術(shù)部門等單位標準的現(xiàn)代化公文格式規(guī)范,所以PDF電子格式文檔將是未來檔案部門收藏的主體。而雙層PDF的出現(xiàn)有效解決了識別成本和閱讀利用的矛盾,是一種較有潛力的資源格式。國外的OCR技術(shù)應(yīng)用相對成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陸續(xù)展開了這方面的研究,在他們的產(chǎn)品中綁定了OCR技術(shù)。
如今,OCR技術(shù)在我國的應(yīng)用也極為廣泛。信息檢索技術(shù)研究,即雙層PDF檢索技術(shù)研究,中國“863”計劃在2008年以前已經(jīng)開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行了統(tǒng)一測試評測。在此基礎(chǔ)上,國內(nèi)逐步建立了以數(shù)字圖書館、數(shù)字檔案館、數(shù)字報刊、數(shù)字校園網(wǎng)等一系列數(shù)字化為基礎(chǔ)的實施案例,例如新聞出版總署、外聯(lián)部、共青團中央等機關(guān)文獻全文數(shù)據(jù)庫;《中國青年》75年、《新華文摘》20年等期刊全文數(shù)據(jù)庫。國家圖書館早在1999年就成立了“國家圖書館文獻數(shù)字化中心”,對各類館藏文獻進行數(shù)字化加工和OCR識別,在此基礎(chǔ)上形成書目型書庫、題錄型數(shù)據(jù)庫和全文型數(shù)據(jù)庫三大類,逐漸成為我國網(wǎng)上信息資源的中心樞紐。
隨著我國信息化建設(shè)全面普及,OCR技術(shù)的應(yīng)用前景更加廣闊,數(shù)字圖書館、數(shù)字檔案館、數(shù)字資料館等概念的提出也使OCR在紙質(zhì)檔案數(shù)字化過程中越來越發(fā)揮其獨特的作用,不僅節(jié)省了人力物力,更使檔案信息資源的利用價值達到最大化,能夠更好地服務(wù)于民。
3 數(shù)字化數(shù)據(jù)雙層PDF轉(zhuǎn)換的意義
3.1 是地質(zhì)資料信息化建設(shè)的重要內(nèi)容
隨著社會信息化程度的提高,人們對信息資源的依賴程度也越來越高,對高效率的檔案資源管理、檢索利用的需求也越來越迫切。數(shù)字化是信息化建設(shè)的重要內(nèi)容,而信息化建設(shè)的核心是資源建設(shè)。資源建設(shè)包括三大任務(wù):一是館藏紙質(zhì)資料的掃描數(shù)字化與目錄數(shù)據(jù)庫建設(shè);二是電子文件的歸檔與管理;三是全文數(shù)據(jù)庫和全文檢索體系建設(shè)。根據(jù)各資料館數(shù)字化工作進展,考慮到用戶的利用需求,若要得到真正文本形態(tài)的電子信息,使資料數(shù)字化工作更加有效,更加徹底,最大限度拓寬用戶利用面,就需要應(yīng)用OCR技術(shù)進行掃描柵格文件的雙層PDF轉(zhuǎn)換,進而開展地質(zhì)資料全文數(shù)據(jù)庫建設(shè)和全文檢索工作。
3.2 是地質(zhì)資料實現(xiàn)全文檢索與全文數(shù)據(jù)庫建設(shè)的前提
實踐證明,基于雙層PDF文檔的全文檢索,有效地提高了查詢利用效率。它通過對檔案數(shù)據(jù)庫的數(shù)據(jù)和雙層PDF文檔的Text層建立索引,查詢時可以不訪問數(shù)據(jù)庫,有效減輕數(shù)據(jù)庫和系統(tǒng)的壓力。至少可以支持1000萬級的數(shù)據(jù),毫秒級的查詢時間,每秒上千人的并發(fā)訪問,從而實現(xiàn)大容量、高速度的目標,并且可以適應(yīng)Linux和Windows平臺,支持多種數(shù)據(jù)庫接口。它具備通用搜索引擎的構(gòu)架和功能,可以對用戶的輸入進行分詞,可以進行多關(guān)鍵字搜索、關(guān)鍵詞組合搜索,用戶友好;同時能夠根據(jù)客戶的需求進行用戶的數(shù)據(jù)挖掘,提高檔案全文檢索系統(tǒng)的價值。
3.3 是現(xiàn)代化數(shù)據(jù)中心標準化建設(shè)的前提
建設(shè)現(xiàn)代化的數(shù)據(jù)中心首先要實現(xiàn)電子文件存儲結(jié)構(gòu)標準化,即建立一個通用性強、應(yīng)用廣泛的電子文件信息存儲和交換格式?;赑DF格式已經(jīng)作為電子文件管理中電子文件長期保存格式的最新標準在國際上全面實施,且具有兼容性、原始記錄性強,安全控制策略完善等優(yōu)點,是電子文件長期保存的最佳選擇。所以進行館藏數(shù)字化數(shù)據(jù)PDF轉(zhuǎn)換勢在必行。
4 雙層PDF轉(zhuǎn)換方法
4.1 目前常見的雙層PDF轉(zhuǎn)換方法
目前國內(nèi)雙層PDF的轉(zhuǎn)換技術(shù)已經(jīng)相對成熟,從現(xiàn)有技術(shù)條件下來看,大體可分為以下3種:
4.1.1 軟件轉(zhuǎn)換
由目前市場上較流行的 Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(可以單獨顯示文本層)、清華文通TH-OCR XP8(識別率較高)、漢王文本王5800(版面識別較好,純中文識別率高)、尚書七號OCR等轉(zhuǎn)換程序,可以經(jīng)OCR識別處理后直接生成雙層PDF文件,速度快,效率高。但識別率和紙質(zhì)資料原件(如印刷方式、清晰度、紙張質(zhì)量等)及操作人員技術(shù)水平成正比。如果紙質(zhì)原件質(zhì)量好,識別率相對就高;質(zhì)量差,識別率就相對較低。
4.1.2 流程加工
根據(jù)相關(guān)技術(shù)要求,對圖像進行全新的OCR識別流程加工處理,重新生成PDF文件,具有文字正確率高、文字定位準確等特點。這種方式相當(dāng)于全流程化制作雙層PDF文件,工作量大,耗時長,費用高。
4.1.3 識別重構(gòu)
重新生成PDF文件,實現(xiàn)版面字體、字號、顏色的恢復(fù)和重構(gòu)。文字正確率高,頁面清晰,但和原版圖差異較大,主要在圖書方面應(yīng)用較多。
4.2 地質(zhì)資料雙層PDF轉(zhuǎn)換
全國館于2011年開始在掃描數(shù)字化基礎(chǔ)上開展雙層PDF的轉(zhuǎn)換試驗工作,主要運用第一種方法進行軟件轉(zhuǎn)換,即經(jīng)過軟件自動OCR處理后直接形成雙層PDF文件。由于地質(zhì)資料不同于普通的文書檔案,紙張樣式和印刷方式多樣,手寫和老舊資料多,地層、數(shù)學(xué)等特殊符號多等特點,給OCR自動識別帶來了困難,單一的軟件識別并不能滿足全文檢索90%以上識別率的要求。
在轉(zhuǎn)換試驗基礎(chǔ)上我們得到以下結(jié)論:
1)地質(zhì)資料本身多種多樣,實際的識別率主要受印刷質(zhì)量、形成年代等因素影響,老舊資料、紙質(zhì)質(zhì)量差的資料識別率普遍較低;受執(zhí)筆人書寫習(xí)慣及書寫清晰度的影響,手寫文檔的識別準確率一般在30%以下;油印文檔識別準確率一般在50%以下;打印、鉛印和膠印文檔識別率較高,一般能達90%以上。無論在哪種類型的文檔中,標點的識別率都很低,地層和數(shù)學(xué)符號及其他特殊符號的識別率幾乎為零。
2)目前識別技術(shù)無法達到100%識別,必須根據(jù)實際需求對照紙質(zhì)檔案對初次識別結(jié)果進行人工校對才能滿足全文檢索需求。
3)地質(zhì)資料掃描文件數(shù)量多、容量大,轉(zhuǎn)換速度受計算機反應(yīng)速度影響,大批量轉(zhuǎn)換和識別需選擇高配置計算機,且批量轉(zhuǎn)換和人工識別耗時長,耗人工多,需專項經(jīng)費支持開展工作。
4.3 OCR數(shù)字加工系統(tǒng)的引入與功能簡介
經(jīng)過對目前國內(nèi)雙層PDF轉(zhuǎn)換方法的對比,結(jié)合地質(zhì)資料情況復(fù)雜的特點,以及數(shù)據(jù)測試結(jié)果研究,建議地質(zhì)資料的雙層PDF轉(zhuǎn)換主要采用軟件識別和流程加工相結(jié)合的方法,即采用OCR數(shù)字加工系統(tǒng),可以保證高效率、高質(zhì)量地完成雙層PDF轉(zhuǎn)換。該系統(tǒng)主要包含以下幾個主要流程:
圖1 OCR數(shù)字加工系統(tǒng)示意圖
1)圖像處理。為提高識別率,對圖像進行“消藍去污”的處理,去掉圖像上影響識別率的噪音,如麻點、下劃線等,由圖像質(zhì)量控制程序自動監(jiān)測圖像處理質(zhì)量。
2)版面分析。自動進行版面理解并定位,判別劃框區(qū)域是橫排文本區(qū)、豎排文本區(qū)、表格區(qū)還是圖像區(qū),并對不同屬性的區(qū)域以不同顏色的線框標識出來。自動版面分析在后臺運行,操作人員可在前臺進行確認,必要時對自動版面分析結(jié)果加入手工干預(yù)。
3)識別。把文字圖像轉(zhuǎn)化為計算機文字內(nèi)碼,可以識別印刷體和手寫體中文(包括簡體字和繁體字)、中英文混排文字、表格,識別出來的文字內(nèi)碼可以是GB碼、BIG5碼、GBK碼或者Unicode碼。識別過程在后臺運行。
4)縱向校對。具有很強的查錯糾錯能力,是將一個或若干個圖像中識別成同一個字的文字圖像列在一起顯示,并以突出顏色標出可疑字,便于操作員發(fā)現(xiàn)錯誤和修改。
5)橫向校對。是傳統(tǒng)的人工校對方法,操作員直接對比識別結(jié)果文本和圖像,以發(fā)現(xiàn)識別錯誤文字。系統(tǒng)自動調(diào)出文字對應(yīng)的圖像,進行比對。同時,以醒目的顏色標出識別可信度不離的文字。
6)版面還原。將識別并修改好的文本還原成跟掃描文稿版面的布局一樣、可以供計算機閱讀和查詢檢索的RTF、PDF、HTML、SGML/XML格式的數(shù)字文檔。
7)數(shù)據(jù)入庫。版面還原數(shù)字文檔的保存。
4.4 提立OCR識別率的方法
利用OCR數(shù)字加工系統(tǒng)生成的雙層PDF,文本層差錯率最低可到萬分之一,可呈現(xiàn)原版底紋和色彩風(fēng)貌,可進行全文檢索和復(fù)制引用,且檢索信息可準確定位到字符,便于快速查找目標信息。為了減輕橫向校對即人工校對工作量,提高工作效率,就要從根本上提高識別率。經(jīng)過試驗,以下幾個方法可以提高柵格文件OCR識別率。
1)圖像色彩設(shè)定。雖然灰度或彩色模式可以最大限度還原紙質(zhì)資料原貌,是我們掃描數(shù)字化的首選,但是這兩種色彩模式會增大影響識別率的背景噪音。若僅做文字識別及一般黑白插圖選取,建議可將掃描程序的圖像色彩設(shè)定設(shè)置為黑白,增大識別率。不過最終圖像色彩的設(shè)定還要按照各類具體工作的規(guī)范要求來設(shè)置。
2)分辨率設(shè)置。我們都知道掃描分辨率設(shè)置越低,掃描速度越快,但同時也導(dǎo)致圖像質(zhì)量差,其文字識別準確率低。反之分辨率高,掃描速度慢,但文字識別準確率高。但這又不是絕對的,因為分辨率設(shè)置得太高后,紙張上的微小瑕疵也可能被認作標點符號或漢字等,文字識別準確率反而會有所降低。經(jīng)反復(fù)測試,分辨率設(shè)為300dpi,是掃描速度及文字識別準確率的最佳平衡點。
3)圖像處理。這里圖像處理是指掃描輸出圖像前的傾斜校正和去污等。傾斜校正是為了調(diào)整文字方向使之正向,這樣才能對OCR識別有所幫助。
雙層PDF轉(zhuǎn)換完成以后,在此基礎(chǔ)上可以實現(xiàn)資料管理系統(tǒng)與PDF文件的掛接,對資料數(shù)據(jù)內(nèi)容及其元數(shù)據(jù)等相關(guān)信息建立聯(lián)系并形成數(shù)據(jù)包;然后通過調(diào)用全文數(shù)據(jù)庫原數(shù)據(jù)創(chuàng)建索引文件,最后實現(xiàn)全文檢索。通過全文數(shù)據(jù)庫及全文檢索的實現(xiàn),得到高查全率和查準率,大幅度提高地質(zhì)資料的利用價值,促進地質(zhì)資料編研工作,為地質(zhì)資料信息聚合的研究和深層次服務(wù)奠定了基礎(chǔ)。
參考文獻
[1]許呈辰.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用[J].檔案管理,2011(1).
[2]徐永芳.OCR技術(shù)在檔案數(shù)字化過程中的應(yīng)用[J].藝術(shù)科技,2011(2).
[3]張旋.OCR技術(shù)研究進展及前瞻[J].科學(xué)技術(shù),2010(4).
[4]郭金光.雙層PDF技術(shù)及在檔案數(shù)字化中的應(yīng)用[J].新觀察,2013(1).
[5]劉家真.文件保存格式與PDF文檔[J].檔案學(xué)研究,2002(2).
廣西寶之星文化傳媒有限公司不是騙人的。根據(jù)查詢相關(guān)公開信息,廣西寶之星文化傳媒有限公司位于南寧市青秀區(qū)民族大道131號南寧會展,航洋城購物中心北廣場B2號商鋪,登記機關(guān)是南寧市青秀區(qū)市場監(jiān)督管理局,經(jīng)過工商部門認證,工商注冊號(PK):45011100088254,社會信用代碼(PK):91450100MA5KBKE675。經(jīng)營范圍設(shè)計、制作、代理、發(fā)布國內(nèi)各類廣告。影視制作(憑許可證在有效期內(nèi)經(jīng)營,具體項目以審批部門批準的為準),音頻制作,動畫制作。圖文設(shè)計制作。新媒體技術(shù)研發(fā)。網(wǎng)站設(shè)計制作、虛擬現(xiàn)實技術(shù)研發(fā)。軟件設(shè)計與開發(fā)。計算機軟硬件的技術(shù)開發(fā)、技術(shù)服務(wù)。銷售:計算機硬件、影視器材、辦公用品及機電設(shè)備。影視器材的銷售及租賃。文化藝術(shù)表演策劃。舞臺搭建(憑資質(zhì)證經(jīng)營)與造型策劃。企業(yè)形象策劃。市場營銷策劃。企業(yè)營銷策劃。賽事活動策劃。會務(wù)服務(wù)。展覽展示服務(wù)。禮儀服務(wù)。攝影服務(wù)?;ヂ?lián)網(wǎng)建設(shè)與維護服務(wù)。文化教育咨詢。對教育業(yè)的投資。翻譯服務(wù)。教育設(shè)施開發(fā)、推廣。檔案整理、掃描。檔案數(shù)字化處理及技術(shù)服務(wù)。(依法須經(jīng)批準的項目,經(jīng)相關(guān)部門批準后方可開展經(jīng)營活動)。