電 話:18937133779
網(wǎng) 址:http://www.tpiin.com
郵 箱:zboao@qq.com
建設(shè)數(shù)字檔案館的目的,除了適應(yīng)現(xiàn)代信息技術(shù)發(fā)展的環(huán)境而信息化外,“數(shù)字檔案館的建設(shè)的最終目的不是保存,而是以有效利用為目的”
[1]“數(shù)字檔案館信息服務(wù)是提高檔案信息資源利用率,實現(xiàn)檔案信息價值的直接手段。”
[2]“建設(shè)數(shù)字檔案館的目的之一是直接向用戶提供所需的最終信息,而不只是獲得信息的線索,即二次信息,如目錄、索引等,因而沒有最終全文信息的系統(tǒng)也不是數(shù)字檔案館?!?/p>
[3]“檔案信息數(shù)字化的關(guān)鍵內(nèi)容是檔案全文數(shù)字化,只有將檔案全文信息公布于網(wǎng)上,才能真正發(fā)揮檔案信息網(wǎng)絡(luò)的現(xiàn)實功能,構(gòu)建現(xiàn)代意義上的數(shù)字檔案館,使檔案用戶在足不出戶的情況下借助網(wǎng)絡(luò)查閱檔案,獲取檔案信息?!?/p>
[4]“理想的檔案全文庫必須具備對超大規(guī)模分布式多媒體檔案信息庫的有序組織和跨庫快速查詢功能?!薄澳軌虬凑沾_定的知識結(jié)構(gòu)有效組織大量分布式的、不同類型、不同數(shù)據(jù)結(jié)構(gòu)的數(shù)字化檔案信息庫,并為之建立有效的檢索系統(tǒng)?!薄鞍〝?shù)據(jù)庫檢索技術(shù)、全文檢索技術(shù)、圖像內(nèi)容查詢技術(shù)以及數(shù)字化音頻和視頻信息的查詢技術(shù)等?!?/p>
[5]“對于社會用戶,數(shù)字檔案館實現(xiàn)檔案全文檢索,遠程借閱和查看,可以將檔案信息發(fā)布到互聯(lián)網(wǎng)及其他公共網(wǎng)上,與檔案館Web網(wǎng)站信息進行集成,以建立信息服務(wù)與共享的平臺,供用戶查詢?yōu)g覽。”
[6]“檢索功能是數(shù)字檔案館發(fā)展的基礎(chǔ)和關(guān)鍵”,
[7]“數(shù)字檔案館采用帶有先進檢索功能的全文數(shù)據(jù)庫,用戶可通過對元數(shù)據(jù)的檢索獲取檔案全文,是一種目前應(yīng)用較為普遍的方式?!?/p>
[8]通過以上的闡述,可以看出建設(shè)數(shù)字檔案館的目的是為了利用并且能夠提高利用效率,而要達到這一目的,建設(shè)檔案全文數(shù)據(jù)庫是基礎(chǔ),實現(xiàn)全文檢索是手段。檔案全文數(shù)據(jù)庫是前提,沒有檔案全文數(shù)據(jù)庫就無法實施全文檢索,沒有全文檢索就不能體現(xiàn)數(shù)字檔案館提高檔案信息資源利用率的優(yōu)越性。這樣來看檔案全文數(shù)據(jù)庫不僅是數(shù)字檔案館的基礎(chǔ),甚至是數(shù)字檔案館的核心、靈魂,而如果沒有檔案全文數(shù)據(jù)庫的數(shù)字檔案館就是失去了核心、靈魂,甚至就變得沒有意義。
然而,在實際中有一種讓人說不清的現(xiàn)象,就是建設(shè)數(shù)字檔案館中,并不十分關(guān)注檔案全文數(shù)據(jù)庫建設(shè)的問題,其表現(xiàn):一是忽略檔案全文數(shù)據(jù)庫建設(shè)。如國家檔案局的《數(shù)字檔案館建設(shè)指南》雖然指出:“數(shù)字檔案資源建設(shè)是數(shù)字檔案館建設(shè)的核心內(nèi)容”,
但是,在整部《數(shù)字檔案館建設(shè)指南》中沒有提及檔案全文數(shù)據(jù)庫建設(shè)的問題,根本沒有對檔案全文數(shù)據(jù)庫建設(shè)的要求。在國家檔案局《數(shù)字檔案館系統(tǒng)測試辦法》中也同樣沒有提及檔案全文數(shù)據(jù)庫的問題,也沒有對檔案全文數(shù)據(jù)庫建設(shè)的要求,而僅僅有對檔案目錄數(shù)據(jù)庫的要求。二是誤讀檔案全文數(shù)據(jù)庫。
在許多數(shù)字檔案館建設(shè)的地方,大都稱已建立了檔案全文數(shù)據(jù)庫,但是,也不知是不理解什么是檔案全文數(shù)據(jù)庫,還是誤解檔案全文數(shù)據(jù)庫,實際并沒有建立檔案全文數(shù)據(jù)庫,而是將檔案全文掃描圖像誤認為是檔案全文數(shù)據(jù)庫。實際只是對檔案原文進行圖像數(shù)字化掃描,生成的只是一幅幅圖像,并不能對其內(nèi)容進行直接檢索,而是通過掛接到檔案目錄數(shù)據(jù)庫,靠檢索檔案目錄來指引查閱檔案原文。這種現(xiàn)象從一些地方數(shù)字檔案館的建設(shè)費用上就可以看出來。例如,一個通過國家示范數(shù)字檔案館測試的檔案館,共投資560萬元,包括機房、軟硬件平臺、數(shù)字檔案館管理軟件、“加工檔案96779卷,建成了159萬條目錄數(shù)據(jù)庫、1085萬頁全文數(shù)據(jù)庫、36027張照片數(shù)據(jù)庫、11160分鐘的多媒體數(shù)據(jù)庫,12809條圖書資料目錄數(shù)據(jù)庫”
[9]等。一般加工一頁全文檔案(掃描、文字識別、校對)至少1元,而且年代越遠的檔案其加工成本會更高。那么,僅1085萬頁全文就需要資金1085萬,僅此一項幾乎是總投資2倍。所以,可以肯定其不是全文數(shù)據(jù)庫,而只是全文圖像數(shù)據(jù)庫,也就是無法進行檔案全文檢索的檔案信息。三是對檔案全文數(shù)據(jù)庫文字識別的標準問題。
對于檔案全文數(shù)據(jù)庫最基礎(chǔ)的紙質(zhì)檔案資源的數(shù)字化加工,檔案行業(yè)標準《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》(DA/T31—2017)根本沒有有關(guān)檔案全文文字識別的問題,該規(guī)范只對紙質(zhì)檔案數(shù)字化掃描圖像的分辨率做了規(guī)定。也就是對于檔案全文的數(shù)字化文字識別的問題根本沒有標準。對于文字識別率的問題,有專家認為:“識別率一般達到90%以上,已經(jīng)基本滿足檔案全文檢索的需要了。有的人片面追求識別率,一定要求識別率達到98%-99%的,反復(fù)校對,實際上是浪費人力物力?!?/p>
[10]實際90%的識別率對檔案全文檢索還是有相當影響的,達到98%-99%可能有些要求高,至少應(yīng)該在95-98%以內(nèi)。但是,OCR只能對現(xiàn)代正規(guī)的打印體識別率較高,對于手寫體、鋼板刻字以及打字機打字蠟紙油印的字體的識別率并不高,特別是前兩者。至于豎版的檔案就更別說了。而在市縣級檔案館保存的檔案中,現(xiàn)代正規(guī)的打印體的并不多,大部分都是后者。就像計算機的普及一樣,先省后市,然后才是縣鄉(xiāng),先經(jīng)濟發(fā)達地方,后經(jīng)濟落后地方,從手寫到鋼板刻字再到打字機打字,也是如此。
目前,大多數(shù)建成的數(shù)字檔案館其實都沒有建設(shè)檔案全文數(shù)據(jù)庫,都是只做了檔案目錄數(shù)據(jù)庫,而是將掃描的檔案全文圖像掛接到檔案目錄數(shù)據(jù)庫中,靠檢索檔案目錄來指引查閱檔案原文。這樣的檢索功能,其實不論是計算機的Windows,還是excel都能夠做到。如果,數(shù)字檔案館沒有檔案全文數(shù)據(jù)庫,而只是靠檔案目錄數(shù)據(jù)庫檢索,似乎既失去了靈魂,又白白地投入了巨資。
如果,沒有檔案全文信息的系統(tǒng)不是數(shù)字檔案館的話,那么,現(xiàn)在大多數(shù)建成的數(shù)字檔案館似乎就不是數(shù)字檔案館了。當然,這樣簡單的否定似乎并沒有意義,這種現(xiàn)象值得探討。國家檔案局的《數(shù)字檔案館建設(shè)指南》和《數(shù)字檔案館系統(tǒng)測試辦法》中沒有提及檔案全文數(shù)據(jù)庫建設(shè)的問題,也沒有對檔案全文數(shù)據(jù)庫建設(shè)的要求,應(yīng)該不是隨隨便便忽略的,應(yīng)該是有考量的,可能認為檔案目錄數(shù)據(jù)庫外掛檔案全文掃描圖像的形式就是數(shù)字檔案館,如果是這樣,那么,認為沒有檔案全文信息的系統(tǒng)不是數(shù)字檔案館的觀點就不一定正確,或者說這兩種觀點都正確,只是對檔案全文的認識不同,檔案全文掃描圖像是檔案全文,檔案全文進行文字識別的也是檔案全文,它們沒有區(qū)別。問題是它們真的沒有區(qū)別嗎?信息化的優(yōu)勢是什么?也就是數(shù)字檔案館的優(yōu)勢是什么?
數(shù)字檔案館(信息化)的優(yōu)勢是不是實現(xiàn)全文級的檢索?當然,也可能檔案達到目錄級檢索就可以了,沒有必要進行全文級的檢索。如果是這樣,數(shù)字檔案館還需要不需要這樣從軟硬件方面大量投巨資一個一個地單獨建設(shè)呢?另外的問題是面對數(shù)字檔案館不能提高檔案利用率的問題,又該如何解釋呢?是不是由于數(shù)字檔案館沒有實現(xiàn)全文級的檢索造成的呢?如果不是,那又是什么原因呢?難道檔案這種信息不適合信息化?