電 話:18937133779
網(wǎng) 址:http://www.tpiin.com
郵 箱:zboao@qq.com
2019年12月16日,檔案行業(yè)標準《紙質(zhì)檔案數(shù)字復制件光學字符識別(OCR)工作規(guī)范》(DA/T 77—2019)(以下簡稱《規(guī)范》)由國家檔案局正式發(fā)布,并將于2020年5月1日起實施。《規(guī)范》規(guī)定了紙質(zhì)檔案數(shù)字復制件光學字符識別(OCR)工作的組織、實施和管理要求,確定了開展檔案OCR工作的總體原則、工作流程、質(zhì)量規(guī)定等內(nèi)容,尤其是對歸檔章、文件處理單、公章等具有檔案特征的內(nèi)容提出了識別要求,并明確評價指標,對于引導并規(guī)范檔案OCR工作、進一步提升檔案信息化工作水平具有重要意義。
一、編制背景
檔案OCR是指通過信息技術(shù)對紙質(zhì)檔案數(shù)字圖像文件中的字符形狀進行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。一方面,檔案OCR是檔案信息化工作的重要內(nèi)容。隨著紙質(zhì)檔案數(shù)字化的普遍開展和電子檔案管理的日漸成熟,檔案OCR對于運用電子檔案管理思路推動紙質(zhì)檔案管理、實現(xiàn)紙質(zhì)檔案與電子檔案融合管理具有很強的現(xiàn)實意義。同時,檔案OCR是檔案從數(shù)字化向數(shù)據(jù)化轉(zhuǎn)化的重要步驟,是檔案數(shù)據(jù)化工作的重要環(huán)節(jié)。另一方面,檔案OCR也是提升檔案工作水平的重要手段?!兑?guī)范》第9.2條明確了OCR成果應(yīng)用的3個場景,即通過數(shù)字檔案館(室)應(yīng)用系統(tǒng)實現(xiàn)全文檢索,提高檔案信息檢索效率;輔助開展檔案自動著錄、目錄質(zhì)量核查,以及紙質(zhì)檔案數(shù)字復制件掛接準確性核查等業(yè)務(wù)工作;結(jié)合數(shù)據(jù)挖掘技術(shù)開展數(shù)據(jù)分析、知識管理、詞庫建設(shè)等工作,提出了檔案OCR工作在推動檔案工作方面的重要價值。
《規(guī)范》列入2016年檔案行業(yè)標準制修訂項目計劃,由國家檔案局檔案館(室)業(yè)務(wù)指導司、青島市檔案館起草。2017年2月,形成標準征求意見稿,向各地、各部門征求并采納意見后形成標準送審稿。2017年4月,標準送審稿通過專家評審。2019年5月,標準送審稿提交檔標會審查通過。
二、工作思路
檔案OCR不是一項孤立的工作,需要與數(shù)字檔案館(室)建設(shè)、檔案數(shù)字化工作等切結(jié)合起來實施,并遵循以下工作原則:一是檔案OCR應(yīng)當納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?,逐步實現(xiàn)常態(tài)化。二是檔案OCR應(yīng)當科學開展,以有利于實現(xiàn)檔案信息檢索和計算機輔助編目、編研開發(fā)、數(shù)據(jù)挖掘為原則。三是檔案OCR應(yīng)當基于檔案數(shù)字化工作,檔案OCR成果與紙質(zhì)檔案數(shù)字復制件之間應(yīng)建立準確、可靠的關(guān)聯(lián)關(guān)系。四是應(yīng)當采取有效的管理和技術(shù)手段,加強檔案OCR過程管理和質(zhì)量控制,確保檔案OCR過程規(guī)范、成果可靠、數(shù)據(jù)安全。五是紙質(zhì)檔案數(shù)字復制件的OCR工作,應(yīng)符合檔案相關(guān)管理和技術(shù)要求。
三、工作組織
檔案OCR工作組織主要包括機構(gòu)及人員、流程控制、工作文件與元數(shù)據(jù)要求等。
(1)機構(gòu)及人員要求
檔案OCR工作要求建立機構(gòu)配備相應(yīng)素質(zhì)和技術(shù)水平的工作人員,組織開展檔案OCR工作的統(tǒng)籌規(guī)劃、組織實施、協(xié)調(diào)管理、技術(shù)保障、安全保障、監(jiān)督檢查、成果驗收和長期保存等。《規(guī)范》建議與紙質(zhì)檔案數(shù)字化工作統(tǒng)籌配置工作機構(gòu)和人員。檔案OCR工作實行服務(wù)外包的,應(yīng)從企業(yè)性質(zhì)、股東組成、安全保、企業(yè)規(guī)模、注冊資金情況等方面嚴格審查檔案OCR服務(wù)供方的相關(guān)資質(zhì);從規(guī)章制度的建立健全程度等方面考察服務(wù)供方的管理能力,建立權(quán)責明確、覆蓋工作全過程的監(jiān)督機制和安全防范機制,確保檔案信息安全。對外聘的工作人員,應(yīng)進行安全審查,按規(guī)定進行保教育。
(2)流程控制要求
應(yīng)依據(jù)相關(guān)技術(shù)標準,對檔案OCR圖像導入、圖像預(yù)處理、比對識別、修改校正、成果整理輸出等業(yè)務(wù)環(huán)節(jié)全過程進行有效控制。應(yīng)加強對檔案OCR工作全流程的質(zhì)量管理和安全管理,建立完善的質(zhì)量、安全問題發(fā)現(xiàn)、修正機制,確保OCR成果質(zhì)量和檔案信息安全。
(3)工作文件與元數(shù)據(jù)要求
應(yīng)建立檔案OCR工作方案、技術(shù)方案、工作審批材料、流程控制材料、數(shù)據(jù)驗收材料、項目驗收報告、成果移交材料等管理工作文件,采取服務(wù)外包的還應(yīng)包括項目招標文件、投標文件、中標通知書、項目合同、保協(xié)議、操作規(guī)程、監(jiān)管記錄等,加強對檔案OCR工作的管理。應(yīng)參照相關(guān)標準,提出檔案OCR工作流程中相關(guān)元數(shù)據(jù)設(shè)計、捕獲、著錄和管理的基本要求,與對應(yīng)的紙質(zhì)檔案數(shù)字復制件管理過程元數(shù)據(jù)實施融合管理,并納入數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。
四、工作流程
檔案OCR主要包括圖像導入、圖像預(yù)處理、比對識別、修改校正、成果整理輸出5個業(yè)務(wù)環(huán)節(jié)。其中,圖像預(yù)處理包括二值化、圖像降噪、傾斜校正、圖像監(jiān)測。對比識別包括版式分析、檔案特征分析、識別與匹配。成果整理輸出包括成果整理、成果輸出、成果驗收等(如圖所示)。《規(guī)范》規(guī)定的是較為傳統(tǒng)的OCR工作流程,有條件的也可以運用機器學習(ML)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等技術(shù)開展OCR工作。
在5個業(yè)務(wù)環(huán)節(jié)中,比對識別是關(guān)鍵環(huán)節(jié),《規(guī)范》要求針對檔案特征進行分析、識別和匹配。其主要內(nèi)容包括:
檔案OCR工作流程圖
(1)歸檔章分析
要求建立歸檔章式樣庫,自動識別圖像中的歸檔章,并根據(jù)歸檔章樣式,識別出全宗號、年度、機構(gòu)、保管期限、件號、頁數(shù)等字段位置。
(2)公文要素分析
要求建立公文格式庫,可準確識別公文的版頭、主體、版記3部分,識別公章、簽章等區(qū)域,比照公文樣式,識別公文正本的級和保期限、緊急程度、發(fā)文字號、簽發(fā)人、標題、主送機關(guān)、正文、附件說明、發(fā)文機關(guān)署名、成文日期、附注、附件、抄送機關(guān)等公文要素,但份號、發(fā)文機關(guān)標志、印章、簽發(fā)人簽名章、印發(fā)機關(guān)和印發(fā)日期、頁碼等公文要素不需要識別。
(3)表格分析
要求建立單獨表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識別表格中的字段位置。對于文件處理單或發(fā)文稿紙,要求識別起草人、簽發(fā)人、起草時間、簽發(fā)時間、閱辦意見、批辦意見、辦理結(jié)果等內(nèi)容。
(4)印章分析
要求識別印章圖像位置,存儲印章圖像,建立印章名稱與印章圖像的關(guān)系庫,用于版式恢復。
五、質(zhì)量規(guī)定
《規(guī)范》從識別準確率、強抗噪能力、識別速度、版面還原度4個方面對檔案OCR質(zhì)量提出了要求(如表所示)。需要特別說明的是,在檔案OCR質(zhì)量要求中,識別速度指標與識別準確率指標應(yīng)當同時適用。
六、成果要求
(1)成果形式
《規(guī)范》要求,檔案OCR成果應(yīng)同時保存為純文本形式和雙層PDF/OFD文件形式。保存純文本形式的,應(yīng)以紙質(zhì)檔案的件或頁為單位輸出檔案OCR成果,即紙質(zhì)檔案數(shù)字復制件保存為一個文件的,檔案OCR成果保存為一個TXT文件;紙質(zhì)檔案數(shù)字復制件按收發(fā)文處理單、正文、定稿等保存為多個文件的,檔案OCR成果分別保存多個TXT文件;紙質(zhì)檔案數(shù)字復制件按頁保存為多個文件的,檔案OCR成果每頁保存一個TXT文件。保存為雙層PDF/OFD的,應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復制件版式文件格式,自動形成支持全文檢索的雙層PDF或OFD文件。
(2)保存要求
《規(guī)范》要求,以純文本形式保存的檔案OCR成果應(yīng)使用檔號作為文件名,可在存儲載體中以按照檔號構(gòu)成項逐級建立文件夾單獨保存,也可與紙質(zhì)檔案數(shù)字復制件統(tǒng)一保存。支持全文檢索的雙層PDF或OFD文件可與對應(yīng)的紙質(zhì)檔案數(shù)字復制件統(tǒng)一存儲。對于檔案OCR成果中的黨政機關(guān)公文要素,應(yīng)按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫中。
作者單位:國家檔案局
文章來源:《中國檔案》2020年第2期
圖表來源:作者提供