激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频

電子文件元數據自動(dòng)采集的原則與實(shí)施路徑研究

時(shí)間:2024-10-20 18:36:19 自動(dòng)化畢業(yè)論文 我要投稿
  • 相關(guān)推薦

電子文件元數據自動(dòng)采集的原則與實(shí)施路徑研究

  摘要:本文通過(guò)理論研究與實(shí)證分析,進(jìn)一步論證了元數據是電子文件管理的命脈,是電子文件真實(shí)性、可靠性、完整性與可用性的重要保障,是對電子文件實(shí)施前端控制和全程管理的關(guān)鍵,是實(shí)現自動(dòng)化管理和智能分析的重要基礎;同時(shí)展示了對《文書(shū)類(lèi)電子文件元數據方案》的實(shí)施與拓展,對元數據實(shí)現自動(dòng)采集的需求分析、原則與思路以及具有可操作性的研究成果。

電子文件元數據自動(dòng)采集的原則與實(shí)施路徑研究

  關(guān)鍵詞:電子文件 元數據 自動(dòng)采集

  本文系“電子文件元數據自動(dòng)采集與智能分析實(shí)證研究”的項目成果。通過(guò)探討理論架構并系統實(shí)施電子文件元數據自動(dòng)采集,實(shí)現標準化、自動(dòng)化管理,全面提升機構電子文件管理水平,同時(shí)為電子文件內容信息智能分析奠定基礎;通過(guò)智能分析研究,充分挖掘隱含在電子文件內容信息中的知識關(guān)聯(lián),深度開(kāi)發(fā),支持決策。

  一、元數據自動(dòng)采集需求分析

  元數據是描述文件背景、內容、結構及其整個(gè)管理過(guò)程的數據。不同于傳統意義上的著(zhù)錄,元數據內涵更豐富,功能更全面,要求更嚴格,不可能由檔案管理人員在文件歸檔后進(jìn)行著(zhù)錄,更不可能由形成機構文件管理人員或業(yè)務(wù)人員手工錄入。元數據需要全程規劃,需要嵌入系統,需要實(shí)時(shí)自動(dòng)采集,需要真實(shí)、動(dòng)態(tài)地再現電子文件管理的背景信息及過(guò)程信息。實(shí)現元數據自動(dòng)采集,是元數據自身管理的要求,也是形成機構實(shí)際業(yè)務(wù)的需求。

  (1)元數據管理要求

  國際標準《信息與文獻電子辦公環(huán)境中文件管理原則與功能要求》(ISO 16175 1-3)一再強調,文件管理元數據(metadata)包括“識別、認證文件和文件背景關(guān)聯(lián)等信息以及生成、管理、維護和使用文件的人員、流程和系統的信息,文件管理政策”。只有伴有界定了關(guān)鍵特征元數據的文件才是真實(shí)有效的文件,這些特征必須被清晰地記錄下來(lái)。元數據在文件捕獲點(diǎn)上對文件進(jìn)行詳細說(shuō)明,固化文件與其業(yè)務(wù)背景的關(guān)聯(lián),對文件實(shí)施管理控制。在整個(gè)生命周期中,新的元數據不斷伴隨業(yè)務(wù)的開(kāi)展、提供利用而持續增加,以長(cháng)期保證真實(shí)性、完整性、可靠性、可用性,使得對文件的管理成為可能。

  在電子文件管理系統中必須實(shí)現元數據的有效管理。電子文件管理系統(ERMS)作為專(zhuān)門(mén)用于對文件的維護和處置予以管理的系統,具有如下屬性:在背景中生成文件;管理和維護文件;依據要求的時(shí)間長(cháng)度維護文件;文件管理元數據要可以設定。

  作為描述文件背景、內容、結構及其整個(gè)管理過(guò)程的數據,元數據最大的特征是動(dòng)態(tài)性,動(dòng)態(tài)地再現文件生成、流轉、管理的全過(guò)程,在整個(gè)生命周期中為電子文件(包括由此轉化而成的電子檔案)的真實(shí)、完整、可靠、可用保駕護航。元數據的重要價(jià)值在于還原文件的背景信息,反映其所生成的政策法規和技術(shù)環(huán)境,顯示與其他文件以及業(yè)務(wù)行為責任者等的各種關(guān)系,克服電子文件虛擬存在的局限?梢(jiàn),元數據記錄和反映的這些錯綜復雜、動(dòng)態(tài)變化的信息已經(jīng)無(wú)法僅僅依靠手工進(jìn)行記錄,必須嵌入系統,由系統自動(dòng)判斷、計算與識別,實(shí)現系統自動(dòng)采集元數據是元數據自身管理的要求。

  (2)機構業(yè)務(wù)需求

  電子文件的特點(diǎn)決定了對元數據的采集必須前置,由前端形成機構伴隨業(yè)務(wù)活動(dòng)的開(kāi)展和其間文件的形成進(jìn)行采集與管理!段臅(shū)類(lèi)電子文件元數據方案》(以下簡(jiǎn)稱(chēng)《元數據方案》)給出了88項元數據元素,其中80%需要形成機構進(jìn)行采集,而且過(guò)程性元數據需要反復著(zhù)錄,側重記錄電子文件生成的技術(shù)環(huán)境與業(yè)務(wù)過(guò)程信息,所涉問(wèn)題難度大且較復雜。特別是《元數據方案》中規定的一些元數據項存在“宏觀(guān)”或“籠統”的情況,比如元數據中“日期”項,如不結合文件生成、運轉、處置的流程予以細化,則無(wú)法確定采集節點(diǎn)和采集方式;僅從文件生成流程來(lái)看,面臨著(zhù)起草、會(huì )商、審核、簽發(fā)等諸多“日期”,哪些日期最為關(guān)鍵、哪些應作為元數據予以采集、在文件生命周期中是否重復元數據以及如何采集等,都需要結合機構業(yè)務(wù)流程和相關(guān)規范深入研究,并實(shí)施精細化管理。對文件形成機構(即業(yè)務(wù)機構)而言,因為元數據管理而徒增繁重手工著(zhù)錄工作量,造成人力物力財力的巨大浪費,進(jìn)而影響機構工作效率與績(jì)效。需要指出的是,元數據并不是獨立的,而是與機構自身電子文件管理基礎密不可分。沒(méi)有科學(xué)的電子文件、檔案一體化全程管理流程,沒(méi)有完備的電子文件元數據管理功能要求,便無(wú)法構建完善的元數據管理方案。因此,本文的研究?jì)热菔蔷C合性的,從狹義來(lái)講是電子公文元數據自動(dòng)采集方案;從廣義來(lái)講是機構電子文件管理方案。

  二、元數據自動(dòng)采集原則

  (1)基于檔案管理的基本原則

  1.來(lái)源原則。元數據采集雖然通過(guò)對電子文件信息加以采集、提煉、分析和組織,揭示文件、檔案的內容及其產(chǎn)生規律,但是仍然以尊重檔案的本質(zhì)屬性和規律為前提,在采集時(shí)注重體現電子文件來(lái)源,使機構中同一來(lái)源的電子文件通過(guò)元數據采集得到集中反映,使元數據與檔案的來(lái)源相聯(lián)系,以此通過(guò)元數據揭示同一來(lái)源的檔案、文件之間的各種聯(lián)系,為檔案、文件的理解與利用提供來(lái)源方面的背景信息。

  2.有機聯(lián)系原則。有機聯(lián)系原則也是檔案管理的基本原則,是指系統中文件及組成系統的諸要素之間需保持時(shí)空上的相互聯(lián)系。由于電子文件是以二進(jìn)制代碼的形式分散存在于計算機之中,因此保持文件之間的有機聯(lián)系顯得尤為重要,而要保持這種有機聯(lián)系,必須依賴(lài)于元數據。以此原則為導向的元數據采集實(shí)質(zhì)上就是電子文件信息的系統化增值過(guò)程,其目的是把分散的文件信息轉化為互相聯(lián)系、系統的信息流,形成更高級的信息產(chǎn)品,滿(mǎn)足用戶(hù)的特定利用需求。通過(guò)元數據采集與管理過(guò)程,使大量文件特征信息加以系統化和組織化,有效控制檔案、文件信息揭示的數量和質(zhì)量,克服檔案、文件查詢(xún)和利用的困難,提高檢索效率,節省查詢(xún)成本和精力耗費,實(shí)現價(jià)值增益。

  (2)基于電子文件管理的原則

  1.前端控制原則。就元數據采集來(lái)說(shuō),在已經(jīng)建立了電子文件管理系統的機構,電子文件在系統中生成、運轉,電子文件元數據采集的前端“超前”至系統的設計階段,前端控制的形式也部分轉移到系統功能的設計之中,即盡可能地把文件生命周期各個(gè)階段的元數據需求設計在系統之中,以功能合理的OA系統作為管好電子文件的先決條件。

  2.全程管理原則。在過(guò)程管理中,所有有助于說(shuō)明電子文件重要屬性和有效管理過(guò)程的信息都被作為元數據進(jìn)行采集,以證實(shí)電子文件在管理系統中的運轉狀況,確保電子文件的管理質(zhì)量。

  (3)基于元數據管理的原則

  1.標準化原則。標準化原則指在元數據設計過(guò)程中,要與現有的國家標準、行業(yè)標準、相關(guān)規范以及國際標準相一致。隨著(zhù)元數據技術(shù)和XML技術(shù)的廣泛應用,現實(shí)環(huán)境中已經(jīng)存在多種元數據標準。為保證信息組織的一致性,在元數據采集時(shí)必須在一定程度上遵循標準化原則。

  2.互操作性原則;ゲ僮髟瓌t體現在對異構系統間互操作能力的支持,不僅可以為自己的應用系統所操作,而且可以為其他組織或機構的應用系統所操作;不僅可在不同系統實(shí)現同一元數據標準間的數據的傳輸、交換或轉換,而且可在不同元數據標準間實(shí)現數據的傳輸、交換或轉換。在元數據的具體應用上,互操作性表現為易轉換性,即在所攜信息損失最小的前提下,方便地將元數據轉換為其他系統常用的元數據。要實(shí)現這些功能,在元數據采集過(guò)程中必須慎重考慮元素語(yǔ)義和元素結構的準確定義,其中語(yǔ)義定義尤為重要。

  3.可擴展原則?蓴U展性原則指整個(gè)元數據體系和每個(gè)元數據模塊都應該可以擴展,保留細化元數據元素的空間以適應未來(lái)需求的變化,并可通過(guò)復用、嵌接、擴展、細化、修改等方式,根據應用需求靈活地構建和擴展已有的元數據。本文將元數據劃分為兩大類(lèi):標準元數據和擴展元數據,劃分依據為元數據的來(lái)源與不同功能。標準元數據,指《元數據方案》中的元數據項目。擴展元數據,指描述電子文件的網(wǎng)絡(luò )生成環(huán)境和生成過(guò)程、揭示電子文件分類(lèi)體系和社會(huì )關(guān)系、量化電子文件利用程度和重要程度的數據。見(jiàn)圖1。

  4.精細化原則。所謂精細化是指通常采用逐層描述元數據的方法,使得元數據的分析和采集工作進(jìn)一步精確、細化。在電子文件管理中,精細化原則是保障電子文件有機關(guān)聯(lián)性的關(guān)鍵,也是信息挖掘的重要保障。通過(guò)對元數據語(yǔ)義的進(jìn)一步修飾,能夠提高元數據的專(zhuān)指性和精確性。

  三、元數據自動(dòng)采集的方法

  (1)在流程中采集

  1.電子公文、檔案一體化管理流程設計。課題組依據《黨政機關(guān)公文處理工作條例》(2012年)、《黨政機關(guān)公文格式》(GB/ T9704-2012)和《電子文件管理系統通用功能要求》(GB/ T29194-2012),為機構設計了一套電子公文、檔案一體化全程管理流程,覆蓋從文件生成、運轉,到歸檔保存或銷(xiāo)毀的全生命周期。一體化流程根據電子文件運動(dòng)的特點(diǎn),進(jìn)行科學(xué)合理規劃,將部分環(huán)節前置,部分環(huán)節后延,部分環(huán)節貫穿始終等,強調文件管理和檔案管理的無(wú)縫銜接,詳見(jiàn)圖2。

  2.在流程中采集的思路。在一體化流程的基礎上,明確電子文件元數據實(shí)時(shí)采集的節點(diǎn)和每一節點(diǎn)需要采集的元數據項目。課題組將采集的關(guān)鍵節點(diǎn)確定為電子公文、檔案一體化管理流程的每一個(gè)環(huán)節,并在每個(gè)環(huán)節分別設置需要采集的元數據項目,包括可選項和必選項。技術(shù)實(shí)現上,使用流程設計器,在后臺事先設置每一環(huán)節需要采集的元數據,前臺每一環(huán)節結束后,該環(huán)節需要采集的元數據便能實(shí)現實(shí)時(shí)采集。

  (2)在格式模板和處理表單中采集

  電子公文處理表單和格式模板則是實(shí)現元數據自動(dòng)采集的重要“對象”。

  1.規范化智能公文模板和處理表單設計。課題組嚴格遵循上述條例及規定等,充分考慮元數據自動(dòng)采集的需求,設計了上行文、平行文、下行文三類(lèi)合規性智能公文模板,以及發(fā)文稿紙和收文處理單。

  2.格式模板和處理表單采集方法。將采集元數據的項目對應到電子公文模板和表單上相應的欄目,如題名元數據,可以定位于收文處理表單、發(fā)文稿紙上的題名欄目,即可實(shí)現自動(dòng)采集。因此,按照規范設計的電子公文模板、發(fā)文稿紙和收文處理單可以采集到題名、發(fā)文字號、文種、緊急程度、主送、抄送、密級、保密期限、附件題名、成文日期、收文日期、保管期限等項元數據。采用這種方法,標準中的內容描述元數據全部都能實(shí)現自動(dòng)采集。

  (3)在系統設置中采集

  部分元數據事先在系統設置時(shí)就已經(jīng)確定,如描述電子文件生成的技術(shù)環(huán)境、個(gè)人角色及管理權限、業(yè)務(wù)操作信息等元數據需要在系統設置中自動(dòng)生成。系統自動(dòng)可以生成電子屬性、業(yè)務(wù)實(shí)體元數據,具體包括機構人員、個(gè)人職位、行為時(shí)間,以及擴展元數據操作信息元數據,包括操作時(shí)間、操作次數、操作時(shí)長(cháng)。

  (4)在內容信息中采集

  在內容信息中采集,是指對電子文件的內容信息進(jìn)行深入的分詞分析,如人名、地名、機構名等,這是本項目預期實(shí)現的電子文件內容信息的智能分析。該采集方法主要采用了機器輔助人工抽取、權重分析技術(shù)和分詞技術(shù)等,其核心在于:基于主題詞表實(shí)現主題詞的自動(dòng)采集;中文智能分詞技術(shù);語(yǔ)料庫的詞語(yǔ)統計方法;上下文語(yǔ)義判斷技術(shù);詞表管理技術(shù)。

  基于上述原則、思路與方法,課題組研發(fā)的“電子公文、檔案一體化管理系統”不僅可以很好地實(shí)現在公文生成過(guò)程的元數據自動(dòng)采集,保證電子公文真實(shí)、完整、可靠、可用,而且“檔案管理子系統”可以完整、高效地承接“文件管理子系統”的所有前期成果,歸檔文件連同“發(fā)文稿紙”、“收文處理單”以及所有元數據的無(wú)縫銜接及歸檔。隨著(zhù)檔案保管、檢索、利用、統計、處置等業(yè)務(wù)活動(dòng)的開(kāi)展,基于元數據自動(dòng)采集成果的精細檢索、實(shí)時(shí)統計、價(jià)值判斷、智能分析更將顯示出實(shí)現元數據自動(dòng)采集的強大功效。

  參考文獻:

  [1]王健主編.文書(shū)學(xué)(第三版)[M].北京:中國人民大學(xué)出版社,2015.

  [2]中華人民共和國國家質(zhì)量監督檢驗檢疫總局,中國國家標準化管理委員會(huì ).GB/T 29194-2012電子文件管理系統通用功能要求[S].2012.

  [3]中共中央辦公廳、國務(wù)院辦公廳.黨政機關(guān)公文處理工作條例[S].2012.

  [4]中華人民共和國國家質(zhì)量監督檢驗檢疫總局,中國國家標準化管理委員會(huì ).GB/T 9704―2012黨政機關(guān)公文格式[S].2012.

  [5]王健等譯.電子辦公環(huán)境中文件管理原則與功能要求[M].北京:中國人民大學(xué)出版社,2012.

  [6]中華人民共和國國家檔案局. DA/T46- 2009文書(shū)類(lèi)電子文件元數據方案[S].2009.

  [7]姜偉,王健等.電子文件元數據智能分析與可視化呈現[J].北京檔案,2015(7):24-26.

【電子文件元數據自動(dòng)采集的原則與實(shí)施路徑研究】相關(guān)文章:

元數據標準的擴展原則與方法03-18

基于Verilog HDL設計的自動(dòng)數據采集系統03-21

網(wǎng)絡(luò )信息資源的組織原則研究--對DC元數據的探討03-02

USB技術(shù)在數據采集方面的研究與應用03-07

腦電物理頭模型數據采集系統的研究03-28

同步電機試驗自動(dòng)控制與數據采集系統的設計03-07

IIC總線(xiàn)數據采集及繪圖03-08

數據挖掘理論在數據采集中的運用03-16

從世界范圍研究文件與檔案的本質(zhì)區別 -從電子文件的網(wǎng)絡(luò )實(shí)時(shí)03-23

激情欧美日韩一区二区,浪货撅高贱屁股求主人调教视频,精品无码成人片一区二区98,国产高清av在线播放,色翁荡息又大又硬又粗视频