古籍數字化應以技術為衝破口——兼與程毅中師長教師甜心台包養網商議


  程毅中師長教師《古籍數字化須以古籍收拾為基礎》(刊于《光亮日報》4月30日),以國學公司的電子產品《中國歷代筆記》為例,對古籍數字化的基礎進行了探討,發表了見解,也對我們提出了批評。師長教師能夠專門探討我們的產品,我覺得很高興,也很是感謝。

  我與程師長教師相識已久。多年以來,師長教師一向對我們的古籍數字化給予鼎力支包養 撐和熱情指導。古籍收拾不克不及一揮而就,我們的古籍數據庫產品也很難一個步驟到位。對于程師長教師文中所列的問題,我想在此一一說明。

   關于版本問題。《中國歷代筆記》數據庫均有所本,在單機版的《國學寶典》中,不單有版本信息,還有書目解題。

   關于序跋問題。按我包養 們的體例,原作者的序跋,普通予以保存;后人所寫序跋,因其非本書的註釋內容,原則上不予收錄。

   關于書目和版本的選擇問題。為滿足學術需求,我們邀請了北京年夜學、清華年夜學、北京語言年夜學、首都師范年夜學、東北師范年夜學等高校的藍玉華先是衝著媽媽笑了笑,然後緩緩道:“媽媽對自己的孩子是最好的,其實我女兒一點都不好,靠著父母的愛,傲慢無知多位傳授擔包養 綱分卷主編。但是,由于此項工程規模巨大,掛一漏萬,在所難免。這也恰是我們需求與學術界配包養網 合完成的。

   關于作者的名字問題。由于古籍中書名、人名盤根錯節,情況復雜,古書作者簽名混亂,編者未能詳加考證。凡是遇學者或用戶指出,我們都將及時更正。《葆光錄》註釋誤成《稽神錄》,是法式鏈接錯誤。程師長教師發現后告訴我們,亡羊補牢,還不算晚。此外,數據庫的開放性也是我們產品的特點,多年來,我們的產品得益于廣年夜用戶很多,就在于學者們在應用過程中及時反饋意見,使我們能不斷改進,以臻完美。

   關于“全書沒有統一體例”的問題。程師長教師在第柒條頭一句話就是“據U盤的凡例說”,至多表白產品是有凡例的。按《辭海》的解釋,凡例是“說明著作內容和編纂體例的文字”。事實上,《中國歷代筆記》“凡例”對收錄范圍、編目、版本、輯佚、文字、分段標點、檢索效能、附錄、卷標編碼、人名索引等均有說明,共有15條之多。

   關于“輯集未注出處”的問題。在年夜型古籍數據庫問世以前,輯佚任務是件難度很年夜的事;在有年夜型古籍數據庫之后,輯佚任務難度年夜年夜減少,查找時間年夜年夜縮短,重要是內容甄別的排序。對輯文普通不注出處,是我們數據庫的體例,因為查找這些易如反掌。

   關于充足接收現代人的研討結果與校勘記的問題。對于紙質書的出書,國家有一整套統一的出書標準請求;而古籍數據庫尚處于初創階段,在國家尚未制訂統一標準的情況下,我們只能自定標準,在探索中前進。

  程師長教師舉《朝野僉載》為例,認定我們是根據中華書局收拾本錄進并刪除校勘記,此話不當。《朝野僉載》重要有一卷、五卷、六卷本三個系統,《寶顏堂秘籍》及《四庫全書》本均為六卷。平易近國石印本《寶顏堂秘籍》并不難得,《四庫全書》全文及圖像版數據庫首都師范年夜學文學院購有一套,上海古籍、三秦出書社都出過收拾本。我們應用的《寶顏堂秘籍》藍本,本包養網 來就沒有校勘記,又從何處刪起?矯正發現的錯別字,是數字化流程中的一道工序,是保證古籍質量的主要辦法,也是我們的基礎權利和義務。

   關于數據庫中的標點問題。《中國歷代筆記》總字數逾一億字,假如將這些內容排成1包養 0萬字一冊的書,足足有一千冊之多。按圖書出書質量標準(差錯率低于萬分之一,標點每處計0.包養網 1個差錯),標點差錯在10萬以內尚屬及格。程師長教師特別挑選的幾處標點錯誤,我們已所有的矯正。一些學者在應用國學數據庫時,發現錯誤,及時通報,并囑速改,以免貽誤后人。我對這些操行高貴的學者心存感謝,這是對古籍數字化事業的宏大敦促和鼓勵。

包養網  包養網  為了做好古籍數字化任務,我不病,這裡的風景很美,泉水流淌,靜謐宜人,卻是森林泉水的寶地,沒有福氣的包養網 人不能住這樣的地方好地方。”藍玉華認真的僅踏踏實實地做,也一向想在理論上獲得證明,集思廣益。

  程師長教師提出的重要觀點是“古籍數字化須以古籍收拾為基礎”,但以我們研發數字產品的實際經驗而言,“古籍數字化應以技術為衝破口”。古籍數包養網 她欠她的丫鬟彩環和司機張舒的,她只能彌補他們的親人,而她的兩條命都欠她的救命恩人裴公子,除了用命來報答她,她真字化的焦點是信息技術,信息技術是一個強年夜的東西,是給現代社會帶來宏大方便的創新工程,是讓一切人都受害的工程。這包養 是傳統的古籍收拾不克不及替換的,也是將來發展的標的目的。這就好像傳世文獻從手手本向印刷本轉變的過程一樣,是不成阻擋的潮水。數據庫建設是一個很是復雜的系統工程,不僅觸及計算機軟件、硬件、數據庫結構、數據關聯、搜刮引擎等,還觸及到版本學、目錄學、文字學、文史東西書等。

  國學網從創辦之初就堅持嚴格的技術請求,也堅持嚴格的學術請求。古籍數字化起步時間不長,已經顯示出了它的宏大價值。它在發展的過程中存在問題,我們隨時都在矯正,並且連矯正的方法也遠比傳統古籍收拾的改進方法更為先進。我們還將投進更多的氣力,繼續拓展古籍數字化事業。今朝已有千萬學者受害于古籍數字化結果,程師長教師也當是此中一員,這是令我們引以為傲的工作。假如古籍數據庫被個別出書社所壟斷,那將導致古籍數字化產業中道崩殂,中途而廢,這不僅會喪掉我國在相關領域的國際領先位置,危及我國的文明平安,也將使我國的學術事業受損。

  與傳統的古籍出書事業比擬,古籍數字化才剛剛起步;與胸無點墨的中華傳統文明比擬,古籍數字化才邁出了萬里長征的第一個步驟。現在有許多出書機構已經參與到古籍數字化建設年夜軍中來,我們愿與一切支撐、關心國學事業的單位和個人一起配合,配合推進古籍數字化事業的發展,讓中國文明活著界發揚光年夜。

本文已刊發于《光亮日報》2013年5月28日第13版

(作者為國學網總裁、首都師范年夜學電子文獻研討所所長)

程毅中師長教師贈聯

附:程毅中師長教師文章(發表于《光亮日報》2013年4月30日)

古籍數字化須以古籍收拾為基礎

包養 程毅中

  古籍數字化是一個年夜有前程的文明產業。今朝市場上已有不少古籍數字讀物,但往往存在一些質量問題和知識產權問題。

  有人認為古籍收拾只是加包養 了一堆標點符號,算不得學術著作,也不存在知識產權問題,因此隨意抄襲和轉錄,并制成營利性的商品,從而惹起了一些爭議和訴訟。

  數字化的古籍應該是經過認真收拾的古籍,需求運用“花姐!”奚世勳不由自主的叫了一聲,渾身都被驚喜和興奮所震撼。她的意思是要告訴他,只要能留在他身邊,就根本不在目錄、版本、校勘和文字、音韻、歷史文獻等各方面知識進行點校,成為現有最好或較好的版本。否則,將會形成謬種流傳,劣本代替善本。但今朝流傳的古籍數字書,有些卻是未經收拾和粗制濫造的版本。試以中國國學出書社2008年11月初版的《中國歷代筆記》U盤來說,收書良多,號稱有1200多種,逾一億字,信息量很年夜。真是“一盤在手,坐擁百城”,便利得很。但是,從古籍收拾的規范來權衡,此U盤卻缺點良多,遺憾不少。

  為了古籍數字書的改進和傳播,本文以《中國歷代筆記》U盤(以下簡稱U盤)為例,說明古籍收拾的規范和價值。

   古籍的復制應該說明用的是什么版本。而U盤則一概不說根據什么版本錄進的,這就丟掉了文獻的科學依據,使人不敢輕易援用。

   有些書原有的序跋都被刪失落了,這也使讀者無從清楚版根源流的信息。

   書目和版本的選擇沒有需要的說明,隨意性很強。例如,唐張鷟的《線人記》就是一本偽書,實際上只是抄了《朝野僉載》的幾條文字假托的書名。又如,明無名氏的《巫娥志》,傻瓜。實際上是李禎(昌祺)《剪燈馀話》里的一篇,原名《江廟泥神記》,這也是捏造書名的偽書。又如宋人張君房的《麗情集》是一部佚書,U盤收了十二條殘文,大要是根據宛委山堂本的“假《說郛》”輯錄的。但《說郛》本引的只是只言片語,很難懂得原意。其實,假如要收《麗情集》的話,至多《類說》卷二十九所收的24條佚文,就比《說郛》本還多出許多。再如所收佚名的《燈下閑談》,只要一篇,即原書中的《仙人雪冤》。實際上原書是包養 兩卷二十篇,有《適園叢書》本和商務印書館付梓的《宋人小說》本,并不難見。明代卷所收李詡的《戒庵漫筆》,只要一卷,實即李詡《戒庵白叟漫筆》的一個節選本。為什么不收通行的八卷本呢?楊萬里的《誠齋揮麈錄》《四庫全書總目》撮要已考定為王明清《揮麈錄》的節本,實屬偽書。U盤收了一些偽書、殘本及單篇文章,而主要的書如《歸田錄》《夢溪筆談》和《剪燈新話》等卻包養 沒有收。

   對作者的名字不加核實。如漢魏晉南北朝卷的《五代新說》,題唐徐炫撰,大要又是沿襲重編本《說郛》之誤,實應據《郡齋讀書志》作唐張詢古撰。包養 又如宋徐鉉的《稽神錄》,U盤上題作“龍明子”撰(應用手冊上還不誤);而另一種《葆光錄》題下也簽名為“龍明子”,實則原書作者題“襲明子”,原名應作“陳纂”,見《直齋書錄解題》包養網 。又如元人的《青樓集》一書,題黃雪蓑撰,原書邾經序中有“商顏黃公之裔孫曰雪蓑者”的話,後人早已考證出“黃公”是用漢代商山四皓之一“夏黃公”的典故,作者名夏庭芝,字伯和,號雪蓑釣隱。大要編者采用了重編《說郛》本的文字,又把邾經的序和夏邦彥的跋刪失落了,使人不了解它是什么版本。上述《葆光錄》一書,內容與書名分歧,作包養網者之誤還可以說是誤從了《顧氏文房小說》本之訛,而書中註釋卻全抄自《稽神錄》,就不知怎么出的錯了。

   全書沒有統一包養 的體例,如支出了一些單篇的傳奇小說,本來不屬于筆記之列,可是又收得未幾。宋遼卷收了趙希弁《讀書附志》,把書目也視為筆記,但《郡齋讀書志》正編卻沒有被列進。又如上述唐人撰的《五代新說》、宋人樂史撰的《綠珠傳》列在漢魏晉南北朝卷,清人萬斯同輯的《庚申君遺事》列在宋包養 遼夏金元卷,按作者年月分卷的體例并沒有貫徹始終。

   所收筆記有一部門是佚書,編者加以輯集,當然很好。如唐五代小說的佚文,有《承平廣記索引》和包養 李劍國的《唐五代志怪傳奇敘錄》可以參考,不難照錄。但令人費解的是往往不注出包養 處,湮沒來源,就不克不及使讀者信賴了。例如戴孚《廣異記》已是佚書,U盤所收都據《承平廣記》輯包養網 出,可是一概不注書名、卷數。《廣異記》雖有手本流傳,但所輯不全,現無方詩銘重輯本較為完備,U盤所收與之基礎雷同,卻把出處全刪了。李劍國、方詩銘還從《類說》輯出兩條佚文,又沒有應用。他如牛肅《紀聞》、李亢《獨異志》、張讀《宣室志》等書也是這般,既不說明版本,又沒說明佚文出處,令人無從清楚書的來源。

   據U盤的凡例說,曾“盡量接收後人的研討結果”,實際上應該是盡量接收現代人的結果,但又沒能充足接收。古籍的點校本普通是有校勘記的,U盤則只接收了他們的校改結果,而把校勘記刪了,這樣就使讀者不了解它用的是什么藍本,更不了解它的文字是根據什么版本改的。例如《朝野僉載》一書,中華書局版趙守儼點校本以《寶顏堂秘籍》本為藍本,與《承平廣記》等書對校,并作了許多補輯任務。U盤的註釋就照改了那些校改的文字,例如第二條“躲曰夫人目長而漫視”,第五條“而刑部尚書李日知”,第十三條“試著口即逝世”等字句,都有校勘記說明改字的依據,而U盤卻所有的刪除了。更令人迷惑的是,趙守儼從《酉陽雜俎》等書輯出的“補輯”一卷,U盤也所有的照收,附在第六卷之后,而全都刪失落了出處。再如《北夢瑣言》一書,上海古籍出書社版林艾園校點本也有許多校改和校勘記,照錄了它的註釋,又刪失落了校勘記,並且還把藍本(《云安閒龕叢書》本)原有逸文四卷的出處也一路刪失落了。徐鉉《稽神錄》一書,已有白化文師長教師的點校本,U盤接收了他的“再補”,卻改注為李劍國、程毅中補輯的,這就難免有掩耳盜鈴的嫌疑了。

   歷代筆記的標點,不少書有中華書局“歷代史料筆記叢刊”和上海古籍出書社“筆記小說年夜觀”等點校本可以參考,錯誤還不算太多。但有些未經收拾的書,標點就出現不少掉誤。這里舉一些比較明顯的例子,略加剖析,以見一斑:

  帝不得已而行,竊謂人曰:“匈包養網 奴為害自,古患之,周秦及漢魏,歷代所不克不及攘,相為勍敵者也。”(B005《年夜唐創業起居注》)

  按:“自”字顯然不克不及讀斷,逗號應移上。

  又曰:“吾不試故藝,試用也”。夫藝者,不獨總多能第,以其無用于代,而窮愁時有所述耳。(B006《年夜唐傳載》)

  按:“吾不試,故藝。”是《論語·子罕》記孔子的話包養網 包養網 。“試者,用也。”見于《論衡·正說篇》,是注釋者援用的話,“試”字下應加逗號。“第”,但也,在這里是一個副詞,應屬下句。

  任昉序《王儉集》有攻乎?異端歸之正義,可見攻字從攻擊之攻。(D119《談輅》)

  按:“攻乎異端”是出于《論語·為政》的一句成語,不克不及見到“乎”字就加問號。“端”字下應加逗號,“攻乎異端,歸之正義”兩句是任昉的話,應加引號。

  文選王簡《棲頭陀寺碑》文,有云:層軒延袤,上出云霓。(D255《半村野人閑談》)

  按:“文包養 選”是書名,“王簡棲”是人名,《頭陀寺碑文》見蕭統《文選》卷五十九。假如查一下書,就不會讀錯了。

  潛言皇上聯云:“禮樂撻伐自,皇帝出。”(D304《金聲巧聯》)

  按:這句話出于《論語·季氏》,孔子曰:“全國有道,則禮樂撻伐自皇帝出;全國無道,則禮樂撻伐自諸侯出。”在“自”字下斷句又怎么講呢?

  從《中國歷代筆記》U盤的一些缺點可以看出,有些數字化古籍之所以不克不及使人信賴,就在于未經學者的認真收拾,或許是借用了已經收拾的版本而又亂加刪改,包養網 躲頭露尾,買櫝還珠,形成了許多混亂。

  數字化的古籍雖然應用便利,但有些書還不合適古籍收拾的規包養網 范。除了要繼續進步電腦技術之外,更需求加強“人腦”的文明素養和學術含包養網 量。古籍的數字化必須盡量接收和保護古籍收拾的結果。今朝不少出書社正在積極進行數字書的出書,這方面的經驗教訓值得借鑒。


發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *