思考:“最好”與“最壞”的時代
清代學(xué)者姚鼐對傳統(tǒng)學(xué)術(shù)有一個經(jīng)典概括,即義理、考據(jù)、辭章。近代學(xué)者陳寅恪、傅斯年等也指出史學(xué)研究的創(chuàng)新不外乎新材料、新問題和新方法三個方面,史料的整理無疑是重要的基礎(chǔ)工作。隨著史學(xué)研究視野的不斷拓展,考古遺跡與文物、口頭流傳及圖像資料等史料的利用逐漸活躍起來,但仍然無法撼動文獻這一最重要史料的地位。
就科技史研究來說,整理文獻依然是不可或缺的基礎(chǔ)工作,理應(yīng)得到足夠的重視。英國作家狄更斯在《雙城記》的開頭富有哲理地說:“這是最好的時代,這是最壞的時代。”如今這個時代對于典籍整理來說也正是如此,一方面我們迎來了基本文獻占有的小康時代,另一方面,文獻整理研究的深度和廣度都向我們提出了更大的挑戰(zhàn)。
先來談?wù)劵疚墨I的占有情況,科學(xué)史所李儼圖書館近幾年的文獻資源建設(shè)工作就足以說明問題,作為一個科技史專業(yè)圖書館,我館的紙本書刊已達到18萬冊,典藏空間成為發(fā)展瓶頸。因此,我們下大力氣引進電子文獻資源。目前,已經(jīng)卓有成效地建立起覆蓋中外文科技史基本文獻的文獻資源體系。
先說中文方面:通過先后引進雕龍、書同文、愛如生等系列古籍?dāng)?shù)據(jù)庫,保障了2萬余種基本古籍的圖文檢索利用;開通晚清民國期刊全文庫,幾乎覆蓋了全部近2萬種晚清民國期刊,而民國圖書庫前三期則收錄圖書15萬種,已近存世民國圖書數(shù)量的一半;在現(xiàn)刊和學(xué)位論文方面,CNKI、維普、萬方覆蓋了大陸范圍,臺灣華藝則作為臺灣地區(qū)的補充;通過讀秀數(shù)據(jù)庫可閱覽和申請文獻傳遞的圖書數(shù)量達到310萬冊;報紙方面初步選擇了《申報》《大公報》《中央日報》《人民日報》《光明日報》和近代英文報刊庫等大報,以提供近現(xiàn)代重要事件人物新聞報道的查證檢索。
外文方面:我們開通了EEBO-EEB(17世紀(jì)以前英文及非英文文獻)、ECCO、NCCO(18、19世紀(jì)英文文獻)等數(shù)據(jù)庫;通過Springer、Elsevier、Wiley、Cambridge、Oxford、JSTOR、MUSE等數(shù)據(jù)庫覆蓋近200種外文科技史及科技哲學(xué)期刊,還可通過百鏈云申請外文文獻傳遞?梢圆豢鋸埖卣f,這是一個基本文獻的“嘉年華”。
然而,面對這樣前所未有的好時代我們卻似乎高興不起來,因為海量文獻的突然涌來同樣帶給我們前所未有的挑戰(zhàn),我們?nèi)绾我砸患褐﹂喿x、挖掘和分析如此多的文獻?面對文獻,我們從來都是充滿了喜悅和興奮,如今直面這個“嘉年華”卻讓我們不覺有一種困惑和迷茫。
應(yīng)該說明這里的海量數(shù)據(jù)還不能和時下流行的“大數(shù)據(jù)”相提并論,“大數(shù)據(jù)”特征經(jīng)典描述為4V:Volume(巨量),Velocity(幾何級高速增長),Variety(數(shù)據(jù)類型的多樣性),Value(平均價值低),就更非我等可以想象了。
不過沒關(guān)系,回過頭人文學(xué)科畢竟有自己的看家本領(lǐng),就是經(jīng)典文獻的解讀和分析,這是方法論層面人文學(xué)科區(qū)別于自然科學(xué)、社會學(xué)科的最重要表現(xiàn)。而這一時代又向我們提出了更深度和廣角地分析解讀一部經(jīng)典文獻的挑戰(zhàn)。我們無比熟悉和親近的典籍文獻領(lǐng)域正在上演一部“雙城記”。
展望:科技典籍整理的未來
聚焦到科技典籍整理上來,據(jù)《中國古籍總目》,現(xiàn)存1912年以前出版的古籍約為20萬種。其中與科技相關(guān)的典籍主要分布于如下幾個類屬:史部地理類總志之屬(444種)、政書類考工之屬(81種)以及水利之屬(314種),子部農(nóng)家類(467種)、譜錄類花木鳥獸之屬(339種)、醫(yī)家類(6684種)、天算類(1656種)、新學(xué)類(884種),合計10869種。西學(xué)東漸相關(guān)典籍除此處“新學(xué)類”外,又據(jù)《近代漢譯西學(xué)書目提要(明末至1919)》計算合計1678種,其中心理學(xué)25種,地理272種,自然科學(xué)1381種。當(dāng)然,“漢譯西學(xué)”和“新學(xué)類”有部分重合,再加上以上暫時忽略的零星分布,估計現(xiàn)今留存的中國古代科技典籍?dāng)?shù)量在1.2萬種左右,約占古籍總量的6%?萍嫉浼嗅t(yī)學(xué)類典籍因為涉及應(yīng)用,整理數(shù)量最多,估計超過存世數(shù)量的10%,農(nóng)學(xué)次之,其他科技典籍整理十分有限,估計不超過2%,所以科技史文獻的整理還是亟待解決的瓶頸問題。
在學(xué)術(shù)整理體式方面,我們通過國家古籍整理出版中長期規(guī)劃項目“中國科技典籍選刊”做了新的嘗試,采用圖、文、校釋對排的樣式,兼顧了典籍原貌保真和整理成果呈現(xiàn)兩方面的需求,取得了不錯的效果。 進一步,我們認(rèn)為在定本式整理的基礎(chǔ)上附加匯校,將有益于對典籍傳播史的考察研究。
要加快推進典籍整理工作,就要在文獻整理工作中充分利用信息技術(shù),開拓典籍?dāng)?shù)字化,這是如今方興未艾的“數(shù)字人文”中的一個重要方面。
在信息時代從事人文研究,人腦和電腦應(yīng)該如何分工和合作?我們認(rèn)為人腦還是研究的主導(dǎo),主要承擔(dān)的工作是理論和算法的創(chuàng)新以及具體問題的考證和分析,通俗說就是“腦力活”;而電腦的長處在于檢索、計算和排列等工作,通俗說就是“體力活”,但這種“體力活”不可小覷,它可以大大縮短研究時間,節(jié)省研究者的精力,使一些費時費力的研究項目變得可行。
另外,隨著計算語言學(xué)理論的發(fā)展,電腦參與學(xué)術(shù)研究的程度必將越來越深。 典籍?dāng)?shù)字化可分為三個層次,即圖像化、全文化和數(shù)據(jù)庫化。圖像化和全文化大家都比較熟悉,尤其是全文檢索,有其優(yōu)勢,但缺點也很明顯,即檢索失誤是不可避免的,造成檢索失誤的原因是多方面的,其中文本質(zhì)量只是一部分原因,還存在漢字的別體、語義的切分及別稱等問題,這些都會導(dǎo)致漏檢或多檢。要解決以上問題最重要的方法是實現(xiàn)文本語義的“本體化”,而“本體化”要求我們推進典籍?dāng)?shù)據(jù)庫化。 數(shù)據(jù)庫化除了本體的結(jié)構(gòu)化,還包括由本體建構(gòu)起知識的語義網(wǎng),以達到“數(shù)字人文”可計算的目標(biāo)?茖W(xué)史所與哈工大有關(guān)院系正在合作開發(fā)“典籍分析平臺”,初步設(shè)計具有目錄導(dǎo)航,圖、文、校釋對排,本體標(biāo)記與編輯等功能,還將不斷根據(jù)研究實踐推進分析功能的開發(fā)。我們希望早日投入使用,共享給學(xué)界!