本網綜合 Hannah Confino 報導 以色列研究人員正將涵蓋千年曆史的手稿數字資料庫導入新型人工智慧轉錄工具,期待由此揭開猶太歷史的新篇章。
作為全球規模最大的中世紀猶太文獻集,開羅文庫(Cairo Geniza)百餘年來吸引學者投入無數研究時長,但其逾40萬份文獻中僅有極小部分得到系統考證。
儘管該藏品已完成數位化並以圖像形式線上開放,但多數文獻尚未編目,許多是長篇文獻的零散片段,僅約十分之一擁有轉錄文本。
通過訓練人工智慧模型識別並轉錄古籍,研究人員將能更高效地檢索分析整個藏品,實現人名辭彙的交叉比對,並將碎片拼合為完整文獻。
“我們持續致力於提升機器破譯古文字的能力,”巴黎高等實踐學院的丹尼爾·斯托克爾·本·埃茲拉表示。作為MiDRASH轉錄專案的主要研究者之一,他補充道:“該專案已取得重大進展,有望讓這些以希伯來文、阿拉伯文、亞拉姆文和意第緒文書寫的、採用多種手寫體書寫的文獻,向眾多研究者開放。”
斯托克爾·本·埃茲拉補充道,該專案已取得重大進展,有望讓大量採用希伯來語、阿拉伯語、阿拉姆語和意第緒語書寫、且使用多種手寫字體的文獻向不同領域的研究者開放。
研究人員會對難度較高的手稿轉錄內容進行準確性審核,以此優化人工智慧訓練。
“現代翻譯技術已實現驚人突破,將這些文獻交織呈現變得切實可行,普通讀者而非專業學者也能輕鬆獲取,”他如是說。
該專案由歐洲研究理事會資助,基於以色列國家圖書館的開羅文庫數字資料庫,彙聚了多所大學及研究機構的學者力量。
古代文庫
專案轉錄的文獻中,有16世紀耶路撒冷寡婦蕾切爾用意第緒語寫給埃及兒子的信函,其子在頁邊批註的回信詳述了在開羅瘟疫肆虐中求生的艱辛。
“根尼撒”是猶太會堂存放重要文書的倉庫,這些文書最終將進行儀式性埋葬。位於歷史悠久的開羅本·以斯拉會堂內的根尼撒倉庫環境乾燥,極適合保存古籍。
中世紀時期,開羅超越大馬士革和巴格達,成為中東第一大城,既是全球貿易、學術與科學的中心,也是繁榮猶太社群的故鄉。後來逃離新基督教西班牙的難民更使該社群規模擴大。
偉大的猶太哲學家邁蒙尼德曾在此禮拜——這位曾為驅逐十字軍出耶路撒冷的著名穆斯林蘇丹薩拉丁家族擔任御醫的智者,在開羅居住期間便虔誠地在這座會堂祈禱。
當王朝與帝國興衰更迭之際,猶太社群默默延續著日常生活,其宗教領袖們將拉比論辯、市政檔案及各類行政文書與學術文獻持續填入格尼紮。
19世紀末,學者們發現了基尼薩中驚人的文獻寶庫,其中包括邁蒙尼德親筆撰寫的文獻。儘管此後持續研究,但因其規模浩瀚,仍有大量空白亟待填補。
“重建中世紀生活圖景的可能性近在眼前,”斯托克爾·本·埃茲拉如是說。