核心技術採用圖像辨識領域中實現實例分割任務的演算法-Mask R-CNN,主要目的為圖像中的實體物件識別,除了能具體辨識圖像中各自獨立的實體物件所屬類別與所在位置以外,更進一步描繪出各實體物件之輪廓,藉此快速萃取數位圖像中的實體物件訊息,並作為圖像集合的替代資訊呈現,讓使用者得以快速吸收並有效組織圖像內容。最後輔以友善且有助於增進人文學者與系統互動之介面,讓人文學者得以在個體詮釋的角度下進行圖像標註以快速取得數位圖像之後設資料內容,進而促進人文學者更有效率地解讀圖像情境。
本研究旨在開發支援數位人文研究之「觀點變遷和年代劃分工具」,能讓人文學者將具有時間連續性的相關文本,切分為數個時期來訓練詞向量,並以詞向量作為探勘輸入之關鍵字在各時期中關聯程度最高的關聯詞彙依據,並輔以分群方式協助使用者分析相鄰兩觀察時期是否需要進行分裂或合併,以決定較佳之觀點變遷觀察詞彙與時期切分,同時提供即時互動介面,透過人機互動的方式協助使用者於短時間內掌握大量具時間連續性的相關文本中特定主題的脈絡,找到有用的研究發現。
本研究欲發展結合主動式學習以及斷句模型的「基於主動式學習的古漢語文本斷句系統」,透過人機合作模式降低建立模型時所需的訓練語料。
本研究也將透過邀請專家使用「基於主動式學習的古漢語文本斷句系統」進行古漢語斷句,並分析結果以及從專家取得改進建議。
本資料庫以「羅家倫文存」全文內容為基礎,與政大社資中心數位人文及華人文化主體性研究中心研發技術與資源結合,提供關掃描檔與對照全文、全文檢索與後分類、自動文本標註與觀點變遷工具等數位資料整理與與閱讀介面,期能發展可有效協助專業研究者創造更多元研究面向與議題的數位研究環境與工具。