当前位置:   article > 正文

AI+OCR赋能古彝文数字化—让经典重新跳动_古文字图像分割

古文字图像分割

1️⃣ 彝文与古彝文概况

文化是一个民族社会历史发展到一定程度的产物,代表着文明发展的程度,而文字是文化的一种载体,文字的出现是社会进入文明阶段的重要标志之一,其生动记录着一个民族的智慧成果,深刻反映着一个民族的发展历史,集中体现这一个民族的文化。


中国远古时代的彝族,是相当庞大的部落族群,其生息的区域,从西部、西南部往中原地区延伸到东海之滨,以刻划文字和十月太阳历为标志,可追溯达万年历史的古彝人,对世界本源、人类发展史的认识,都达到了极高的程度,中国的文明史时序,由此向前推进了一大步。

古彝文字义对照图(网络资料+邵文苑供图)

邵文苑:古彝文数字化项目发起人,上海大学社会学院人类学民俗学研究所讲师

彝文是彝族先民在长期的生产、生活实践中长期孕育、逐步提炼的文化产物,在漫长的历史发展之中薪火相传,生生不息。而古彝文指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。彝文起源于何时,尚未有官方的定论,有学者认为,原始古彝文的创制和出现时间大致可推算为7000—10000年或以上。

以国内外相关考古研究与学术研究成果为参照,以世界古文字珍稀遗产评鉴体系为依据来评价古彝文:

  • 文字生命力:古彝文出现时间大致可推断为七千到一万年或以上,彝文经过漫长的岁月洗礼仍保留着大量的原生性特征;

  • 文字影响力:中国29个省市自治区都发现了古彝文刻划符号,具有极大影响力;

  • 文字文化力:古彝文文献数量较多、体量较大、底蕴深厚、内容丰富、体制完善而成熟;

  • 文字传承力:彝族人口众多,生活地域广袤,有深厚的文化地域,为古彝文的传播提供了广泛而稳定的群众基础。

综上所述,古彝文中蕴藏着彝族数千年灿烂文明成果,是中华民族传统文化的重要组成部分,具有鲜明的民族个性和顽强的生命力,古彝文是彝族、中华民族乃至世界的文化瑰宝,建立古彝文OCR识别模型,可以很好地完成古彝文文献的识别预处理操作,缩短古文典籍研究周期。对古彝文的数字化保护有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护

2️⃣ 古彝文数字化的重难点分析

2.1、古彝文典籍残缺难以识别

彝文的传承一直以手抄的形式为主,由族中的毕摩代代相传,由于战火与自然风蚀的洗礼,很多彝族文献遭到破坏和流失,存在缺失、污渍、笔墨污染、模糊、印章噪声干扰,目前, 从各地收藏单位收集到彝文古籍文献来看,纸质文件存在泛黄变脆,甚至出现残边、虫蛀等损毁问题; 一些碑刻、木刻的古彝文也由于长期的侵蚀,字迹出现了模糊, 腐蚀等情况,这对古彝文典籍修复、文本检测、文字识别带来极大困难。

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/745421
推荐阅读
相关标签