关于 BITIG Data
这是什么
BITIG Data 是一个精选数字展柜——不是完整词典,不是搜索引擎,也不是已有学术版本的替代品。它展示的是回鹘文材料可以:
- 被整理为机器可读的结构化格式(JSON)
- 被统一到一套规范的转写标准中
- 连同原图、转写、注释、出处一起呈现在一个可浏览的界面中
- 以追加方式逐步扩展——新增文献和词条只需在数据文件中追加条目
注意:本站为第一版预览,暂不可用于学术引用。全部数据有待出处核验。
当前局限
| 局限 | 原因 |
|---|---|
| 无回鹘文输入法 | 回鹘文 Unicode 区块(U+10F70–U+10FAF)于 2021 年才被收入标准,目前尚无操作系统或第三方输入法支持。 |
| 无音频 / 无 TTS | 回鹘语是一种死语言(9–14 世纪),既无母语者录音,亦无语音合成模型可用。 |
| 仅含精选样本 | 第一版收约 5 种文献、约 20 条词条,仅作概念验证,远非完备语料库。 |
| 仅支持拉丁转写搜索 | 在回鹘文输入法出现之前,搜索依赖拉丁转写。首字母浏览作为替代方案。 |
| 图像均为占位图 | 写本图像须取得收藏机构授权(柏林-勃兰登堡科学院、中国国家图书馆等)。在获得授权前暂用占位图。 |
| 全部数据待出处核验 | 每条词条和文段都需追溯至已出版的学术来源。"待核验"条目为暂定。 |
后续计划
- 短期:将精选样本扩展至 10 种以上文献;词条增至 100 条以上并核验出处。
- 中期:增加逐词标注(词素级分析);与现有数字目录对接(柏林吐鲁番档案、IDP)。
- 长期:建立社区协作的转写平台;开发回鹘文 OCR 辅助工具;建立同行评议的数据质量审核机制。
技术说明
本站为纯静态 HTML 页面配合 JSON 数据文件,无后端、无数据库、无 JavaScript 框架。
托管于 Cloudflare Pages。全部源数据以纯 JSON 文件保存在 data/ 目录下。
本站可被任何人下载、修改并重新部署。
为回鹘文研究学术会议(2026)演示而制作。
联系方式
会议期间可通过会务组联系作者。项目地址:bitigdata.xyz