荀子古籍大语言模型是南京农业大学信息管理学院王东波教授团队在北京发布的进行古籍处理和研究的智能工具。
产品定位
荀子古籍大语言模型由南京农业大学与中华书局古联公司联合研发,是首款专注古籍智能处理的AI系统,基于20亿字古籍语料(含《四库全书》)训练,实现古籍标引、翻译、诗歌创作等全流程自动化,推动传统文化数字化传承。
核心功能
- 古籍智能处理:
- 标引与抽取:自动识别古籍主题,抽取人物/事件/地点等关键信息,准确率92.6%。
- 标点断句:复杂文言文自动标点,还原古汉语语法逻辑,错误率低于3%。
- 跨时代翻译:将文言文转化为现代汉语或英语,保留原意同时适配当代语境。
- 创作辅助:
- 古诗生成:依据主题创作符合格律的诗词,支持五言/七言/词牌等体裁。
- 词法分析:自动分词与词性标注,构建古籍语法知识图谱。
- 定制化支持:
- 开放基座模型(XunziALLM),支持用户用私有语料微调,优化特定任务表现。
使用指南
- 下载模型:
- 基座模型:ModelScope链接
- 对话模型:ModelScope链接
- 部署运行:
bash git clone https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM pip install -r requirements.txt # 依赖Transformers等库 python interact.py --model_path ./xunzi-chat # 启动对话模型
产品评测:优势与局限
- 优势:
- 古籍专精性:文言文处理能力远超通用模型,诗歌生成符合《平水韵》规范。
- 学术价值高:信息抽取支持历史研究,自动标点节省文献整理80%时间。
- 开源免费:完整开放权重,允许学术机构二次开发。
- 不足:
- 非古籍场景弱:现代文本处理能力显著低于ChatGPT等通用模型。
- 部署门槛高:需16GB显存运行,普通用户难直接使用。
- 多模态缺失:仅支持文本,缺乏古籍图像/拓片识别能力。
竞品对比分析
维度 | 荀子模型 | 清华大学九歌 | 字节跳动文理古籍版 |
---|---|---|---|
核心能力 | 古籍标引/翻译/标点全链条 | 专注古诗生成 | 文言文-现代汉语互译 |
语料规模 | 20亿字(含《四库全书》) | 千万级唐诗宋词 | 10亿字史书文献 |
技术特色 | 基于Qwen架构微调+用户定制 | 格律控制算法 | 实时交互翻译 |
开源程度 | 完整模型权重开源 | API调用 | 部分功能闭源 |
学术适配 | 支持IEP/标引等研究场景 | 纯创作工具 | 基础翻译 |
使用成本 | 本地部署免费 | 有限免费次数 | 企业级付费 |
总结:荀子模型以“古籍全流程处理”和“学术友好性”成为研究者首选,尤其适合文献数字化项目;九歌侧重诗歌创作,文理长于实时翻译。若需深度古籍分析或定制开发,荀子优势突出;追求即用型翻译可选文理,诗歌创作首选九歌。