当前位置:数智频道首页 > 人工智能 > 正文

IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文

IBM发布了小型视觉语言模型Granite-Docling-258M,该模型定位于端到端文件转换场景用途,并采用Apache 2.0开源协议。目前,这个模型已经在Hugging Face平台上上线。

IBM 发布轻量级视觉语言 AI 模型 Granite-Docling-258M:用于文件转换、支持中文

该模型参数量为2.58亿,专为文档表格设计,能够完整保留版面、表格、数学公式、列表和代码块等结构,准确度高于传统OCR软件的识别结果。IBM表示,Granite-Docling的核心在于DocTags,这是一种由IBM Research设计的通用文件结构标记语言,能够精确描述页面元素的类型、坐标、阅读顺序及跨元素关系。DocTags可以将内容与版面结构分离,实现“先识别元素范围再执行OCR识别”。在完成转换后,DocTags还能够直接将内容导出为Markdown、JSON、HTML等格式,也可以进一步进入Docling库进行处理。

目前,Granite-Docling支持中文、阿拉伯语和日语等多种语言,但尚未达到企业级水准。IBM表示,未来开发人员将逐步扩展语言覆盖范围并提升模型可靠性。此外,IBM还将进一步增强DocTags与IBM watsonx.ai模型的兼容性,并计划将DocTags词汇表纳入Granite分词器和训练流程。

热点推送

本周关注

MORE