合合信息TextIn“大模型加速器2.0”上线，破解复杂版面及图表解析难题

7003383

7005136

7005137

<article><section data-type="rtext">【环球网科技综合报道】随着大模型在社会应用中逐渐普及，人们在享受便利的同时，也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素，近日，上海合合信息科技股份有限公司（简称“合合信息”）TextIn“大模型加速器 2.0”版本正式上线，基于领先的智能文档处理技术，对复杂文档的版式、布局和元素进行精准解析及结构化处理，从数据源头降低大模型“幻觉”风险，让大模型在与人类的沟通中“更靠谱”。<img data-alt="“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图" src="//img.huanqiucdn.cn/dp/api/files/imageDir/2f79032d79df88078436399489331f3au1.png?imageView2/2/w/1260" />据悉，升级后的“大模型加速器”在复杂版面理解、表格及图表处理、内容溯源等能力上实现新突破，可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式，解析稳定率达99.99%，单页处理耗时较行业可比产品降低超30%；可“逆还原”十余种专业图表数据，并将其转化为大模型可理解的结构化数据。此外，“大模型加速器 2.0”版本新增知识库系列开源组件，助力医疗、制造、教育等行业开发者构建个性化的知识库。以教育行业为例，在“大模型加速器”的支持下，合合信息与赛尔教育共同协作，提升大模型对复杂版面、元素的“理解力”，使其按照人类正常的阅读顺序识别文档结构，智能划分标题、段落、表格和图表等内容块，帮助大模型理解版面、内容间的对应关系，减少AI“幻觉”现象。赛尔教育CTO、教育数字化事业部总经理杨林提到，教育行业中所涉及的文档格式多样，在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息，并非易事。“教育行业的大模型建设工作中，数据的数量和质量起着决定性作用。我们做了很多尝试，模型的速度和准确性都达不到要求，严重影响科研工作的进展。”杨林表示，行业知识库的构建基于大量文档的文本信息提取，需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务，有效解决了文档处理过程中的问题。除了复杂的版面布局，种类繁多、空间结构复杂的图表元素也是解析难点所在。“大模型加速器2.0”图表解析模块可智能提取多种图表中的关键数据点、坐标轴信息、图例说明等，在精准解析不同类型图表数据的基础上，将其还原为一组完整的Excel表格数据，作用于教育行业大模型微调，学科知识库建设、智能审阅等环节。<img data-alt="图表解析模块将图表还原为表格数据" src="//img.huanqiucdn.cn/dp/api/files/imageDir/c155636f6517e34ae2f06294e8db608fu1.png?imageView2/2/w/1260" />近期，多家券商机构纷纷宣布接入大模型，帮助分析师、行业研究员等专业人士提高工作效率。为帮助用户简化专业文档数据筛选和数据抽取流程，提升文档内容解读效率与准确率，“大模型加速器 2.0” 上线了知识库产品组件，支持复杂文档的智能问答、总结与检索。为了让行业“安心”使用大模型，知识库产品推出溯源功能，通过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间位置信息，实现对句子、段落的精确溯源，为用户提供了一个快速检验的路径。以财务分析为例，大模型在多份高达上千页的财报文件中找到收入、利润等关键数据后，券商分析师可利用溯源功能定位原表格，对信息进行复核，防止错误、遗漏。<img data-alt="知识库对财报数据所在表格进行精准溯源" src="//img.huanqiucdn.cn/dp/api/files/imageDir/a4cc66af7deac45441a38aaa1d93d61du1.png?imageView2/2/w/1260" />据介绍，目前知识库组件已面向开发者开源，帮助其根据自身需要快速构建个性化行业知识库。此前，合合信息已开源智能文档处理“百宝箱”系列产品，解决文档解析精度低、解析效果评估难等问题，开发者可根据研发需求灵活搭配使用。（郑湘琪）</section></article>

7003385

7003386

7003387

7003388

7004638

7004639

7004637

7003389