近来,由静安要点科企合合信息公司与琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年作业委员会联合举办的第十九届中国图象图形学学会青年科学家会议——笔直范畴大模型论坛在广州举办,来自高校、医疗、工业、作业等职业代表性企业的“产学研”技能专家,在论坛上一起共享了前沿技能成果与实战思路,从而为大模型在笔直范畴中的使用寻觅新的落脚点。
记者从论坛上了解到,现在,以大模型为代表的人工智能技能正重塑着千行百业。相较于通用大模型,笔直范畴大模型专心于特定场景的数据和常识,在处理杂乱、专业的场景问题时具有更高的准确性和功率,因而,笔直范畴大模型的作用与发展前途也成为了各界研讨的要点。
文档处理是笔直范畴大模型的重要研讨方向。受制于图画质量低下,版式丰厚,文字字体、色彩多样等要素的影响,文档图画智能剖析与了解才能的大幅度提高面临着应战。2023年9月,继GPT-4后,Open AI发布了具有视觉功用的多模态模型GPT-4V(V即“Vision”),具有杰出的文档图画了解才能,引起职业广泛重视。
论坛上,静安科技公司合合信息智能技能渠道事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理范畴的实践体现进行了解析,并将合合信息在智能文档处理范畴的研讨成果共享给了到会论坛的专家。
丁凯表明,GPT-4V在场景文字辨认、言语形状、言语品种、手写辨认、公式辨认、几何图形辨认、表格了解等方面的体现非常冷艳,针对杂乱图表剖析了解、文档抽取和推理成果也非常超卓。但GPT-4V在中文、手写公式、场景文字辨认和表格辨认上存在缺点;面临多栏目、表格等杂乱版式的文档时,大模型的处理作用间隔当时SOTA(State Of The Art)的办法尚有很大的间隔。
“在智能文档处理范畴,大模型支撑辨认和了解的文档元素类型远超传统算法,大幅度拓宽了AI技能在文档剖析与辨认范畴的才能鸿沟,端到端完成了文档从辨认到了解的全过程。不足之处在于,现在大模型的OCR精度间隔范畴最佳模型有较大间隔,长文档依靠外部的文档解析引擎。”丁凯以为,技能企业能把“感知”层面的作业做好,让大模型更好地去做“认知”,这种交融研讨范式在智能文档处理范畴中具有活跃的含义。
据悉,现在合合信息—华南理工大学文档图画剖析辨认与了解联合实验室针对大模型文档处理中的像素级OCR一致模型、OCR大一统模型等要点技能方向进行了深入研讨,相关作业成果在文本去除、文本切割和篡改文本检测使命上得到了广泛验证。此外,实验室还经过立异的文档辨认剖析与LLM(自然言语模型)使用规划,充沛的使用序列猜测的优势,更好地处理文档图画处理中的多样化使命需求,而且经过与LLM的结合,完成了更高层次的文档了解和剖析,为文档图画处理范畴带来了更多可能性。
是一家人工智能及大数据科技公司,致力于经过智能文字辨认及商业大数据范畴的核心技能、C端和B端产品以及职业处理方案,为全球企业和个人用户更好的供给立异的数字化、智能化服务。经过自然言语处理(NLP)、计算机视觉(CV)、深度学习等人工智能技能,合合信息智能文档处理系统可完成“文档导入—图画处理—文字检测与辨认—信息抽取—数据验证—语义检索与摘要”全流程智能化处理,相关这类的产品及处理方案已在全世界内被使用于金融业、物流业、制造业等多个职业中。
原标题:《静安科企携手国内“产学研”专家探究大模型技能(使用)新落脚点》
本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。