基于CTC解码器的文本序列识别模型校准方法

2025年6月20日
数园网络
35

申请号:CN202210402975.1

申请人:华南理工大学 | 人工智能与数字经济广东省实验室(广州)

专利权人:华南理工大学 | 人工智能与数字经济广东省实验室(广州)

申请日:2022-04-18

授权日:2022-08-05

专利类型:发明

法律状态:授权

发明人:黄双萍 | 罗钰 | 徐可可

摘要:本发明公开了基于CTC解码器的文本序列识别模型校准方法,包括:将文本图像支撑集输入至待校准训练模型中,获得文本序列识别结果;利用文本图像支撑集的文本序列识别结果计算上下文混淆矩阵,上下文混淆矩阵用于表征序列中相邻时刻预测字符之间的上下文分布关系;根据上下文混淆矩阵,利用上下文相关预测分布对标签平滑中平滑强度有选择性地进行自适应的变化,以实现序列置信度的自适应校准;基于上下文选择性损失函数重新训练待校准训练模型,输出预测文本序列及校准的置信度。本发明方法将标签平滑扩展到基于CTC解码器的文本序列识别模型上,引入序列间上下文关系,对预测序列进行自适应的校准,使得模型输出预测文本置信度能够更加精准。

摘要附图: