基于图网络的汉字及结构的关联分析方法、介质及设备

2025年6月20日
数园网络
23

申请号:CN202311476751.6

申请人:华南理工大学 | 人工智能与数字经济广东省实验室(广州)

专利权人:华南理工大学 | 人工智能与数字经济广东省实验室(广州)

申请日:2023-11-08

授权日:2024-08-02

专利类型:发明

法律状态:授权

发明人:张通 | 邓忠易

摘要:本发明提供了一种基于图网络的汉字及结构的关联分析方法、介质及设备;其中方法为:构建字频共现矩阵;遍历字频共现矩阵,构建以有向图为网络结构的汉字关联网络;构建汉字到结构序列的映射表;根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字‑结构关联网络;当汉字‑结构关联网络的关键指标有提升则视为有效操作;输出每个汉字的权重以及汉字‑结构关联网络。该方法更关注于字与字之间关联,利用不同汉字间存在相同结构的数据特点有效地缓解词性失衡问题对分析结果的干扰,有效提升中文语料库学习效率和学习准确率。

摘要附图: