← 返回列表

一种多语言文本数据分析系统及方法

申请号: CN202410123385.4
申请人: 中国标准化研究院
申请日期: 2024/1/30

摘要文本

本发明公开了一种多语言文本数据分析系统及方法,涉及智慧城市资讯文本处理技术领域,该系统通过对源语言和目标语言翻译结果的差异性评估,实现了对翻译质量的精准控制。当翻译不合格时,能够精准定位翻译错误的区域,为后续的修正提供有力支持,避免了传统方法整体替换的粗糙处理方式。通过分析框架建模和自动化分类模块,系统能够自动识别智慧城市文本的关键主题和实体,实现了对多语言文本的自动化分类与主题提取,为城市管理者和决策者提供了更直观、高效的信息参考。通过应用词量化与匹配模块,系统将文本数据关联到智慧城市领域,实现了对领域特定信息的自动化识别与分类,使得分析结果更具专业性和针对性。

专利详细信息

项目 内容
专利名称 一种多语言文本数据分析系统及方法
专利类型 发明申请
申请号 CN202410123385.4
申请日 2024/1/30
公告号 CN117648410A
公开日 2024/3/5
IPC主分类号 G06F16/33
权利人 中国标准化研究院
发明人 孙兆洋; 隋媛
地址 北京市海淀区知春路4号

专利主权项内容

1.一种多语言文本数据分析方法,其特征在于:包括以下步骤,步骤一、采集有关多语言智慧城市社交媒体的文本数据、多语言事件报告、新闻报道和宣传文本,建立文本数据集;步骤二、训练多语言映射模型,收集来自不同语言的大规模文本语料库,并提取训练词嵌入多语言映射模型中进行深度训练,采用共享的词嵌入空间,通过让不同语言共享同一嵌入矩阵进行实现后,优化多语言映射模型;步骤三、对所述文本数据集,进行第一文本处理后,提取所述文本数据集的源语言和目标语言,并对源语言和目标语言进行多语言映射模型的基础上进行语义空间建模后进行翻译后,获得第一目标语言翻译结果,并采集源语言和第一目标语言翻译结果之间的差异性信息,通过差异性信息计算获得差异系数Cy;步骤四、将获得的差异系数Cy与标准相似度阈值R对比,当差异系数Cy≤标准相似度阈值R时,则表示第一目标语言翻译合格,将翻译合格的文本数据集按照结构大小排序列表,建立第一修正数据集;当差异系数Cy>标准相似度阈值R时,则表示第一目标语言翻译不合格,并匹配定位翻译错误的区域,形成误差文本区域;步骤五、建立分析框架模型,将第一修正数据集映射至分析框架模型中,提取分析数据集的框架结构,并对若干个框架结构第二缩进处理后,依据智慧城市关键词进行相对应的分类。