生物安全数据库提取验证方法和系统
摘要文本
本发明涉及数据提取验证领域,具体是生物安全数据库提取验证方法和系统,获取生物安全数据库的数据,将数据进行数据清洗和获取数据在历史提取中的引证率、异常情况;将数据进行格式转换、数据编码,获取数据的数据分类以及数据形态,获取处于设定置信度阈值区间的数据;获取已知的参照数据,将数据与参照数据进行比较,再将数据进行论证,根据论证结果对数据添加标定词并生成反馈机制;通过对数据多方面的验证,从而有效的提高数据的准确性。
申请人信息
- 申请人:天津大学
- 申请人地址:300072 天津市南开区卫津路92号
- 发明人: 天津大学
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 生物安全数据库提取验证方法和系统 |
| 专利类型 | 发明申请 |
| 申请号 | CN202410216976.6 |
| 申请日 | 2024/2/28 |
| 公告号 | CN117785862A |
| 公开日 | 2024/3/29 |
| IPC主分类号 | G06F16/215 |
| 权利人 | 天津大学 |
| 发明人 | 肖娜; 赵超; 张兮 |
| 地址 | 天津市南开区卫津路92号 |
专利主权项内容
1.生物安全数据库提取验证方法,其特征在于,所述方法包括:获取从生物安全数据库提取的数据,将所述数据进行数据清洗后得到第一数据;所述数据清洗是使用数据处理方法将特有标定词的数据以及重复数据进行删除;获取第一数据在历史提取中的引证率、异常情况;所述异常情况是提取数据论证为异常值时,将该数据标记异常标定词;获取第一数据中引证率大于设定阈值且将带有异常标定词的数据赋予设定权重后记为第二数据;将第二数据通过数据处理得到第三数据;所述数据处理包括数据格式转换、数据编码;所述数据格式转换是通过数据格式转换方法将不同格式的数据转换为预设定的统一格式;所述数据编码是采用编码算法将非数值型数据编码为数值型数据;获取第三数据的数据分类以及数据形态;所述数据分类是将第三数据通过数据分类算法得到第四数据;所述数据形态是对第四数据进行描述性统计分析得到,并通过正态性检验方法检验第四数据是否服从正态分布;当服从正态分布时,获取处于设定置信度阈值区间的数据并记为第五数据;当不服从正态分布时,则第五数据等于第四数据;获取已知的参照数据,将第五数据与所述参照数据进行比较,将第五数据与所述参照数据之间的差异值大于设定差异阈值的数据删除得到第六数据;将第六数据进行论证得到论证结果,根据所述论证结果对第六数据添加标定词并反馈给数据库管理中心;当数据库管理中心接收到反馈时,将生成数据反馈机制;若无已知的参照数据,则第六数据等于第五数据。