一种基于网页xpath获取新闻正文的通用方法
摘要文本
本发明提供了一种基于网页xpath获取新闻正文的通用方法,属于自然语言处理技术领域,其方法包括:通过Scrapy爬虫框架工具获取新闻网站的xpath;用k‑means相似度聚类分组算法,将网页中的xpath进行分组,得到n组xpath;通过n组xpath中每组xpath反向推出每个xpath所对应内容;获取每组xpath总内容文本大小,筛选出文本最大的组;将所述文本最大的组作为xpath正文部分入库,实现对网页新闻正文内容的爬取。解决了新类型的网站也需要通过维护规则库的方式达到获取正文的目的,人工投入量较大,维护成本较高的问题。
申请人信息
- 申请人:北京国科众安科技有限公司
- 申请人地址:100089 北京市海淀区万寿路西街2号2号楼5层
- 发明人: 北京国科众安科技有限公司
专利详细信息
| 项目 | 内容 |
|---|---|
| 专利名称 | 一种基于网页xpath获取新闻正文的通用方法 |
| 专利类型 | 发明申请 |
| 申请号 | CN202311344752.5 |
| 申请日 | 2023/10/17 |
| 公告号 | CN117573959A |
| 公开日 | 2024/2/20 |
| IPC主分类号 | G06F16/951 |
| 权利人 | 北京国科众安科技有限公司 |
| 发明人 | 胡红亮; 郭传斌; 聂雯莹; 杨万波; 丁荣; 史梦涵 |
| 地址 | 北京市海淀区万寿路西街2号2号楼5层 |
专利主权项内容
1.一种基于网页xpath获取新闻正文的通用方法,其特征在于,该方法包括:步骤1:通过Scrapy爬虫框架工具获取新闻网站的xpath;步骤2:用k-means相似度聚类分组算法,将网页中的xpath进行分组,得到n组xpath;步骤3:通过n组xpath中每组xpath反向推出每个xpath所对应内容;步骤4:获取每组xpath总内容文本大小,筛选出文本最大的组;步骤5:将所述文本最大的组作为xpath正文部分入库,实现对网页新闻正文内容的爬取;其中将所述文本最大的组作为xpath正文部分入库之后,还包括:获取所有xpath形成的文本并进行段落划分,划分为多个段落块;根据每个段落块的文本属性获得每个段落块的标签属性;确定每个段落块的候选关键词的数量,获取每个候选关键词的关键词参数;根据每个候选关键词的关键词参数确定该候选关键词与其所属的目标段落块的目标标签属性的目标关联度;将目标关联度大于等于预设关联度的目标候选关键词进行筛选,获得每个段落块各自对应的当前数量个目标候选关键词;解析每个目标候选关键词的特征因子;基于特征因子,确定对应段落块基于同段落块中每个目标候选关键词的依赖度,并筛选依赖度大于等于预设阈值的期望候选关键词;将所述每个段落块对应的期望候选关键词,确定为每个段落块内与所述标签属性相关的目标关键词;利用目标关键词在文本中进行搜索,获得每个目标关键词所搜索出的关联文本;对每个目标关键词所搜索出的关联文本进行解析,获取每个目标关键词的相关参数映射信息;根据每个目标关键词的相关参数映射信息确定该目标关键词的价值指数;在所有价值指数中选择最大价值指数,并将最大价值指数对应的目标关键词作为实体关键词;利用预设词性解析方式解析所述实体关键词的目标词性;根据所述实体关键词的目标词性确定所有xpath形成的文本的具体表达方法。