← 返回列表

一种以Hadoop为核心的大数据服务器

申请号: CN202311810915.4
申请人: 泰安北航科技园信息科技有限公司
更新日期: 2026-03-09

专利详细信息

项目 内容
专利名称 一种以Hadoop为核心的大数据服务器
专利类型 发明授权
申请号 CN202311810915.4
申请日 2023/12/27
公告号 CN117519608B
公开日 2024/3/22
IPC主分类号 G06F3/06
权利人 泰安北航科技园信息科技有限公司
发明人 张志千; 王春阳; 孔德政; 张晨玺
地址 山东省泰安市泰山区文化路44号

摘要文本

本发明涉及数据处理技术领域,本发明公开了一种以Hadoop为核心的大数据服务器;包括计算小文件数据的容量占用值和分布节点的容量剩余值,将容量占用值与容量剩余值对比分析,判定是否选择优化指令,计算选择系数,选择第一优化指令或第二优化指令,从而对小文件数据进行合并和调整数据块大小处理;相对于现有技术,能够对海量的小文件数据进行合并或调整数据块大小的处理,从而将海量的小文件数据优化到满足分布节点高效准确处理计算的数量,降低分布节点处理小文件数据时的空间占用幅度,进而提高服务器中分布节点对海量小文件数据存储和访问效率,增强服务器的运行计算速率,降低发生延迟或故障现象的概率。

专利主权项内容

1.一种以Hadoop为核心的大数据服务器,其特征在于,包括:数据采集模块,用于标记分布节点的小文件数据,采集小文件数据的综合容量参数,基于综合容量参数,计算容量占用值,综合容量参数包括数据总量、非结构占比率和可汇总占比率;节点容量计算模块,用于采集分布节点的容量总值和总占用值,基于容量总值和总占用值,计算容量剩余值;对比分析模块,用于将容量占用值与容量剩余值对比分析,获得容量差值,基于容量差值,判定是否进行优化处理;容量差值的表达式为:
;式中,为容量差值;是否进行优化处理的判定方法包括:当大于0时,判定进行优化处理;当小于等于0时,判定不进行优化处理;系数计算模块,用于采集小文件数据的选择参数,基于选择参数,生成选择系数;选择参数包括数据均值、访问频率和处理速率;数据均值的获取方法包括:随机标记个小文件数据,并记录/>个小文件数据对应的字节值;去掉个字节值中的最大值和最小值后,将剩下的/>个字节值累加后求平均,获得数据均值;数据均值的表达式为:
>式中,为数据均值,/>为第/>个字节值;访问频率的获取方法包括:通过分布节点的访问日志获取时刻至/>时刻小文件数据的访问次数,/>时刻与/>时刻不相邻;按照预设时长,将时刻至/>时刻等分为/>个子时刻,/>为2的整数倍,并将/>个子时刻依次编号;统计个编号为奇数的子时刻的访问次数,/>等于/>,获得/>个子频率;子频率的表达式为:
;式中,为第/>个子频率,/>为第/>个访问次数,/>为预设时长;将个子频率累加后求平均,获得访问频率;访问频率的表达式为:
;式中,为访问频率,/>为第/>个子频率;选择系数的表达式为:
;式中,为选择系数,/>为处理速率,处理速率通过分布节点对应的系统监控工具Ganglia获取,/>、/>、/>为权重因子;指令选择模块,用于将选择系数与预设的选择阈值比较,根据比较结果,选择第一优化指令或第二优化指令;第一优化指令或第二优化指令的选择方法包括:将小文件数据对应的选择系数与预设的选择阈值/>进行差值比较,/>大于0;当大于等于/>时,选择第一优化指令;当小于/>时,选择第二优化指令;合并执行模块,用于依据第一优化指令,对小文件数据进行合并处理;调整执行模块,用于依据第二优化指令,对小文件数据进行调整数据块大小处理。