学科分类
/ 1
12 个结果
  • 简介:Acompressionalgorithmisproposedinthispaperforreducingthesizeofsensordata.Byusingadictionary-basedlosslesscompressionalgorithm,sensordatacanbecompressedefficientlyandinterpretedwithoutdecompressing.Thecorrelationbetweenredundancyofsensordataandcompressionratioisexplored.Further,aparallelcompressionalgorithmbasedonMapReduce[1]isproposed.Meanwhile,datapartitionerwhichplaysanimportantroleinperformanceofMapReduceapplicationisdiscussedalongwithperformanceevaluationcriteriaproposedinthispaper.Experimentsdemonstratethatrandomsamplerissuitableforhighlyredundantsensordataandtheproposedcompressionalgorithmscancompressthosehighlyredundantsensordataefficiently.

  • 标签: 数据压缩 传感器 无损压缩算法 冗余度 评价标准 应用程序
  • 简介:Privacypreservingdataminingalgorithmsarecrucialforthepersonaldataanalysis,suchasmedicalandfinancialrecords.Thispaperfocusesonfeatureselectionandproposesanewprivacypreservingdistributedalgorithm,whichcaneffectivelyselectfeaturesbasedondifferentialprivacyandGiniindexundertheMapReduceframework.Atthesametime,thetheoreticanalysisforprivacyguaranteeisalsopresented.Someexperimentsareconductedonbench-markdatasets,thesimulationresultsindicatethatduringtheselectionofimportantfeatures,theproposedalgorithmcanpreserveprivacyinformationtoacertainextentwithlesstimecostthanoncentralizedcounterpart.

  • 标签: 特征选择 框架 数据挖掘算法 隐私保护 分布式算法 数据分析
  • 简介:摘要聚类作为典型的数据分析方法,尤其是对大规模数据进行聚类分析成为近年来的研究热点。针对现有序列聚类算法在大数据计算时存在开销大的问题,提出了基于MapReduce的人工蜂群聚类算法。通过引入MapReduce并行编程范式,快速计算聚类中心适应度,基于仿真和真实的磁盘驱动器制造两类数据,对算法的聚类效果进行了验证。实验结果表明,本文算法具有更好的聚类效果。

  • 标签: MapReduce 人工蜂群 聚类
  • 简介:摘要网络信息技术快速发展模式下,依照信息共享平台,实施MapReduce大规模的数据算法分析,通过高效的数据挖掘,对计算机系统中的规模数据进行提升。根据计算机综合信息应用,对数据规模进行结构化分析,判断MapReduce大规模数据分析下,相关数据的挖掘应用。通过生物信息、网路信息、媒体数据组合模式,以图例、音频、视频等模式进行数据分布,判断大数据背景下的综合数据高维思路,结合数据的综合合适分布操作模式,加强数据计算机的分布模式应用分析。

  • 标签: MapReduce 数据挖掘 技术分析
  • 简介:虽然关系数据库擅长于OLTP事务处理,但在处理大规模数据时却性能不足。MapReduce凭借其易操作性、高扩展性和高并发性,在大规模数据处理中占据优势。结合这两种技术,设计出兼有两者优点的技术架构是解决大数据分析问题的重要途径之一。二者共生的大数据生态系统成为技术融合的重要趋势。

  • 标签: 关系型数据库 MAPREDUCE 大数据分析
  • 简介:关联规则是数据挖掘的重要方法之一,但传统的关联规则算法Apriori需要多次扫描数据库,需要很大的I/O开销,不能处理节点失效和负载均衡。云计算下的MapReduce模型能够处理节点失效并能做到负载均衡。将传统的关联规则算法Apriori进行改进,然后移植到Hadoop平台,提出了基于MapReduce编程的数据挖掘算法,它能高效的、并行的完成海量数据挖掘任务。通过实验验证了算法的有效性。

  • 标签: 云计算 数据挖掘 APRIORI算法 MAPREDUCE
  • 简介:针对经典的Apriori算法需要多次扫描数据库,不适合大规模数据这个问题,提出了一种改进的Apriori算法.该算法采用布尔向量关系运算思想,将事务数据库扫描后转化成压缩矩阵,在MapReduce框架下将压缩矩阵进行分块,每块分别被做并列式处理.利用分压缩矩阵快速计算所有的候选项集,从中产生频繁K-项集,降低了Apriori算法的时间复杂度.

  • 标签: 关联规则 MAPREDUCE 压缩矩阵 APRIORI
  • 简介:摘要网络信息技术快速发展模式下,依照信息共享平台,实施MapReduce大规模的数据算法分析,通过高效的数据挖掘,对计算机系统中的规模数据进行提升。根据计算机综合信息应用,对数据规模进行结构化分析,判断MapReduce大规模数据分析下,相关数据的挖掘应用。通过生物信息、网路信息、媒体数据组合模式,以图例、音频、视频等模式进行数据分布,判断大数据背景下的综合数据高维思路,结合数据的综合合适分布操作模式,加强数据计算机的分布模式应用分析。

  • 标签: MapReduce 数据挖掘 技术分析
  • 简介:针对工业监测数据在特征提取环节需要处理的数据集越来越大、实效性要求越来越高的问题,设计了一种在云计算平台MaxCompute环境下并行化的排列熵(PermutationEntropy,PE)算法。采用MaxCompute表存储海量的监测数据,基于MaxCompute扩展MapReduce模型设计了并行化排列熵算法,用于海量监测历史数据的批量排列熵特征提取。通过在单机和云计算平台环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系。

  • 标签: 排列熵 监测数据 大数据计算服务 MAPREDUCE
  • 简介:MapReduce调度算法包括默认的FIFO调度裴略、公平调度策略、计算能力调度策略,在试题库组卷过程中采用的是分阶段的任务方式来实现的,根据任务优化MapReduce算法是本文要解决的问题。提出分级调度算法,把现有的调度策略在分级任务基础之上分为多级模式,不断趋近最终结果,根据任务的不同阶段进行分级分阶调度符合不同阶段不同需求。实验表明,多阶段调度算法能够满足试题库组卷任务的检索需求。

  • 标签: 云计算 MAPREDUCE 分级调度 组卷
  • 简介:近年来各省级地震台网SEED文件数据量急增.在数据处理过程中,利用原有的串行解压缩算法批量解压缩地震波形数据时存在操作繁琐、耗时较长的问题.本文引入了MapReduce并行编程模型,根据该编程模型思想结合原有串行解压缩算法,提出了一种并行解压缩地震波形数据的算法,并给出了算法的设计与实现.本文从正确性、运行效率以及可扩展性三个方面进行了对比实验,验证了使用并行算法解压缩数据的效率较高,并且能够一次实现批量地震波形数据的解压缩,且操作简单.

  • 标签: 地震波形数据 解压缩 并行