论文:大数据分析与应用问题研究

2021-06-11 论文

  【摘 要】大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程。主要介绍了大数据定义,分析方法、应用领域等相关问题。

  【关键词】大数据;数据分析;应用领域

  1.大数据的定义

  美国国家标准和技术研究院对大数据做出了定义:“大数据是指其数据量、采集速度,或数据表示限制了使用传统关系型方法进行有效分析的能力,或需要使用重要的水平缩放技术来实现高效处理的数据。”我们认为大数据价值链可分为:数据生成、数据采集、数据储存以及数据分析。数据分析是大数据价值链的最后也是最重要的阶段,是大数据价值的实现,是大数据应用的基础,其目的在于提取有用的值,提供论断建议或支持决策,通过对不同领域数据集的分析可能会产生不同级别的潜在价值。

  虽然这些传统的分析方法已经被应用于大数据领域,但是它们在处理规模较大的数据集合时,效率无法达到用户预期,且难以处理复杂的数据,如非结构化数据。因此,出现了许多专门针对大数据的集成、管理及分析的技术和方法。

  2.大数据分析方法

  布隆过滤器:其实质是一个位数组和一系列HASH函数。布隆过滤器的原理是利用位数组存储数据的HASH值而不是数据本身,其本质是利用HASH函数对数据进行有损压缩存储的位图索引。其优点是具有较高的空间效率和查询速率,缺点是有一定的误识别率和删除困难。布隆过滤器适用于允许低误识别率的大数据场合。

  HASH法,其本质是将数据转化为长度更短的定长的数值或索引值的方法。这种方法的优点是具有快速的读写和查询速度,缺点是难以找到一个良好的HASH函数。

  索引:无论是在管理结构化数据的传统关系数据库,还是管理半结构化和非结构化数据的技术中,索引都是一个减少磁盘读写开销、提高增删改查速率的有效方法。索引的缺陷在于需要额外的开销存储索引文件,且需要根据数据的更新而动态维护。

  TRIE树:又称为字典树,是HASH树的变种形式,多被用于快速检索,和词频统计。TRIE树的思想是利用字符串的公共前缀,最大限度地减少字符串的'比较,提高查询效率。

  并行计算:相对于传统的串行计算,并行计算是指同时使用多个计算资源完成运算。其基本思想是将问题进行分解,由若干个独立的处理器完成各自的任务,以达到协同处理的目的。

  传统数据分析方法,大多数都是通过对原始数据集进行抽样或者过滤,然后对数据样本进行分析,寻找特征和规律,其最大的特点是通过复杂的算法从有限的样本空间中获取尽可能多的信息。随着计算能力和存储能力的提升,大数据分析方法与传统分析方法的最大区别在于分析的对象是全体数据,而不是数据样本,其最大的特点在于不追求算法的复杂性和精确性,而追求可以高效地对整个数据集的分析。总之,传统数据方法力求通过复杂算法从有限的数据集中获取信息,其更加追求准确性;大数据分析方法则是通过高效的算法、模式,对全体数据进行分析。

  3.大数据应用领域

  4.结束语

  大数据引发思维变革。在大数据时代,数据的收集、获取和分析都更加快捷,这些海量的数据将对我们的思考方式产生深远的影响。分析数据时要尽可能地利用所有数据,而不只是分析少量的样本数据。相比于精确的数据,我们更乐于接受纷繁复杂的数据。我们应该更为关注事物之间的相关关系,而不是探索因果关系。大数据的简单算法比小数据的复杂算法更为有效。大数据的分析结果将减少决策中的草率和主观因素,数据科学家将取代“专家”。 [科]

  【参考文献】

  [2]黄晓斌,钟辉新.基于大数据的企业竞争情报系统模型构建[J].情报杂志,2013(03).

  • 相关推荐