大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
包括三个方面:
1.结构化数据:指用关系数据库方式记录的数据,数据按表和字段进行存储,字段之间相互独立。
2.半结构化数据:指以自描述的文本方式记录的数据。
由于自描述数据无需满足关系数据库式那种较严格的结构和关系,在使用过程中较方便。
3.非结构化数据:指语音、图片、视频等格式的数据。
这类数据一般按照特定应用格式进行编码,数据量较大且不能简单地转换成结构化数据。
大数据技术是以数据为本质的新一代革命性的信息技术,在数据挖潜过程中,能够带动理念、模式、技术及应用实践的创新,大数据的利用过程一般包括数据的挖掘、数据的采集、数据的存取、数据的处理、数据的统计与分析以及模型的预测等。
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特征是容量、种类、速度、可变性、真实性、复杂性和价值,大数据包括结构化、半结构化和非结构化数据,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据,适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。