信息在企业生存和发展中的重要作用越来越得到人们的认同,许多企业都建立了自己的信息处理系统。这些系统不仅为企业带来了信息处理的便利,而且带来了巨大的财富——大量宝贵的数据。但在多数情况下,企业利用这些系统只是为了提高数据操作的效率,并未意识到隐藏在数据背后的极为重要的商业知识。
如何才能发掘这些知识呢?传统的信息处理工具已经不能应对这一要求,人们需要采用某种方法,自动分析数据、自动发现和描述数据中隐含的商业发展趋势,并自动地标记数据、对数据进行更高层次的分析,以更好地利用这些数据,于是数据挖掘技术应运而生。
随着数据挖掘技术的不断发展,其应用领域也不断拓展。数据挖掘的对象已不仅仅是数据库,也可以是文件系统或是组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义,这些定义尽管表达方式不同,但其本质都是相似的,概括起来主要是基于技术和商业两个角度。
从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息与知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域,且其本身还在不断发展,目前尚有许多富有挑战的领域,如文本数据挖掘、Web信息挖掘、空间数据挖掘等。
从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的规律,验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。