随着计算机技术和信息技术的发展,信息产生的渠道越来越多,信息更新的频率日益加快,在“数据过剩”和“信息爆炸”的同时,人们正被信息淹没,却饥渴于有用信息的提取。面对浩渺无际的数据海洋,人们迫切需要一种能够从海量的数据中提取有价值知识和信息的技术,基于人工智能的数据挖掘技术便应运而生,并被广泛应用。
一、数据挖掘技术
1、数据挖掘
所谓数据挖掘(data mining,简称dm),是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。数据挖掘是数据库知识发现(knowledgedicoveryindtabases,简称kdd)中的重要技术,它通过对查询内容进行模式的总结和内在规律的搜索,帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为,从而为决策行为提供有利的支持,很多人又将其称为数据淘金。
数据挖掘是面向数值数据的挖掘,其功能主要有:(1)自动预测趋势和行为。数据挖掘自动在大型数据中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。(2)关联分析。数据关联是数据库中存在的一类重要的可被发现的知识,若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。(3)聚类。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。(4)概念描述。概念描述就是对某对象的内涵进行描述,并概括这类对象的有关特征,分为特征性描述和区别性描述。(5)偏差检测。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
2、web挖掘
web挖掘是一项综合技术,涉及web、数据挖掘、计算机语言学、信息学等多个领域。web挖掘就是从web文档、web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对web资源进行挖掘的一个新兴的研究领域。web挖掘的处理流程为查找资源、信息选择和预处理、模式发现、模式分析。
web挖掘可以分为三类0:(1)web内容挖掘。web内容挖掘是从文档内容或其描述中抽取知识的过程。web内容挖掘有两种策略:一种是直接挖掘文件的内容,另一种是在其他工具搜索的基础上进行改进。(2)web结构挖掘。web结构挖掘是从web的组织结构和链接关系中推导知识。由于文档之间的互连web能够提供除文档内容之外的有用信息,利用这些信息,可以对页面进行排序发现重要页面。(3)web使用记录的挖掘。web使用挖掘就是对用户访问web时在服务器留下的访问记录进行挖掘,其主要目标是从web的访问记录中抽取感兴趣的模式。web中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。
二、数据挖掘技术在档案编研选题中的应用
选题是依据编纂的材料基础和用户的利用需求来确定编纂题目的工作。在数据挖掘技术出现之前,档案编研部门要了解社会用户对档案文献信息的现实的与潜在的需求,只有通过用户抽样调查或者借阅数据的抽样统计来进行,既费时费力,也分析的不够全面具体。有了数据挖掘技术以后,可以利用档案馆的信息管理系统中的用户借阅数据进行分析统计,可以利用用户经常访问的网页进行分析、挖掘,了解到用户的兴趣爱好、研究方向,预测用户需求,从而确定档案编研的选题。
1、用户利用档案的数据挖掘
档案用户需求调研是档案编研选题成功与否的关键因素之一。它是指通过一定的方式与方法,在深入调查、掌握档案用户利用需求情况的基础上,揭示各类用户的需求特点与规律的一项业务活动。一般而言,档案馆在日常的档案利用服务中所积累的利用统计数据,可比较准确地揭示某一时期社会档案信息需求的动向。
档案利用统计的具体指标主要包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等。数据挖掘自动在档案馆的信息数据库中寻找用户利用档案的所有数据,对搜集到的数据进行聚类,利用聚类结果对不同的用户赋以不同的类标记,然后利用分类功能,对用户特征进行建模,挖掘出不同类的用户的不同特征。档案编研部门可以针对不同用户提供个性化服务,按需确定不同类型的编研题目。只有这样,档案编研选题才能贴近社会、贴近公众,编研产品才会被广大用户所认可和欢迎,档案编研的效果与价值才能真正的以用户利用的效益方式体现出来。
2、用户访问记录的web使用挖掘
由于网络速度和计算机软硬件处理能力的大大提高,使得服务器可以在档案用户访问网站的同时记录用户访问信息。具体做法是:在档案馆网页设计时,对各链接对象进行设置,当用户访问该链接对象时,系统自动将用户的信息和访问对象的信息实时传递到服务器端的用户访问记录文件中,然后结合历史数据和客户实时访问的信息进行数据挖掘,采用分析网页关键字、下载记录、检索词、用户对网页利用时间和频度等方式获取用户需求信息。
用户使用记录挖掘主要是对服务器日志、cookie、用户注册数据、电子邮件查询响应数据及web购买数据的挖掘。目前,使用记录挖掘可分为两大类:访问模式的追踪和个性化使用记录的追踪。其中个性化的使用记录追踪倾向于分析个别用户的偏好,其目的是根据不同用户的访问模式,提供相应的定制服务。档案编研部门通过对用户访问记录的挖掘,在数字对象和用户、对象分类和主题之间进行模式匹配,采用不同挖掘技术如基于业务聚类、使用聚类和联合规则来自动提取信息,通过数据分析,了解和掌握档案用户需求的特点,预测其未来趋向,结合社会热点选定档案编研题目。
3、建立档案编研选题的用户模型
(1)问题定义
问题定义是数据挖掘中的第一步,也是最重要的的一步,即对挖掘的目标作一个清楚的定义。具体来说,就是通过分析档案馆服务器的日志数据、用户检索结果等,来挖掘出档案用户的使用模式和兴趣模式,从而使档案编研部门可以利用这些搜集到的信息有针对性地、有目的性地组织选题,进行编研工作,推出用户满意的编研成果。这样即可以有效地克服出版发行者的盲目性,改变目前存在的某种程度的供需失调的状况,真正根据用户的需求来出版档案文献编纂成果,从而避免了因为不了解社会的实际需要而造成的过量出版和需求短缺。
(2)建立挖掘数据库
挖掘数据库是一个储存待挖掘数据的数据库。档案馆的服务器日志数据和档案用户的注册信息等,都是挖掘数据库的数据源。在数据写人挖掘数据库前,要先对数据源的数据进行筛选和整合,包括修改错误的记录、删除不相关的记录等;通过处理后的数据就成为挖掘的数据了。同时,数据库的数据需要不断地进行新增、修改和删除,以求得到更好的数据效果。
(3)分析数据
在挖掘数据库建立之后,就要对数据库中的数据进行分析处理:首先根据档案用户id划分数据,找到每个用户的访问记录集;然后将该用户的访问记录集以一个固定的时间间隔进行分割,找到该用户的每一次访问记录集(我们称这个每一次访问记录集为一个“访问事务”);最后,将所有的访问事务按时间排序,构成进行挖掘的事务集。每一个访问事务相当于访问者对站点的一条访问路径。另外,还需把网页中的文本、图片及其他文件转换成数据挖掘算法的可用形式。
(4)建立模型
建立模型之前需要进行数据准备工作,包括选择预测变量、记录,创建新变量和转换变量。选择适当的变量和记录能大大提高模型的建立效率。在多数情况下,我们还需创建一些新的预测变量(比如一些比值),以增加预测模型的准确性;根据选择的算法和工具需对变量进行转换。在数据挖掘中采用比较多的算法主要有神经网络和决策数算法。
建立模型是个反复寻求最佳模型的过程。我们把挖掘数据库分成两部分:一部分用来进行模型训练,另一部分用来测试模型。我们首先利用训练集建立一个用户模型,然后用测试集对模型进行测试;根据测试结果,对训练数据进行一些修改或新建预测变量,再生成新的用户模型。建立新的用户模型可以使用与上次一样的算法,也可以取用其他算法建模。最后,从建立的几个用户模型中选择一个最有效的模型。
(5)评价和解释
档案用户模型建好后,需评价其实用性和有效性,解释其价值。我们可从原始信息数据库中拿出一定百分比的数据作为测试数据,对建立的模型进行测试。通过对模型给出的结果和原始数据信息进行比较,测量出模型的准确率。若准确率高于既定的标准,就认为这个模型是有效的;若低于既定标准,则需找出错误原因,并重新进行挖掘。