中图法分类号:F724.6文献标识码:A

Abstract: With the rapid development of mobile communication
technology, mobile e-commerce gets a lot of network users because of
the advantages of convenient, fast and so on. Behavior analysis of
mobile Internet user has become the rapid developed knowledge field. As
a basis of user behavior analysis Web data mining technology has a high
practical value in the field of mobile e-commerce. The definition of
Web-based data mining and features of Web data are introduced in the
article, the processes and algorithms of Web usage mining are focused
researched, including data preprocessing, pattern discovery and
pattern analysis. In addition, based on the traditional enterprise
involving e-commerce and business field diversification, how to
construct large-scale e-business online platform, how to effectively
collect vast amounts of data generated by the platform and how to use
data mining technology to serve enterprises are innovatively researched.

中图分类号:TP393 文献标识码:A 文章编号:1009-304414-0251-02

1Web日志挖掘技术及应用分析

Key words: mobile e-commerce;Web data mining;electronic
platform;user behavior analysis

1 概述

Internet是信息社会的重要标志,它的爆炸式的发展已经超出人们预期的想象,为了更好的分析Web的使用和Web的结构,Web日志挖掘作为数据挖掘[1]的一个重要分支,随着Web的发展而出现。1997年R.Cooley首先提出Web使用挖掘这个概念,它通过挖掘Web站点的访问日志,分析Web日志中存在的规律,掌握用户访问站点的模式;从而帮助网站管理者识别潜在的客户、更好地开展电子商务、改善Internet的信息服务质量和提高Web服务器的系统性能。

中图分类号:TP311 文献标识码:A 文章编号:1006-431126-0245-05

电子商务是指企业或个人以网络为载体,应用电子手段,利用现代信息技术进行商务数据交换和开展商务业务的活动。随着互联网的迅速发展,电子商务比传统商务具有更明显的优势,由于电子商务具有方便、灵活、快捷的特点,使它已逐渐成为人们生活中不可缺少的活动。目前电子商务平台网站多,行业竞争强,为了获得更多的客户资源,电子商务网站必须加强客户关系管理、改善经营理念、提升售后服务。数据挖掘是从数据集中识别出隐含的、潜在有用的、有效的,新颖的、能够被理解的信息和知识的过程。由数据集合做出归纳推理,从中挖掘并进行商业预判,能够帮助电子商务企业决策层依据预判,对市场策略调整,将企业风险降低,从而做出正确的决策,企业利润将最大化。随着电子商务的应用日益广泛,电子商务活动中会产生大量有用的数据,如何能够数据挖掘出数据的参考价值?研究客户的兴趣和爱好,对客户分门别类,将客户心仪的商品分别推荐给相关客户。因此,如何在电子商务平台上进行数据挖掘成为研究的热点问题。

Web
日志挖掘[2]作为数据挖掘的一个重要分支,已经成为国际上一个新兴的重要研究领域。其中最有代表性的是
WEBKDD 会议,从 1999
年到现在,WEBKDD已经涌现了丰硕的成果。比较有代表性的研究成果有:Simon
Fraser 大学的Weblog Miner系统,它将 Web
日志数据组织为数据立方体,然后在其上进行联机分析处理和数据挖掘[3],用于发现用户的访问模式。Minnesota
大学的 WEBMINER 系统提出一种通用的 Web
日志挖掘的体系结构,该系统能自动从 Web 日志中发现关联规则和序列模式等。

1 移动电子商务与数据挖掘

2 数据挖掘技术概述

Web 日志挖掘的研究主要应用于网站优化的以下几个领域。

1.1 移动电子商务与数据挖掘的关系
目前,移动互联网技术和数据库技术飞速发展,移动电子商务正显示出越来越强大的生命力,它把电子交易从传统的PC端转移到了移动终端,使人们可以随时随地进行电子商务活动,这加速了社会经济的电子化进程,同时也使得数据爆炸的问题越来越严重。数据挖掘的兴起为电子商务提供了强大的数据支撑,利用数据挖掘技术可以有效的帮助企业分析网上获取的大量数据,发现隐藏在其背后的知识,为电子商务客户提供个性化服务,建设智能商务网站,指导企业的营销策略,由此使企业线上的业务得到进一步的发展。

数据挖掘,也称数据库中的知识发现。数据挖掘一般是指从海量数据中应用算法查找出隐藏的、未知的信息的过程。数据挖掘是一个在大数据资源中利用分析工具发现模型与数据之间关系的一个过程,数据挖掘对决策者寻找数据间潜在的某种关联,发现隐藏的因素起着关键作用。这些模式是有潜在价值的、并能够被理解的。数据挖掘将人工智能、机器学习、数据库、统计、可视化、信息检索、并行计算等多个领域的理论与技术融合在一起的一门多学科交叉学问,这些学科也对数据挖掘提供了很大的技术支撑。

1.1频繁访问模式挖掘,指的是从 Web
日志中找到频繁被访问的网页序列,对被频繁访问的网页路径进行挖掘可以改进
Web 站点的结构设计,也可以为网站经营者提供决策参考。

移动电子商务便捷以及交互式的服务可以为数据挖掘提供海量的数据。因为客户对网站的每一次点击都会被网络服务器记录在日志中,由此产生了点击流数据。网站的服务器日志,后台数据库中客户相关的数据,以及大量交易记录等数据资源中都蕴含着海量有待充分挖掘的信息,海量数据是数据挖掘的一个必要条件,如果数据量少,则挖掘的信息是不够精准的。

3 Web 数据挖掘特点

1.2用户聚类,指的是从 Web
日志中找到访问模式相似的网站用户群,发现这些网站用户的共同特点。

移动电子商务网站可以为数据挖掘提供“干净的”数据。因为许多相关的信息是从网站上直接提取的,无需从历史系统中集成,避免了很多错误。通过良好的站点设计,不需要进行分析、计算和预处理等步骤,就可以直接得到与数据挖掘相关的数据。移动电子商务网站的数据,非常可靠,无需人工输入,从而避免了很多错误。此外,可以通过良好的站点设计来控制数据采样的颗粒度。

Web
数据挖掘就是数据挖掘在Web中的应用。Web数据挖掘的目的是从万维网的网页的内容、超链接的结构及使用日志记录中找到有价值的数据或信息。依据挖掘过程中使用的数据类别,Web数据挖掘任务可分为:Web内容挖掘、Web结构挖掘、Web使用记录挖掘。

1.3用户访问预测的研究,指的是根据用户当前的访问路径预测用户将来的访问页面。

基于移动电子商务的数据挖掘能够使得挖掘的成果非常容易应用。很多其他的数据挖掘研究虽然有很多的知识发现,但是这些知识很多不能轻松的在商业领域中应用并产生效果。因为要应用这些知识可能意味着需要进行复杂的系统更改、流程更改、或改变人们日常的办事习惯,这在现实中是相对困难的。而在移动电子商务领域,很多知识发现都可以直接应用。如改变站点设计,针对于特定目标或消费群进行的随时随地的网上促销,根据对广告效果的统计数据改变相应的广告策略,根据数据特点可以很容易地进行网上捆绑式销售等。

1)Web内容挖掘指从网页中提取文字、图片或其他组成网页内容的信息,挖掘对象通常包含文本、图形、音视频、多媒体以及其他各种类型数据。

1.4优化客户访问体验和提高网站收益:通过对客户的访问模式进行挖掘,可以发现潜在客户,对于一个电子商务网站来说,尽可能从众多的访问者中发现潜在客户群体,就意味着交易可能性的大大增加;同时通过Web日志数据挖掘,增加网站对客户的粘性,延长客户在自己网站上的驻留时间,就更容易掌握客户的浏览行为,改进站点的设计,提高电子商务的效益。

1.2 Web挖掘的定义
Web数据挖掘,是数据挖掘技术在Web环境下的应用,是从大量的Web文档集合和在站点内进行浏览的相关数据中发现潜在的、有用的模式或信息。它是一项综合技术,涉及到Internet技术、人工智能、信息学、统计学等多个领域。

2)Web结构挖掘是对Web页面之间的结构进行挖掘,挖掘描述内容是如何组织的,从Web的超链接结构中寻找Web结构和页面结构中的有价值模式。例如从这些链接中,我们可以找出哪些是重要的网页,依据网页的主题,进行自动的聚类和分类,为了不同的目的从网页中根据模式获取有用的信息,从而提高检索的质量及效率。

要在网站优化中具体应用Web日志挖掘技术,有两个重点问题要解决,一个是建立Web日志挖掘应用系统模型,一个是采用适当的算法对海量数据进行精确分析。本文将对这两方面的问题做一个阐述。

面向电子商务的数据挖掘是Web挖掘的一个典型应用,Web上的日志文件,如客户的访问行为,访问频度,浏览内容及时间等,包括很多可挖掘内容,对这些内容进行提取、加工、分析,可以将客户的访问数据从潜在的、隐含的状态,变为企业分析市场、制定经营策略、管理客户关系的有力依据,从而实现Web上电子商务活动的本质,即获得商务的增值。
对应于不同的Web数据,Web挖掘也分成三类:Web内容挖掘、Web结构挖掘和Web使用模式挖掘。

3)Web使用记录挖掘是根据对服务器上用户访问时的访问记录进行挖掘的方法。Web使用挖掘将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据,对用户点击事件的搜集和分析发现用户导航行为。它用来提取关于客户如何浏览和使用访问网页的链接信息。如访问了哪些页面?在每个页面中所停留的时间?下一步点击了什么?在什么样的路线下退出浏览的?这些都是Web使用记录挖掘所关心要解决的问题。

2面向电子商务的Web日志挖掘应用系统模型

Web内容挖掘就是对网络页面的内容进行挖掘分析,包括对文本、图像、音频、视频、元组数据的挖掘,但目前多数是基于文本信息的挖掘,这又可以进一部分为网页内容挖掘和搜索结果挖掘,前者是传统的依据内容搜索网页,后者是在前者搜索结果的基础上进一步搜索网页。Web内容挖掘和通常的平面文本挖掘的功能和方法比较类似,但由于互联网上的数据基本上都是HTML格式的文件数据格式流,因此可以利用文档中的HTML标记来提高Web文本挖掘的性能。

4电子商务中Web挖掘中技术的应用分析

面向电子商务的
Web日志挖掘系统模型主要有三个部分:数据库、数据挖掘集成工具和图形用户界面(GUI)模块。整个系统的结构如图1所示。

Web结构挖掘是对网络页面之间的结构进行挖掘,从网页的实际组织结构中获取信息。整个Web空间中,页面内容和页面结构中都可能会存在有用的知识。Web结构挖掘主要就是针对页面的超链接结构进行分析,通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。如果发现有较多的超链接都指向某一页面,那么该页面就是重要的。这种知识可以用来改进搜索路径。

1)电子商务中序列模式分析的应用

在该模型下,用相关的关系型数据源创建数据库,并通过图形用户界面进行管理和维护,在此基础之上支持各种数据挖掘任务、为数据挖掘提供数据平台。数据挖掘集成工具是一个挖掘驱动引擎,它是一个规则集合,能够集成多种数据挖掘算法,到Web数据挖掘算法库中选择最有效的挖掘算法处理数据挖掘和决策推理工作,完整的挖掘数据预处理过程包含:数据净化、用户识别、会话识别、路径补充、事务识别等几个步骤。图形用户界面(GUI)用于用户与系统的交互,用户通过
GUI
建立和执行任务,完成各项数据挖掘任务,一般执行数据挖掘任务得到的结果往往是一些抽象的模型或者数据,一般用户较难理解,GUI可以帮助用户直观明了地理解挖掘结果,管理人员可以通过浏览器方式实现系统管理,对数据挖掘发现的模式进行解释和评价,过滤出有用的知识,利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示。

Web使用模式挖掘是对用户和网络交互的过程中抽取出来的第二手数据进行挖掘,包括网络服务器访问记录、浏览器日志记录、注册信息等。最常用到的是网络服务器访问记录挖掘,它通过挖掘Web日志文件及客户交易数据来发现有意义的客户访问模式和相关的潜在客户群。其主要特点是对客户信息数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。这里需要特别指出的是,Web使用模式挖掘还可以进一部分为一般访问模式跟踪和定制使用跟踪,前者是一种查看网页访问历史记录的使用模式挖掘。这种挖掘可以是一般化的,也可以是针对特定的使用或使用者,这便是后者。

序列模式数据挖掘就是要挖掘基于时间或其他序列的模式。如在一套按时间顺序排列的会话或事务中一个项目有存在跟在另一个项目后面。通过这个方法,WEB销售商可以预测未来的访问模式,以帮助针对特定用户组进行广告排放设置。发现序列模式容易使客户的行为被电子商务的组织者预测,当用户浏览站点时,尽可能地迎合每个用户的浏览习惯并根据用户感兴趣的内容不断调整网页,尽可能地使每个用户满意。使用序列模式分析挖掘日志,可以发现客户的访问序列模式。在万维网使用记录挖掘应用中,序列模式挖掘可以用于捕捉用户路径之中常用的导航路径。当用户访问电子商务网站时,网站管理员能够搜索出这个访问者的对该网站的访问序列模式,将访问者感兴趣但尚未浏览的页面推荐给他。序列模式分析还能分析出商品购买的前后顺序,从而向客户提出推荐。例如在搜索引擎是发出查询请求、浏览网页信息等,会弹出与这些信息相关的广告。例如购买了打印机的用户,一般不久就会购买如打印纸、硒鼓等打印耗材。优秀的推荐系统将为客户建立一个专属商店,
由每个客户的特征来调整网站的内容。也能由挖掘出的一些序列模式分析网站及产品促销的效果。

在该模型下进一步拓展,可以建立相关的专家方法驱动系统。其主要功能是利用挖掘出来的高价值信息去进行相应的应用。其中,页面访问情况可以用来指导网页的重构,分析出的客户消费行为模式可以作为反馈信息,以客户关系管理的方式对客户进行直接的点到点促销;根据客户的访问模式,还可以给出客户的定制化页面,针对不同的消费需求制定不同的促销模式等。

1.3 Web挖掘的数据源

2)电子商务中关联规则的应用

3应用于电子商务网站优化的频繁路径挖掘算法

很多数据都可以在Web上进行数据挖掘分析,并且这些数据存在很多类型,具体来说主要有以下几种类型的数据。

关联规则是揭示数据之间隐含的相互关系,关联分析的任务是发现事物间的关联规则或相关程序。关联规则挖掘的目标是在数据项目中找出每一个数据信息的内在关系。关联规则挖掘就是要搜索出用户在服务器上访问的内容、页面、文件之间的联系,从而改进电子商务网站设计。可以更好在组织站点,减少用户过滤网站信息的负担,哪些商品顾客会可能在一次购物时同时购买?关联规则技术能够通过购物篮中的不同商品之间的联系,分析顾客的购物习惯。例如购买牛奶的顾客90%会同时还购买面包,这就是一条关联规则,如果商店或电子商务网站将这两种商品放在一起销售,将会提高它们的销量。关联规则挖掘目标是利用工具分析出顾客购买商品间的联系,也即典型购物篮数据分析应用。关联规则是发现同类事件中不同项目的相关性,例如手机加充电宝,鼠标加鼠标垫等购买习惯就属于关联分析。关联规则挖掘技术可以用相应算法找出关联规则,例如在上述例子中,商家可以依据商品间的关联改进商品的摆放,如果顾客购买了手机则将充电宝放入推荐的商品中,如果一些商品被同时购买的概率较大,说明这些商品存在关联性,商家可以将这些有关联的商品链接放在一起推荐给客户,有利于商品的销售,商家也根据关联有效搭配进货,提升商品管理水平。如买了灯具的顾客,多半还会购买开关插座,因此,一般会将灯具与开关插座等物品放在一个区域供顾客选购。依据分析找出顾客所需要的商品的关联规则,由挖掘分析结果向顾客推荐所需商品,也即向顾客提出可能会感兴趣的商品推荐,将会大大提高商品的销售量。
3)电子商务中路径分析技术的应用

对Web站点的优化可从两个方面来考虑:一是通过对Web日志的挖掘,发现用户访问页面的相关性,从而在密切联系的页面之间增加链接,方便用户使用;二是通过对Web日志的挖掘,发现用户的期望位置,如果在期望位置的访问频率高于实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点的优化。无论是出于哪方面的,都要通过Web日志挖掘,分析用户访问路径来获取用户的浏览模式,这部分工作主要依靠频繁路径的挖掘来完成。可以说,对网站频繁路径的挖掘是网站优化工作的基础。本文重点对网站频繁路径的挖掘算法做一分析。

1.3.1 服务器数据
通常只要有客户访问站点就会在Web服务器上留下相应的痕迹,即日志数据,这些日志数据存储在服务器上的形式通常都是文本文件,比如cookie
logs、error logs、sever logs等。

路径分析技术通过对Web服务器的日志文件中客户访问站点的访问次数的分析,用来发现Web站点中最经常访问的路径来调整站点结构,从而帮助使用用户以最快的速度找到其所需要的产品或是信息。例如在用户访问某网站时,如果有很多用户不感兴趣的页面存在,就会影响用户的网页浏览速度,从而降低用户的浏览兴趣,同时也会使整个站点的维护成本提高。而利用路径分析技术能够全面地掌握网站各个页面之间的关联以及超链接之间的联系,通过分析得出访问频率最高的页面,从而改进网站结构及页面的设计。

挖掘频繁访问路径的主要步骤可以概括如下:

1.3.2 查询数据
它是电子商务站点在服务器上产生的一种典型数据。例如,对于在线客户也许会搜索一些产品或某些广告信息,这些查询信息就通过cookie或是登记信息连接到服务器的访问日志上。

4)电子商务中分类分析的应用

3.1从原始日志文件中获得 MFP

1.3.3 在线市场数据
在线时长数据主要包括存储在传统关系数据库里的商品信息、客户购买信息和电子商务站点信息等。

分类技术在根据各种预定义规则进行用户建模的Web分析应用中扮演着很重要的角色。例如,给出一组用户事务,可以计算每个用户在某个期间内购买记录总和。基于这些数据,可以建立一个分类模型,将用户分成有购买倾向和没有购买倾向两类,考虑的特征如用户统计属性以及他们的导航活动。分类技术既可以用于预测哪些购买客户对于哪类促销手段感兴趣,也可以预测和划分顾客类别。在电子商务中通过分类分析,可以得知各类客户的兴趣爱好和商品购买意向,因而发现一些潜在的购买客户,从而为每一类客户提供个性化的网络服务及开展针对性的商务活动。通过分类定位模型辅助决策人员定位他们的最佳客户和潜在客户,提高客户满意度及忠诚度,最大化客户收益率,以降低成本,增加收入。

3.2从 MFP 中获得频繁引用序列

1.3.4 Web页面
主要是指HTLM和XML页面的内容,包括本文、图片、语音、图像等。

5)电子商务中聚类分析的应用

3.3从所有频繁引用序列中获得最大引用序列

1.3.5 Web页面超级链接关系
主要是指页面之间存在的超级链接关系,这也是一种重要的资源。

聚类技术可以将具有相同特征的数据项聚成一类。聚类分析是对数据库中相关数据进行对比并找出各数据之间的关系,将不同性质特征的数据进行分类。聚类分析的目标是在相似的基础上收集数据来分类。根据具有相同或相似的顾客购买行为和顾客特征,利用聚类分析技术将市场有效地细分,细分后应可每类市场都制定有针对性的市场营销策略。聚类分别有页面聚类和用户聚类两种。用户聚类是为了建立拥有相同浏览模式的用户分组,可以在电子中商务中进行市场划分或给具有相似兴趣的用户提供个性化的Web内容,更多在用户分组上基于用户统计属性的分析可以发现有价值的商业智能。在电子商务中将市场进行细化的区分就是运用聚类分析技术。聚类分析可根据顾客的购买行为来划分不同顾客特征的不同顾客群,通过聚类具有类似浏览行为的客户,让市场人员对顾客进行类别细分,能够给顾客提供更人性化的贴心服务。比如通过聚类技术分析,发现一些顾客喜欢访问有关汽车配件网页内容,就可以动态改变站点内容,让网络自动地给这些顾客聚类发送有关汽车配件的新产品信息或邮件。

其中MFP指的是最大前向路径。由于用户会话在遍历路径时存在两个移动方向,一个是前进,即请求页面是此前用户会话中从未访问过的页面,另一个是后退,即请求页面是用户会话中已经访问过的页面。最大前向路径是用户在会话的第一页到回退的前一页组成的路径。

1.3.6 客户登记信息
客户登记信息是指客户通过Web页输入的、要提交给服务器的相关客户信息,这些信息通常是关于用户的人的特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步地了解客户。

分类和聚类往往是相互作用的。在电子商务中通过聚类行为或习性相似的顾客,给顾客提供更满意的服务。技术人员在分析中先用聚类分析将要分析的数据进行聚类细分,然后用分类分析对数据集合进行分类标记,再将该标记重新进行分类,一直如此循环两种分析方法得到相对满意的结果。

我们首先要获得MFP,获得MFP 算法的主要思想是:

2 Web使用模式挖掘分析

5 结语

假设{x1,x2,…,xm}表示一个用户会话,{y1,y2,…,yj-1}表示一个潜在的
MFP,初始为空。Flag标识当前的访问方向是前进还是后退。每次检查用户会话中的xi,试图将其扩充到潜在MFP中。

Web使用模式挖掘是Web数据挖掘中最重要的应用,其数据源通常是服务器的日志信息。Web服务器的日志记载了用户访问站点的信息,这些信息包括:访问者的IP地址、访问时间、访问方式、访问的页面、协议、错误代码以及传输的字节数等信息。

随着互联网的飞速发展,大数据分析应用越来越广。商业贸易中电子商务所占比例越来越大,使用
web
挖掘技术对商业海量数据进行挖掘处理,分析客户购买喜好、跟踪市场变化,调整销售策略,对决策者做出有效决策及提高企业的市场竞争力有重要意义。

若xi∈{y1,y2,…,yj-1},则xi将作为yj加入潜在MFP中,并且将flag标记为前进;

每当网页被请求一次,Web日志就在日志数据库内追加相应的记录。站点的规模和复杂程度与日俱增,利用普通的概率方法来统计、分析和安排站点结构已经不能满足要求。只有通过数据挖掘技术处理服务器的日志文件,才能分析用户访问站点的规律,改进网站的组织结构及其性能,增加个性化服务,实现网站自适应,发现潜在的用户群体。

否则有xi=yk,其中1≤k

Web使用模式挖掘的过称具体包括数据的预处理过程、模式发现过程以及模式分析过程。

若在此之前,Flag 表明的移动方向是前进。则将{y1,y2,…,yj-1}作为一个MFP
加入到结果集合。然后从潜在 MFP 中删除页面{yk+1,…,yj-1}。并设Flag
为向后移动标志,进入下一轮循环。

2.1 数据预处理过程

若Flag
表明的移动方向是后退时,则此时的{y1,y2,…,yj-1}不是MFP,直接删除页面{yk+1,…,yj-1},进入下一轮循环。

在数据预处理过程中,首先需要做一些数据清洗。其次由于日志文件中只记录了主机或代理服务器的地址,需要运用Cookie技术和一些启发规则来帮助识别用户,之后还要确认Web日志中是否有重要的访问页面被遗漏,如果有,需要进行相关的路径补充。最后要进行事务识别工作,即将用户的会话针对挖掘活动的特定需要进行定义、细分,使挖掘更加精确,得到想要的知识。

3)如果循环到用户会话中的最后一页,Flag
标志仍表明向前,则此时{y1,y2,…,yj-1}是一个 MFP。

数据清洗:即把日志文件中一些与数据分析的无关项处理掉,例如剔除Web请求方法中不是“get”的记录。以及删除Web服务器日志中与挖掘算法无关的数据,一般来说只有服务器日志中的HTML与挖掘相关,Web日志文件的目的是获取用户的行为模式,通过检查URL的后缀,可以删除不相关的数据。例如:将日志文件中后缀名为JPG,GIF等图片文件删除,将后缀名为CGI的脚本文件删除。

MFP算法的伪代码如下:

用户识别:数据清洗之后,使用基于日志的方法同时辅助以一些启发式规则,可以识别出每个访问网站的用户,这个过程就叫做用户识别。在时间区间跨越较大的Web日志中,某一用户可能多次访问该站点,这时就要用到会话识别。其目的就是将用户的访问记录分为单个会话。那么如何来分呢?可以做如下设定:用二元组S表示一个用户会话

for 每个用户会话

S=,

{

其中userid是用户标识,RS是用户在一段时间内请求访问Web页面的集合,RS内包含用户请求页面的标识符Pid及请求时间time,那么这段时间的访问集合RS即可划分为:

y1=x1; j=2; i=2;

RS={,…}, 于是,用户会话可表示为:

Flag = true;

S=,…}>,

while(i≤m)

由此可以看出分成的每一个单独的会话。

{

路径补充:由于代理服务器本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求,路径补充就是利用引用日志和站点的的拓扑结构将这些遗漏的请求补充到用户会话中,设遗漏的请求为,其中请求时间timek为设备前后两次请求的平均值,那么,用户会话即可表示为:

Found = false;

S=,……}>

for 1≤k

事务识别:上面讲到的用户会话是Web日志挖掘中唯一具备的自然事物元素,但对于某些挖掘算法来说可能它的颗粒太粗,区分度较低,为此需要利用分割算法将其转换为更小的事物,即进行事务识别。

{

HTML通过“Frame”标记支持多窗口页面,每个窗口里装载的页面都对应一个URL,Frame页面用来定义页面的大小、位置、及内容,“Subframe”用来定义被Frame包含的子窗口页面,当用户访问URL对应的是一个Frame页面时,浏览器通过解释执行页面源程序,会自动向Web服务器请求该Frame页面包含的所有Subframe页面,这一过程可以重复进行,直到所有Subframe页面都被请求。如果在这样的用户会话文件上进行挖掘,Frame页面和Subframe页面作为频繁遍历路径出现的概率很高,这自然就降低的挖掘的结果价值。为此应当消除Frame页面对挖掘的影响,得到用户真正感兴趣的挖掘结果。

if(xi=yk)

2.2 模式发现过程

{

数据预处理之后,可以对“干净整齐”的数据进行挖掘,即找出有用的模式和规则的过程。下面主要分析三种常用的Web使用模式挖掘方法:关联分析、分类与预测、聚类分析、时间序列分析。

if(Flag = true) 将{y1,y2,…,yj-1}作为MFP 输出;

关联分析:即通过分析用户访问网页间的潜在联系而归纳出的一种规则,如80%的用户访问页面company/product1时,也访问了页面company/product2,这说明了两个页面的相关性。那么可以进行一个页面的预取,来减少等待时间。用{A,B}来表示两个页面,那么在用户访问A时,可以把页面B提前调入缓存中,从了改善Web缓存,改善网络交通,提高性能。若A和B表示两个产品页面,则两种产品对客户来说有很大的相关性。利用这一点可以做出很有效的促销和广告策略。

j=k+1;

关联规则的算法思想是Apriori算法或其变形,由此可以挖掘出访问页面中频繁在一起被访问的页面集,这种频繁在一起被访问的页面就成为关联页面,可用A=>B表示。那么,若有:

++i;

A=>B=>C,A=>B=>D,A=>B=>E,A=>B=>F=>G,…,

Flag=false;

则说明A=>B。

Found=true;

分类和预测:可以用分类来提取出用来描述重要数据类的模型,并可以用分类模型来划分未知数据的类,从而预测未知数据的趋势。常用的算法思想为决策树,神经网络、贝叶斯分类等。例如可以根据用户的资料数据或其特定的访问模式将其归入某一特定的类。

}

可以根据客户对某一类产品的访问情况,或如其抛弃购物车的情况,来对客户分类。更深入一点,可以为客户添加一些属性,如性别,年龄,爱好等,并将对哪一类产品感兴趣定义为目标属性,那么基于这些属性可以用决策树算法来进行分类,可以得出符合目标属性的人的特点,如40岁以上的男性更容易网购皮鞋等,这样可以更精准的捕捉客户并制定营销策略。

}

聚类分析:聚类即将对象的集合分成由类似的对象组成的多个类的过程。常用的算法思想有划分方法、层次方法、基于密度的方法等。如可以用K-mean的划分方法做到类之间差异化最大,而类内相似性最大。

if( !Found )

在使用模式挖掘中主要有两种聚类。一种是页聚类,即将内容相关的页面归到一个网页组,这对网上搜索引擎对网页的搜索有很大帮助。另一种是客户聚类,即将具有相似访问特性的客户归为一组,那么可以分析出喜好类似的客户群,从而可以动态的为客户群制定网页内容或提供浏览意见,如通过对众多的浏览“sports”网页的客户分析,发现经常在该网页上花上一段时间去浏览的客户,再通过对这部分客户的登记资料分析,知道这些客户是潜在要买运动产品的客户群体。就可以调整“sports”网页的内容和风格,以适应客户的需要。这在电子商务市场的分割和为客户提供个性化服务中起到了很大的作用。

{

2.3 模式分析过程

yj=xi;

在挖掘出一系列客户访问模式和规则后,还需要进一步观察发现的规则、模式和统计值,之后确定下步怎么办,是发布模式还是对数据挖掘过程进行进一步调整。

++j;

如果存在冗余或无关的知识,需要将其剔除。如果经过模式分析发现该模式不是想要的有价值的模式,则需要对挖掘过程进行调整,再转入第二步重新开始。反之,即发现感兴趣的规则模式,则可采用可视化技术以图形界面的方式提供给使用者。

++i;

3 基于企业的电子商务平台的数据挖掘应用

Flag=true;

许多传统制造业或零售业的业务正在进行着电子化的转型,电子商务、移动客户端、线上大平台的思路不断发展。那么,如何建设一个企业的电子化平台,如何有效收集平台产生的海量数据,数据挖掘技术如何应用于海量数据,这些都是值得深入研究的问题。

}

3.1 建设企业线上大平台

}

目前许多企业都面临着客户资源管理分散,客户数据的物理化、静态化、分散化,以及缺乏对客户的深层分析和需求挖掘等问题。按照传统企业想要占有电子商务市场或移动客户端市场的需求,为了更好地以大数据集中为基础,推进客户营销服务个性化,企业可建设以会员管理为核心的大客户管理系统,把原有的各类信息系统、业务网站、电子商务网站等融汇在一个大平台下,并分阶段实施数据大集中,实现“海量客户资源共享,一个客户、多个产品、多频次使用”的一站式营销服务。通过数据的整合管理,分析客户特点,实现客户在企业内各板块的迁移和共享。
会员管理的实质是为用户提供连续的、长期的产品和服务。实现了为用户提供持续的、长期的产品和服务就需要将短期的用户发展为长期型和稳定型用户,而会员制正式实现这种转变的最合适的方法,这就需要建立起强大的会员平台,从而掌握会员的消费数据,实现会员制的管理。

if(Flag=true) 将{y1,y2,…,yj-1}作为MFP输出;

许多企业拥有的业务众多,这就造成了各业务拥有自己众多的忠实用户,但目前各个业务的用户没有达到行业内的共享。会员管理平台为这些分散在行业内的用户提供统一的平台达到行业内的统一,在会员管理的平台上不同业务的用户可以实现统一登录、统一管理、统一办理业务来达到账号统一、业务统一、积分统一、信用统一,从而使企业多元化的各项业务达到资源和信息的行业内统一。

}

3.2 基于线上平台的数据采集平台

接下来我们需要从MFP中找出所有频繁遍历路径,本文提供一种基于Apriori
算法的改进方案,具体描述如下:

建设会员管理平台的根本目的是进行数据挖掘,以庞大的会员信息来进行市场洞察和市场预测。因此建设数据收集系统并与会员管理平台对接,可以有效收集到客户数据并进行挖掘工作。

#1C1={所有的包含一个页面的引用}

在数据的收集方面,目前许多企业数据信息的作用主要是统计收入和业务量、清分核算以及考核,而大数据这一数据价值最为关键的特性却没有被很好利用。

#2L1={c∈C1 |c.count≥min_sup}

企业现有的平台有时并不能很好地完成有效数据的收集,许多数据多为财务列收数据或业务完成情况数据。该类数据的属性并无太多挖掘价值,无法进行有效的数据分析。数据挖掘需涉及到分类、聚类、关联分析等算法的应用,以此来定位目标客户,这对数据的属性要求是比较高的。企业要充分挖掘和分析各类数据,开展信息应用,进行业务创新和运作流程的优化,提升经营管理能力和客户服务水平。

#3for(i=2;Li-1≠Φ;++i){

数据收集平台系统正是基于此目的进行开发,需达到真实有效的客户信息数据、业务数据、Web服务器日志数据的全面收集,功能包括:

#4Ci=Generate_C(Li-1,)

①与电子化平台对接,可以收集到平台的会员及非会员的客户信息数据。在系统中可设客户的年龄、职业、爱好、收入等客户相关属性项,从而把会员俱乐部中的有效客户信息数据归类收集,为分析不同类型客户做准备。

#5for each MFPt∈D{

②有效收集到客户交易数据以及相关业务数据,系统中设定各类客户指标,为分析不同类型业务做准备。

#6 Ct=Generate_Subset(Ci, t)

③能够进行WEB服务器日志数据的收集。对于企业业务网站及企业电子商务平台,系统可抽取和收集网站的WEB服务器日志数据,从而为进行相关的页面访问频度、浏览时间、页面指向等客户行为模式分析做准备。

#7 for each c∈Ct

3.3 Web挖掘在企业的应用

#8 c.count++;

目前Web数据挖掘技术已经在企业得到了广泛应用,分析其原因是该技术能够挖掘出活动过程中的各类潜在信息,进而帮助企业得到更高的发展,其优势具体如下:

#10}

3.3.1 发现潜在客户
由于Web数据挖掘技术可以把客户在电子化平台上的浏览行为存储下来,通过查看这些客户的浏览行为就可以了解到客户的兴趣和购买意向,由此就可以发现潜在客户,进而有针对性地对这些潜在客户采取某种谋略,使其尽快的成为在册客户群体,如此一来,电子商务网站的经济效益将会越来越好。

#11 Li={c∈Ci | c.count≥min_sup}

3.3.2 提供优质个性化服务,提高客户忠诚度
在电子商务中,虽然客户和销售商之间的空间距离消失了,但客户的选择面更广了,客户只需轻点几下鼠标就可以从这家电子商务网站转换到另一家电子商务网站。在这种情况下,各家电子商务网站必须各出奇招,努力使自家网站的内容和层次、用词、标题和奖励方案等比其它网站更具优势、更吸引人,通过提供优质个性化的服务,不断提高客户的忠诚度。

#12result=result∪Li

3.3.3 改进系统性能,增强安全性
对于电子化平台的各种数据统计分析,有助于改进系统性能,增强系统安全性,并提供相关决策支持。客户衡量网站满意度的一个关键指标就是Web服务器的性能,通过应用Web数据挖掘技术可以清楚了解到哪个站点的客户是最多的,最容易造成拥塞记录的,然后有针对性的采取有效的Web缓存策略,减少网站的传输压力,同时运用Web数据挖掘技术还可以将非法进入电子商务网站的人员挖掘并清除出去,因此可以说Web挖掘在企业的应用改进了系统性能,增强了安全性,保证了业务的正常展开。

#13 }

3.3.4 改进网站设计,增强客户体验
Web挖掘在企业的应用还能够有效的改进网站设计,增强客户体验,具体表现在以下三个方面:

其中: D表示事务数据库;min_sup表示给定的最小支持度;result
表示所有的频繁引用集;c.count表示引用c在事务数据库D中被包含的次数。第一行#1是产生所有只含一个页面的引用出现的次数,第二行#2通过C1和最小支持度min_sup产生频繁1引用集L1。#3-#13行通过一个大的循环完成频繁引用的生成,直到某个频繁引用集合为空。

①通过对Web日志的挖掘,发现客户访问页面的相关性,从而对密切联系的网页之间增加链接,方便客户使用。②利用路径分析技术判定在一个Web站点中最频繁的访问路径,可以考虑把重要的商品信息放在这些页面中,改进页面和网站结构的设计,增强对客户的吸引力,提高销售量。③通过对Web日志的挖掘,发现客户的期望位置。如果在期望位置的访问频率高于对实际位置的访问频率,可考虑在期望位置和实际位置之间建立导航链接,从而实现对Web站点结构的优化。

该算法非常有效而且快速,整个过程只要遍历两次数据库。通过实际网站优化的案例来看,其分析的聚类结果是比较符合客观事实的。

3.3.5 应用于收索引擎
通过对Web网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过客户使用的历史记录分析,可以有效地进行扩展,提高客户的检索效果;通过运用Web挖掘技术改进关键词加权法,可以提高网络信息的准确度,改善检索效果。通过挖掘客户的行为记录和反馈情况可以为站点设计提供改进的依据,从而进一步优化网站组织结构和服务方式来提高网站效率。

4结束语

站点的结构和内容是吸引客户的关键,站点上页面内容的安排和连接如同超市中物品在货架上的摆设一样,把具有一定支持度和信任度的相关联物品摆放在一起有助于销售。比如利用关联规则,可以针对不同客户动态调整站点结构,使客户访问的有关联的页面之间的链接更直接,让客户很容易访问到想要访问的页面。这样的网站往往能给客户留下好印象,提高客户忠诚度,吸引客户不断访问。

通过Web数据挖掘,我们可以从数以亿计的存储大量多种多样信息的Web页面中提取出我们需要的有用的知识,在对总的用户访问行为、频度、内容等的分析基础上,可以得到关于群体用户访问行为和方式的普遍知识,通过对这些用户特征的理解和分析,
可以有助于开展有针对性的电子商务活动,
给每个用户个性化的界面,提供个性化的电子商务服务。

3.3.6 聚类客户
许多企业都对企业的客户、市场、销售、服务与支持信息进行深层次发掘和分析,对客户价值进行分类,发现新的市场机会,增加收入和利润。所以聚类电子化平台客户是一个重要的方面。通过分组具有相似浏览行为的客户并分析组中客户的共同特征,可以帮助企业更好地了解自己的客户,及时调整页面及页面内容使商务活动能够在一定程度上满足客户的要求,向客户提供更适合、更面向客户的服务,使商务活动对客户和销售商来说更具意义。
4 小结

本文提出了一种有效算法,该算法通过改进经典的关联规则中的 Apriori
算法,实现了最大频繁引用序列的挖掘过程。在挖掘最大频繁引用序列的基础上进行电子商务网站优化,不仅可以提高访问者的查询速度,
节省了不必要的网络开销,而且对于提高网站自身的质量和声誉也是大有裨益的。

数据挖掘技术正以前所未有的速度发展,并且扩大着用户群体,在未来越来越激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。

基于Web的数据挖掘在移动电子商务中的应用将是一个非常有前景的领域,有很多优势,经过近几年的发展已逐渐成为数据挖掘与知识发现领域的一个重要分支。其针对移动电子商务网站用户的行为模式进行挖掘,可以找到用户的潜在兴趣与偏好,指导网站建设,支持企业营销决策。

企业在运营电子商务网站时,尤其是移动电子商务,会产生海量的业务数据,所以需要建设一个线上的电子化大平台来汇集业务,同时在这个大平台基础之上高效地收集业务数据,针对Web数据,使用Web挖掘技术预测客户的消费趋势、市场走向,维系客户关系、指导企业建设个性化智能网站,带来巨大商业利润。这可以为企业创造新的商业增长点,使其在激烈的市场竞争中处于有利位置,抢占先机。

相关文章