您的位置: 首页 >> 新闻中心 >> 计算机 >> 软件开发
运用数据仓库技术分析Web日志
精英教育阅读提示:目前已经有很多学者和研究机构意识到网站日志数据巨大的潜在价值,试图通过对Web日志的研究来改善网站设计,理解用户的兴趣和真正动机等。多数现有的Web分析工具提供了用户在服务器上的活动情况及各种形式的过滤数据,使用这类工具可以确定对某个服务器或单个文件的访问次数、访问时间以及用户的域名和URL。
■ 最新课程推荐更多课程>>
学校培训课程开课时间上课地点精英价报名
正辰培训 微软软件测试工程师电话预约西直门教学区¥4704
新 科 海 软件测试工程师就业班电话预约海淀长远天地¥6280
北 师 大 软件工程与测试实战班电话预约北京师范大学¥1800
金 同 方 计算机等级二级C++ 电话预约人大总部¥784
北 师 大 平面设计创意全科班电话预约北京师范大学¥1300

  摘 要 运用数据仓库技术分析Web日志是目前Web使用挖掘的研究热点。本文从Web日志数据库设计、数据预处理和逻辑建模三个阶段阐述了Web日志数据仓库系统的整体实现。文章详细论述了将Web日志导入数据库中的方法,给出了具体的预处理过程,在此基础上实现了Web日志管理系统,最后提出Web日志数据仓库的逻辑模型。

  1、引言

  目前已经有很多学者和研究机构意识到网站日志数据巨大的潜在价值,试图通过对Web日志的研究来改善网站设计,理解用户的兴趣和真正动机等。多数现有的Web分析工具提供了用户在服务器上的活动情况及各种形式的过滤数据,使用这类工具可以确定对某个服务器或单个文件的访问次数、访问时间以及用户的域名和URL。但是对于Web日志数据仓库系统进行总体设计上的研究并不多,而这项工作对于研究用户访问模式和提高挖掘的效率是很有意义的。本文以某网站Web日志文件为例,在JAVA平台上对其数据仓库的建构进行了研究。

  2、Web日志数据采集

  服务器日志的格式根据Web服务的应用及安装时的选项而有所不同,一般用两种格式存储:一种是普通日志文件格式;另一种是扩展日志文件格式。普通日志文件存储的是客户端IP、用户名、状态、服务器名、协议版本等客户连接的物理信息。扩展日志文件格式主要支持关于日志文件元信息的指令,如版本号、会话监控开始时间和浏览器类型等。下面是一条典型的日志及其各字段详细解释:

  2004-12-13 0:00:45 172.16.96.22 - 211.66.184.35

  80 GET /~janyst/chat/chatUsers.php - 200 Mozilla/4.0+ (compatible;+MSIE+6.0;+Windows+NT+5.1)

  ● Date and Time:请求的日期、时间;

  ● c_ip:访问用户的 IP 地址或者用户使用的代理服务器 IP 地址;

  ● userName:用户名,由于通常用户没有进行注册,故一般都为占位符所替代;

  ● s_ip:客户端访问网站的IP 地址;

  ● s_port:客户端访问网站的端口号;

  ● cs_method:访问者的请求命令,常见的方法有三种,分别是 GET、POST 和 HEAD;

  ● cs_uri_stem:访问者请求的资源,即相对于服务器上根目录的途径,上例中为/~janyst/chat/chatUsers.php;

  ● query:协议类型,上例中为HTTP/1.1;

  ● Status:服务器返回的状态代码。一般而言,以2开头的状态代码表示成功,以3开头表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头表示用户端存在某种错误,以5开头表示服务器遇到了某个错误;

  ● userAgent:附加信息,包括浏览器类型、操作系统等。

  3、Web日志管理系统架构

  Web日志管理系统功能是完成Web日志的预处理和存储,主要由数据采集模块、数据库创建模块、数据库清除模块和数据集生成模块等组成,图1为系统用户界面。

  Web日志管理系统用户界面
  图1 Web日志管理系统用户界面

  该系统是在Eclipse环境下搭建的,主要由四个模块组成,分别为数据库建立模块、数据采集模块、数据库清除模块和数据集生成模块组成。各模块功能介绍如下:

  ● 数据库生成模块:在已创建的空数据库里生成用于存储Web日志数据的各个二维表;

  ● 数据采集模块:功能主要是将Web日志导入已生成的数据库的各个表中。首先解析Web日志,即将文本格式的日志依次读入到数组中;其次对日志进行基本的预处理,具体的预处理过程会在下节中详细介绍;最后将预处理后的数据存储到数据库中;

  ● 数据库清除模块:可以清除数据库中已创建的各个表,数据库仍然保留;

  数据集生成模块:可将Web日志以文本形式导出。

  4、Web日志数据库

  4.1 Web日志数据库介绍

  Web日志数据仓库是基于Web日志数据库。根据分析需求,将数据库分为5个表,图2为其ER图,各表功能分别为:(1)IDTbl存储解析后日志的各个属性的 ID号;(2)UserTbl存储访问者的基本信息;(3)PathTbl存储访问路径的相关信息;(4)TimeTbl存储访问时间的相关信息;(5)ProtocolTbl:存储日志其它信息;

本新闻共3页,当前在第1页  1  2  3

  影视动画培训   北大BEC培训官方报名网站   2008美国夏令营启航官方指定报名网站   2008留学第一站!  
  北师大 火星时代
共举影视动画培训之鼎
  北大BEC培训官方报名网站
现在报名独享95折!
  2008年国家职业资格考试
一次过关完全备考手册
  2008留学第一站
留学资讯尽在精英留学站!
 
上一篇:Microsoft Internet 信息服务 (IIS)
下一篇:没有了
 相关新闻
·2006年下半年软件设计师考试答案·我从外行到专业的软件测试工程师
·软件工程师现有工作满意率仅为7.1%·软件资格和软件水平考试的业界评价
·风雨过后见彩虹 谈我的软考经历·自学通过软件设计师考试后的一些感想
·关于软件资格水平考试,我很想说几句·从软件设计师试题看软件测试七原则
·软件设计师考试必看 如何应考?·45天考过软考中级信息系统监理师心得
·软考超级Fans-五次软考心路历程·计算机软件水平考试应避免的五大失误
·通过软件设计师考试 专业能力很重要·2007年软件测试工程师需求继续增大
·从人性格看哪些人不适合做软件测试·软考三考三捷 我是怎么备考和应考的
 
◇ 重点栏目导航
◇ 精英服务承诺
教育顾问:010-51660910
QQ交流:138660910
相关资料
·软件测试新手的修炼之路
·Smarty简体中文参考手册
·Struts中文手册
·Struts快速学习指南
·ultradev动态网页制作教程
·UML工具箱
·《设计模式》中文版
·学友Flash伴侣 1.11
·阿须图像水印(AssureMark)V2.0
·超级语霸
相关试题
·2008年高校招生全国统考理数试题(四川延
·2008年全国高考物理科试题参考答案(上海
·2008年全国高考物理科试题(上海卷)
·2008年全国高考文科综合试题参考答案(上
·2008年全国高考文科综合试题(上海卷)
·2008年全国高考历史科试题参考答案(上海
·2008年全国高考历史科试题(上海卷)
·2008年6月大学英语四级考试B卷试题
·2008年6月大学英语四级考试A卷试题
·2008年6月大学英语六级考试真题参考答案
相关热贴
·如何改QQ IP地址!
·恰当选择软件测试自动化方案
·ADO.NET学习总结
·.net操纵xml文件类(c#)
·VPN技术详解
·Log4net教程
·Web2.0时代,RSS你会用了吗?(技术实现总
·高手必读 网络端口安全防护技巧放送
·访问XP共享出现的问题解决办法
·.NET下正则表达式应用的四个示例