|
在关系数据库中对IDTbl表进行聚集计算,可得到用户一次会话中每个页面的停留时间timestay,并通过离散化技术将timestay属性转化为每一页面的平均访问次数,定义为visit属性。关于这一过程,Cooley等在文献 [5] 中给出了详细步骤。将这两个属性及IDTbl表其它属性一起添加到FactTbl表,即形成了数据仓库的事实表,其中timestay和visit作为事实表的度量值,即希望在数据仓库中能查看并可以预测的数据。
6、结论
综上所述,实现一个Web日志数据仓库原型系统有两个关键点:预处理和逻辑建模。本文在解析Web日志时采取的一些预处理方法事实证明收到了良好的效果,可比较精确地识别用户及会话;在进行逻辑建模时采用星型逻辑模型,运用大量的冗余维度数据进行设计,大大提高了信息的检索性能。同时,文章实现了一个数据仓库原型系统,该系统简单实用,对原始的Web日志信息进行了维度上的分类,便于从特定时间段、特定用户等角度来实现对Web日志数据的进一步挖掘。
该系统尚存在一些不足之处,还有很多地方需要改进。例如在预处理阶段可以考虑将Web 页面结构和 Web 日志结合起来构造用户访问会话,减小会话集中出现的错误,使得模式发现阶段的结果更加准确和可信。并且可以将单纯的Web日志与其他用户信息数据结合分析,这样可以更好地发现用户行为模式。
|