网站技术的出现帮助为web用户在浩如烟海的WWW上快速发现、定位信息带来了福音,目前网站已经是WWW上除Email之外使用最多的服务。目前网站面临的主要困难是检索质量不高,用户满意度不高。
本文试图通过分析网站的日志来得到用户访问系统的一般性规律,并从分析结果出发改造网站。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必要性和可行性,并对cache系统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。
从实验分析结果出发,论文还报告了对系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量。
关键词:网站,日志分析,位置相关性,