预处置模块的构成。预处置模块由三个子模块构成, 分别是页面抓取、文本内容提取、关键词提取。页面抓取的主要功用是读取用户信息库中储存的行为信息, 剖析用户兴趣所在, 抓取相对应的页面。文本内容提取, 其主要功能是将抓取到的页面信息进行过滤, 去除不有关的信息, 提取与页面主题有关联的内容, 并将它以文本文件的形式保存至数据库, 便于用户观看与查找。关键词提取, 该项子功能模块会将用户行为信息进行分词, 将文本中的内容以词条形式显示, 并计算每一个词条的重要程度, 依此排序, 选出与词条有关的内容。