迅睿CMS免费开源框架
免费开源CMS
  • 首页
  • 产品动态
    • 官方公告
    • 功能介绍
    • 疑难解答
  • 产品购买
    迅睿建站程序

    迅睿CMS框架是一款PHP8高性能·简单易用的CMS开源开发框架,基于MIT开源许可协议发布,免费且不限制商业使用,是免费开源的产品,以万端互联为设计理念,支持的微信公众号、小程序、APP客户端、移动端网站、PC网站等多终端式管理系统。

    迅睿CMS产品
    迅睿建站系统
    安全加固系统
    国产化数据库
    小程序开发
    版本更新日志
    捐赠迅睿团队
    迅睿服务方案
    迅睿授权套餐
    网站服务套餐
    OEM版权套餐
    迅睿售后服务
    网站安全部署
    网站故障修复
    网站漏洞修补
    木马清理服务
    电商解决方案
    多用户商城方案
    供应链商城方案
    分销商城方案
    SAAS商城方案
    拼团/竞拍商城方案
    跨境电商方案
    品牌内购解决方案
    福利商城解决方案
    企业订货系统解决方案
    个性化定制方案
    企业官网设计
    行业网站设计
    门户网站设计
    多语言外贸网站设计
    APP小程序设计
  • 应用市场
    • 应用插件
    • 模板界面
    • 小程序
  • 源码下载
  • 开发服务
    • 开发服务
    • 提交需求
    • 官方服务
    • 开发报价
  • 技术支持
  • 帮助文档
    • 新手学习合集
    • 视频教程讲解

    • 新手入门指南
    • 后台操作教程
    • 二次开发文档
    • 插件开发文档
    • 模板制作教程
    • API接口开发
    • 插件使用教程
    • 常见问题汇总

    • 模板标签生成器
    • 自定义字段调用
    • API接口测试工具
  • 控制台

爬虫索引压缩--字典压缩

2021-08-31 12:59:29 CMS

字典压缩爬虫索引压缩。

为了快速响应用户查询,词典数据通常被加载到内存中,以加快搜索速度。如果文档收集的数据量很大,会包含很多不同的单词,内存能否放下所有的词典信息就成了问题。为减少词典信息占用的内存,一般可以考虑采用词典压缩技术来达到这个目的。

{xunruicms_img_title}

对某一词典项而言,文档频率信息和倒排列表指针信息各用4个字节表示即可,而单词本身的内容可长可短,长的单词如中华人民共和国,短的单词如我,长度差异很大。为了容纳最长的单词,我们需要为单词内容分配足够的空间。我们假设词典中最长的单词是10个汉字,即每个单词需要分配20个字节。即使是我这样的单词,也会占用20个字节,浪费严重。显然,这里可以采用一些优化的数据结构来节省存储空间。

针对单词内容存储结构的优化措施,在该技术方案中,单词可以连续存储在一定的内存区域,原存储单词内容的部分可以用指向该存储区域对应单词起始位置的指针代替,单词结尾可以用词典中下一个单词指针指向的位置来判断,从而利用原本浪费的存储空间。

在优化词典结构的基础上,可以继续改进。图4-3是进一步改进方案的示意图。其基本思想是将连续词典分块。图中的例子是将每两个单词作为一个分块。在实际开发中,可以动态调整分块的大小,以获得最佳的压缩效果。本来每个词典项都需要保留一个指向连续词典区的指针,但是分块后,相邻的两个词典项可以共享同一个指针,这样每两个词典项就可以节省一个4字节长的指针信息,因为此时连续词典分块包含多个单词。为了标分离位置,需要增加每个单词的单词长度信息,以便在提取单词时正确区分块中的不同单词。


上一篇:常用的搜索引擎索引更新策略有4种
下一篇:网页特征权重计算

Copyright © 四川迅睿云软件开发有限公司

蜀ICP备19023384号
川公网安备 51010602001037号
增值电信业务经营许可证:川B2-20211858