迅睿CMS免费开源框架
免费开源CMS
  • 首页
  • 产品动态
    • 官方公告
    • 功能介绍
    • 疑难解答
  • 产品购买
    迅睿建站程序

    迅睿CMS框架是一款PHP8高性能·简单易用的CMS开源开发框架,基于MIT开源许可协议发布,免费且不限制商业使用,是免费开源的产品,以万端互联为设计理念,支持的微信公众号、小程序、APP客户端、移动端网站、PC网站等多终端式管理系统。

    迅睿CMS产品
    迅睿建站系统
    安全加固系统
    国产化数据库
    小程序开发
    版本更新日志
    捐赠迅睿团队
    迅睿服务方案
    迅睿授权套餐
    网站服务套餐
    OEM版权套餐
    迅睿售后服务
    网站安全部署
    网站故障修复
    网站漏洞修补
    木马清理服务
    电商解决方案
    多用户商城方案
    供应链商城方案
    分销商城方案
    SAAS商城方案
    拼团/竞拍商城方案
    跨境电商方案
    品牌内购解决方案
    福利商城解决方案
    企业订货系统解决方案
    个性化定制方案
    企业官网设计
    行业网站设计
    门户网站设计
    多语言外贸网站设计
    APP小程序设计
  • 应用市场
    • 应用插件
    • 模板界面
    • 小程序
  • 源码下载
  • 开发服务
    • 开发服务
    • 提交需求
    • 官方服务
    • 开发报价
  • 技术支持
  • 帮助文档
    • 新手学习合集
    • 视频教程讲解

    • 新手入门指南
    • 后台操作教程
    • 二次开发文档
    • 插件开发文档
    • 模板制作教程
    • API接口开发
    • 插件使用教程
    • 常见问题汇总

    • 模板标签生成器
    • 自定义字段调用
    • API接口测试工具
  • 控制台

内容处理即搜索引擎对Spider抓取回来的页面进行处理

2021-09-06 14:44:27 CMS

内容处理

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理▲▲▲骤02提取网页的文本信息★★★骤简单介绍如下。

步骤01 要判断该页面的类型

首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02 提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03 去除页面噪声

如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此SEO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了

步骤04 去除内容中的停止词

接下来应该是对剩余文本内容的分词处理  ,然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这些词也是有丰富的搜索结果的, 当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,如图2-10所示。所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对SEO人员的工作并没有太多影响,所以不必深究。

 


上一篇:Spider和普通用户的区别
下一篇:网页去重原理

Copyright © 四川迅睿云软件开发有限公司

蜀ICP备19023384号
川公网安备 51010602001037号
增值电信业务经营许可证:川B2-20211858