吴垟乡百度智能小程序资源收录
阅读 17534 · 发布日期 2020-08-24 17:26 · 温州优光网络科技有限公司|建站|APP小程序制作|做网站SEO推广优化
【摘要】
在 Web 生态中,搜索引擎如何发现并收录资源大家并不陌生。爬虫通过抓取 Web 网页,能够很好的解析页面内容,并为其建立索引。那么作为依托于客户端形态存在的小程序,又是如何实现资源收录的呢?答案是,既然 Web 爬虫技术已经相对成熟,只要将小程序转换为一个 Web 版本,即可轻松借助已有的爬虫能力实现小程序页面的收录... 【温州小程序开发,温州微信公众号,平阳做网站,平阳网站建设公司,平阳小程序商城制作,昆阳万全做网站,鳌江水头小程序,萧江腾蛟微信公众号,山门顺溪南雁海西南麂凤卧麻步怀溪网络网店服务,政采云网店管理服务】...
在 Web 生态中,搜索引擎如何发现并收录资源大家并不陌生。爬虫通过抓取 Web 网页,能够很好的解析页面内容,并为其建立索引。
那么作为依托于客户端形态存在的小程序,又是如何实现资源收录的呢?答案是,既然 Web 爬虫技术已经相对成熟,只要将小程序转换为一个 Web 版本,即可轻松借助已有的爬虫能力实现小程序页面的收录。
到这里,今天的主角就要隆重登场了 —— Web 化小程序Web 化小程序是百度小程序的 Web 版本。
每个 Web 化小程序都是一个单页面应用站点,可以通过唯一对应的 URL 在浏览器打开。
Web 化小程序与对应的客户端打开的小程序内容、样式和交互行为基本一致。
以百度翻译小程序为例,下图为百度翻译小程序在百度 App 中打开和它的 Web 化小程序在 safari 浏览器打开的效果:
那么 Web 化小程序是如何生成的呢?百度智能小程序具有自动生成 Web 化的能力,在小程序发布时,后台会自动为每个小程序生成一份 Web 化小程序。
也就是说 Web 化对小程序开发者来说是透明的,开发者几乎不用做额外的适配即可完成转换(当然,由于H5与客户端天然存在的差异,我们仍有一些开发建议希望开发者能够关注,后面会详细介绍)。
有人问:
想让爬虫认识至于那么认真吗?有个 HTML 就够了,还要和客户端小程序样式和交互保持一致?事实上,随着SPA应用的大量普及,现代爬虫如果仅通过解析静态 HTML ,无法充分获取有效页面内容。
因此 爬虫的抓取过程,会渲染页面,并根据页面的动态数据和样式布局等信息更好的理解页面内容。
也就是说,爬虫看到的页面和我们看到的页面是一模一样的。
在百度开发者工具 2.2.4 以上版本,默认开启 Web 化。
之前版本的工具需要手动打开 Web 化开关。
对于之前未开启 Web 化的小程序,只要升级工具到最新版本,重新发布,即可自动开启。
当有小程序发布后,爬虫会通过自主发现的方式收录 Web 化小程序的各个页面,为其建立索引。
除了自主发现的资源收录方式,如果开发者想要获取更高时效的资源收录效率,还可以通过主动提交资源列表,即 sitemap 的方式实现天级和周级资源收录。
sitemap 提交详见官方文档《接入自然搜索结果 - 提交sitemap 》对于在百度已收录了 H5 站的资源,也可以通过配置 H5 域名和提交 H5 与小程序页面映射规则的方式替换原 H5 页面收录结果继承已有权重。
具体提交方式详见官方文档《接入自然搜索结果 - 配置URL映射规则》 [温州小程序开发-百度小程序]