本文作者:GoGo闯

【GoGo闯SEO教程】#1.3.1-筑基篇-爬虫可理解:html语义及规范

GoGo闯 3个月前 ( 05-11 ) 291 抢沙发
摘要: 教程地址:https://www.bilibili.com/video/av50790806www.bilibili.com内容简介:1、SEO效果一半取决于前端和运维,所以流量涨...

教程地址:

https://www.bilibili.com/video/av50790806www.bilibili.com


内容简介:

1、SEO效果一半取决于前端和运维,所以流量涨了,别太拿自己当回事,可能是前端和运维帮你填了很多坑。流量掉了,也别太拿自己当回事,可能是前端和运维给你挖了坑

2、爬虫访问网页,根据html的dom节点解析成标签树,在根据各个标签的字符长度、间距、字符特征等因素,判断该页面类型(主页、列表页、详情页、问答页等),在提取出页面的主体内容

3、页面类型的判断,个人觉得不算很重要,因为特征明显。比如:

a、列表页的某个标签内,一定会出现大量<a>标签

b、详情页的某个标签内,一定会出现大量文本型字符串

c、问答页的一些标签内,大多会出现“?”或者疑问词

但搜索引擎,判断网页主体内容,可能会因为html不规范而出现理解偏差

4、举了几个理解偏差的例子,MD字太多了我不想写了,自己看视频吧

5、<div>...</div>本身不含语义,所有如果网页所有模块全是用div+css实现,则搜索引擎只能靠自己算法去分析出主体内容,算法肯定不如你自己引导它靠谱,所以尽量使用语义化标签(另外某些语义标签,Google能识别,但百度可能不识别)

6、关于层级嵌套,之前公众号写过一篇:前端与SEO ①:结构、表现、行为分离

7、标签闭合,html中存在未闭合标签,导致搜索解析html标签树不准确,可能导致对正文理解错误

9、网页对不同浏览器的兼容性,可能在A浏览器显示正常,在B浏览器出现渲染错误

10、MD字太多了,我不想写了,看视频吧

--->搞基Q群:


文章版权及转载声明:

作者:GoGo闯本文地址:https://www.gogochuang.com/post/63.html发布于 3个月前 ( 05-11 )
文章转载或复制请以超链接形式并注明出处GoGo闯SEO

发表评论

快捷回复:

评论列表 (暂无评论,291人围观)参与讨论

还没有评论,来说两句吧...