一. BGP简介 1. BGP概述 BGP(Border Gateway Protocol,边界网关协议)是一种运行于 TCP 上的一种自治系统(AS)(Autonomous System,自治系统)...
从大型站点开始,核心任务是【资源合理高效整合&用户体验】,这里的重点,一个是合理,一个是高效。 合理 合理是指,通过大量的SEO测试,找出趋近于本网站(而非所有网站)真实的SEO规律。因为大网...
从中型站点开始,核心任务是【资源稳定增长】,这里的重点,一个是增长,一个是稳定。 增长 小网站刚进阶到中型站点,行业的流量并没有完全覆盖到。部分用户搜索行为是没有对应页面承载的,没有对应页面承载,也就...
很久没有写跟SEO沾边的内容,一是这块也实在不知道写啥了,二是对SEO,兴趣早已没有之前强烈。 所以趁着这段时间,更新最后一个SEO系列。内容是SEO领域内,本渣渣听到的、看到的、思考的、实践的、总结...
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们...
一、定义 元素可提供相关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词等等。 标签位于文档的头部head/head标签内,不...
爬虫的不同抓取策略,就是利用不同的方法确定待抓取URL队列中URL优先顺序的。 爬虫的抓取策略有很多种,但不论方法如何,基本目标一致:优先选择重要网页进行抓取。 网页的重要性,评判标准不同,大部分采用...
在整个SEO优化当中,有很多算法,比如有网页去重之类的,但是网页去重是仅仅解决内容重复性问题,但是没办法给内容做一个高度识别。而今天要讲到的这个搜索引擎指纹算法则是整个SEO当中非常核心的一个知识点,...
想做好网站收录,一定要了解去重算法和指纹算法,只有这样才能更好地做好原创网页,帮助网站促进收录,提升排名。对一个新的网页,爬虫程序通过网页去重算法,最终决定是否对其索引。 一、近似重复网页类型,根据文...
做SEO的人,特别是在研究快排点击算法时,应该会听说到si和ct值,到底什么是si值和ct值呢? 我们首先来说一下si和ct值: 我们先以一个URL为例:

