搜索引擎如何判断文章的原创度?

阅读 573  ·  发布日期 2015-08-11 14:09:45  ·  伊索科技

在Zac的某本书中他说过一句话让我印象深刻:权重高的网站转载权重低网站的文章时,百度往往会默认权重高的网站为原创文章。

未收录不代表未抓取

确实,为了SEO的发展,自己辛辛苦苦写了两篇原创文章,被一个大型网站抄袭秒收录,而自己的站点却不收录,这是一件非常让人尴尬的事情,那么真的不收录,就不是原创了吗?

很多朋友是这样认为的,自己的文章没有被收录,而抄袭者的却收录了,所以百度判断自己抄袭了别人的文章,所以自己权重也就一直上不来,排名一直没有。其实这是一个错误的观点,我曾在百度排名规则的文章中提到,百度收录是需要经过抓取-识别-释放这三个流程。其中在释放的流程中,需要判断整体网站的质量,当整体网站质量过关,收录相对较快,当整体网站信誉度没有达到百度的标准,百度将会暂时保留你的文章,不被释放出来。

不被释放出来,但是已经经过了抓取和识别这两个流程,在这里特别的说一下抓取的流程,当网站建立以后,提交到搜索引擎,搜索引擎基本每天都会来抓取,大家可以试着安装百度云加速后台可以统计出抓取的页面,如果抓取不够,也可以在百度站长平台中设置抓取频率和sitemap自动推送,这样抓取的是完全没有压力。设置方法如下:

打开【百度站长平台】点击左侧导航【我的网站】-【站点管理】-【添加网站】-输入网站域名,根据自身条件验证网站。

然后点击左侧导航【页面抓取】-【链接管理】-提交方式选择【sitemap】,然后将自己的网站地图提交上去,更新时间更具你网站的更新时间来设置,比如网站每天更新一篇文章,那么就填写1天,论坛、门户可能添加的比较多。

另外在把sitemap地图写到robots里面,抓取基本是完全没有问题,那么接下来就进入识别系统,每一个页面抓取了,就一定会进行识别对比,是否会出现重复,与互联网的内容重复度有多少,从而判断出页面的原创度。那么在已经判断出原创度的时候,再来谈收录,先收录谁不代表谁就是原创了!

如何判断文章的原创度?

并不是你网站有文章,是你自己写的,就一定会被搜索引擎认为这是一篇原创文章,因为其中还有很多技术方面的问题,搜索引擎还未能解决。

记得我曾经在一个网站每天更新一篇文章,一篇文章的字数只有100字左右,但是文章页面非常简单,简单到整个页面没有JS、CSS、HTML代码,只有文字,但收录却非常好,而有一些网站,用JS、CSS、html代码把网站修饰的非常漂亮,但是发布的文章却不收录,这让我开始觉得代码与原创度有直接关系。

我忘