前两天看到百度站长平台lee在7月5日发布了绿萝算法2.0解读,文中说明了绿萝算法2.0针对的重点对象以及惩罚的方式,最后还罗列了一些软文发 布站和软文交易平台,其中包括比较有名的链接和软文交易平台阿里微微以及非常常见的软文发布站千龙网。那么,绿萝算法2.0到底是个什么东西?算法的运行 会给站长们带来什么影响?我也来说说我的看法。
新网站的推广以及种种网络营销方式几乎离不开软文。通过在大量高权重高PR的网站发布软文能快速让网民了解到要推广的内容,迅速扩大推广内容知名度。 但是这对搜索引擎的工作是有着恶劣影响的,当大量广告软文充斥着搜索引擎,用户就再也不能简单快速地使用搜索引擎寻找自己想要的内容,当用户体验显得如此 糟糕的时候,会直接导致用户不满甚至是流失。
面对这样的情况,百度的做法就是把这些软文发布站相关的快照清除,那么,知名的软文交易站和软文发布站可以手动加入黑名单,但是更多不知名的呢?
这就只能靠机器人来工作了,肩负如此重任的正是绿萝算法。绿萝算法的任务的光荣而艰巨的。在惩罚之前,绿萝算法需要自动识别出哪些文章属于软文,哪些网站又和软文息息相关,确定了惩罚对象才能进行惩罚。
在百度站长平台的公告中显示惩罚的对象包括:软文交易平台、软文发布站、软文收益站三类,而惩罚方式则是清理快照结果,严重点的直接降权处理或者屏蔽 域名,原来是百度新闻源的则直接清理出百度新闻源,最最严重的是使用大量子域名发布软文的,这样的情况则会屏蔽整个主域名。
我查了几个百度公布惩罚网站的域名,这些域名在百度搜索中确实已经没有了快照,阿里微微交易平台也被K了。
其实说了这么多都是废话,站长们最关心的应该是绿萝算法2.0到底是怎么工作的,是怎么判断一个网站是否属于软文交易平台或者是软文发布站的。
我觉得,识别软文交易平台并不难,因为软文交易平台网页中肯定包含和软文交易相关的关键词,相信绿萝算法能轻而易举地把这样的平台罗列出来。但是,软 文发布站和软文收益站这两种难度就有所增大了,所谓软文发布站就是接任务发软文的网站,而软文收益站则是出钱发软文的网站。
说这两种网站难识别的原因是他们之间的关系和接受投稿的网站以及投稿人网站非常相似。
软文交易:网站A付费给网站B,然后在网站B中发布文章并留下网站A的链接。
投稿流程:网站A投稿给网站B,网站B审核通过后发布文章并留下网站A的链接。
简单的对比,我们会惊讶地发现他们之间的关系竟然如此相似。那么绿萝算法2.0是怎么找到并且区分他们的呢?我来做个猜想,猜猜看绿萝算法2.0是怎么工作的。
方法一:顺藤摸瓜。使用搜索引擎最为熟悉的方法,通过软文交易站的链接顺藤摸瓜,找到东家和西家。
方法二:内容识别。通过对相似内容的网页识别,判断网站中是否拥有大量相似文章从而判断是投稿还是软文。
我不是百度,我不懂百度。这两个方法也只是我的猜想,是很难行得通的猜想。因为据我了解现在的软文交易站极少是可以看到网站链接的,有的也是要登录后才能看的;而内容识别更别说了,百度原创起源算法就已经让我们这些小站长足够揪心了,不信?
。
单看图你可能没看出什么来,给你个提醒,你看看原创标识(就是快照简介前的日期)和快照时间。《微信无APP概念的公众平台梦?对不起,人家不买你 账。》这篇文章我在6月23日就在博客发布了,随后在多个网站投稿,互联网的一些事这个网站我也投了。然而,百度原创标识没落到我的快照结果上,而是互联 网的一些事这个网站上。更让人啼笑皆非的是,我的文章快照日期是6月23日,而互联网的一些事是在24日才通过了我的投稿,所以快照日期是6月24日的。
我的博客文章快照日期是6月23日,而互联网的一些事是在6月24日,也就是说首先进入百度索引数据库的是我的多梦博客,而不是互联网的一些事,可笑的是原创标识却落在了互联网的一些事的快照上。
这说明了什么?难道是获得邀请的网站才有资格标上原创?还是算法的失误?
百度起源算法的工作方式真是让人匪夷所思。至于绿萝算法2.0,就不再作评论了。这个活生生的例子已经足以说明百度在内容识别算法的不足,而绿萝算法2.0也许只是手动工作的一个行动代号。
除非注明,文章均为肖俊博客原创,欢迎转载!转载请注明本文地址,谢谢。