智火营销资讯

打造一流的网络营销产品与服务,探索最前沿的技术创新
主页 > 行业资讯 > 百度搜索引擎白皮书已沦为废纸

百度搜索引擎白皮书已沦为废纸

  最新一期的百度网页质量白皮书(以下简称《白皮书》)发布已经有半个月了,对于页面质量的衡量标准有了新的衡量标准。字里行间已经言明度和易访问性成为主要衡量标准。通篇只字未提“原创”内容。

  《白皮书》讲页面质量的衡量维度定位为3个:内容质量、浏览体验、可访问性。

  内容质量好坏的衡量维度又细分为页面制作成本,主体内容丰富完整,内容信息真实、有效、安全。

  《白皮书》还进一步阐述了高质量页面内容的界定标准:“花费了较多时间和精力编辑,倾注了编者的经验和专业知识;内容清晰、完整且丰富;资源有效且优质;信息真实有效;安全无毒;不含任何作弊行为和意图,对用户有较强的正收益。”

  乍一看,非常详细也非常全面的概括了几乎所有类型页面的内容元素,衡量标准也制定的很有代表性和特点。但是透过这些高度概括性的、描述性的、主观判断性的界定标准,我们不禁要问:度娘,你凭啥以一家之言,衡量界定亿万计网页的质量优劣?

  下面开始挑着说:一,内容质量。

  “花费较多时间和精力编辑,倾注编者的经验和专业知识;”

  百度如何界定一个页面制作出来到底是花费了多少时间和精力?一个行业相关的资深的编者,自然可以凭借多年经验和专业知识,得心应手的打造出一个具备较高内容含金量的页面,那他花费的时间和精力,你说是多呢还是少?

  你如何判断页面内容是出自编者自身的专业知识和经验?通过一篇美食博文,你就断定编者是一个厨子?或者你先知道了编者是个厨子,然后才觉得这是一篇美食博文,而不是一个屠夫的从业心得?

  “内容清晰、完整且丰富;”

  任何一个独立的原创页面的内容都是不同的,其内容的完整与丰富程度,很大意义上决定于我们判断其内容延展性的尺度。掘地一尺,与挖地三尺我们得到的其实都是同一类的东西,百度如何界定内容的完整程度与丰富程度?

  各行各业千差万别,某一具体内容是否具备关联内容,以及关联内容的深度和广度漫说你是个程序,就是都教授来了都说不清楚。你又怎么定义?

  “资源的有效性,信息的真实性;”

  这一句,唯一值得推敲的地方就是定义信息真实性的标准。涉及到真伪性的判断,不知道百度准备利用关联词同时出现的频度来计算,还是统计索引库中差异性内容的占比来衡量的,还是坐等权威机构发布声明才能断定真伪,进而决定抓取与否,展现与否?

  那么举个栗子,一句被传疯了的网络谣言,无论是关联词同时出现的频度,以讹传讹的类似内容占比,还是考虑到一定时间段内的大量出现的页面总数量,那么我想说,在没有政府机构出面澄清之前,百度蜘蛛该作何处置呢?

  至于页面内容安全性,有没有毒,作弊内容识别,获取正收益,传播正能量,构建和谐社会,促进人类进步,保卫宇宙和平……,我觉得百度都能做得到。

  下面开始挑着说:二,浏览体验。

  百度很谦虚,直言影响用户体验的因素很多,《白皮书》只谈论排版和广告问题。

  广告我就不谈了,每个人都烦恶意广告,我也一样。

  至于页面排版嘛,无非是结构合理,色彩搭配,字体样式等等前台的技术问题。我相信百度的诸位大师一定具备诸如什么,色彩对于视觉神经的刺激与印象残留的关系;人类眼球构造与视觉关注度的联系…………

  说的有些偏激了,度娘别介意。其实我理解你关于排版问题的见解,只是在各类CMS程序, 开源系统模板都很普及的情况下,我实在想不出,怎么样一个不靠谱的能把页面版块弄得混乱不堪,让用户找不着北。恐怕也只有涉及到单独功能页面建设的情 况下,才有自主排版的考虑,比如百度竞价着陆页之类的。相比之数量庞大的普通页面,其实页面排版的雷同的是非常之高的!

  要真能做出一个和上所有页面结构都不同的网页,我相信其复杂性和艰涩的结构连蜘蛛都不想爬。所以,浏览体验这一项《白皮书》说的好像很有道理,其实都是废话,毫无指导意义。

  下面开始挑着说:三,可访问性。

  《白皮书》说了可访问性的甄别分为3个方面:正常打开、权限限制、有效性。

  1:我的理解,正常打开是就站点在自然环境下,能够顺畅访问的界定标准,包括服务器速 度,服务器解析,站点配置的正确性等等硬件设施的合理配置。没什么可说的,无论俺们“站长”做站的目的有多么的“不纯粹”,也首先要实现能够被展示的前提 条件才行啊,否则一切也都无从谈起,所以这一点就不劳度娘费心了。

  2:权限限制,百度声明对于高质量、正版资源,由于内容建设成本较高,允许设置权限门 槛,并且不影响页面质量的衡定。反之,低质量、盗版、低成本转载、采集内容等,参考《白皮书》有关页面质量衡量标准,其本身就算不得优质页面,如果还要设 置权限门槛的话,无疑会进一步降低百度评价。这也是合情合理的,我想广大网民都会乐见其成的。

  但是!我们都知道蜘蛛程序,对于需要权限才能浏览的页面内容或者资源,不具备访问能力,那么百度如何判断,一个需要注册用户登录,输入一堆验证码,或者发表回复,甚至交钱才可能看都的内容,是否是真正的优质内容?

  百度对于优质资源的定义是怎么样的,正版?独家?作者知名度?版本号?版权证明?内容提供者声明?专利号?……

  这些方法真的可行么?百度不是号称中文搜索第一服务商么,不会不了解中国互联网的国情吧,不是我自黑,这些东西真的很不靠谱。

  对于图像、视频等内容,我相信各大搜索引擎都具备了初步识别能力,但这不意味着你就能分辨出正版大片和手机视频有多少差别?

  如果你说你能,请披露相关技术信息,如果你怕技术泄密,请申请专利,为了日后维权提供有力保证!(友情提示,中国国家知识产权局专利申请指南:http://www.sipo.gov.cn/zlsqzn/)。如果你还有其他顾虑,我只能呵呵了。

  3:有效性,你解决了蜘蛛访问权限问题再来判断资源是否有效吧。

  说了这么多,可能有人要说了,人家的技术不是你动动手指头能像明白的。你这么牛逼,你怎么不去跟李彦宏较劲?

  我勒个去,我发了个贴都让百度给删了,我哪敢找他老人家啊?怎么,不信?有图为证!

  请对比右下角时间,贴图做结尾,好像欠点意思,其实我想说的话都在图里了,自己看吧。  

  

  本文由尚运博客原创首投A5,转载请注明出处:http://www.songlucky.com/archives/276

© 2011-现在 智火营销 版权所有 沪ICP备12003050号-10
Powered by HuoCMS

沪ICP备12003050号-10

© 2011-现在 智火营销 版权所有