1、网页体积与索引的关系
问题补充:
以前百度显示网页体积的时候最大是125K,超过这个范围快照显示就不正常,是不是意味着网页体积大于125K就对搜索引擎的抓取或收录有影响了?
答:
页面大小和搜索引擎的抓取之间没有直接关系。
但我们建议网页(包括代码在内)不要过大,过大的网页会有抓取截断;而内容部分,也不要过大,过大会被索引截断。当然,抓取截断的上限,会远大于索引截断的上限。

2、百度支持哪些Robots Meta标签
问题补充:
在百度官方页面上(http://www.baidu.com/search/robots.html)看到百度支持 <meta name="robots" content="noarchive">, 但没有提及另几个常见Robots Meta标签。请问百度是否支持:
<META NAME="ROBOTS" CONTENT="NOINDEX">
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
<meta name="ROBOTS" content="NOSNIPPET">
<meta name="ROBOTS" content="NOODP">
答:
百度支持nofollow和noarchive。
robots相关的信息,我们会定期更新到http://www.baidu.com/search/robots.html上,建议多关注。

3、百度11位现象是怎么回事?
答:
这是一个很有意思的“术语”。作为搜索引擎,10位还是11位不是关键,关键是用户体验。作为站长,在看待网站排序的时候,如果不仅仅是从自己的利益角度出发,也能从一个普通用户角度出发,那么我们相信,大家就能找到更多的共鸣了。呵呵。

4、js代码弹窗是否会影响自然排名?
答:
任何对用户体验有增益或者减益的做法,其实会影响到用户的"投票"行为。而这些投票行为,又会影响搜索引擎对这个网站的评价算法。所以,弹不弹窗并不重要呀,关键是这种弹窗会对用户造成什么样的影响。

5、网页的导出链接数多少为宜?
问题补充:
Google倾向于说每个网页的导出链接不要超过100为宜,百度有没有什么建议?
答:
这个暂时没什么建议。一般情况下,链接数量,会影响到这些链接从该页面上所获得的权重;少就多分一些,多就少分一些。

6、带www的URL不收录
问题补充:
有不少站长反映百度只收录不带www的URL,不收录带www的。或者两个都收录,即使从domain.com做了301转向到www.domain.com也如此。搜索时,两个版本还可能同时出现在一个结果页面上。
除了网站上URL使用保持统一,做301转向(很多已经这么做了,没效果),站长还能做些什么?还是这是百度的问题?
可能与百度对301的保守处理有关。还有没有其他原因?
答:
这应该是系统缺陷问题,这不合逻辑。我们会反馈给相关工程师追查。多谢。

7、在百度快照里页面没有显现完整
问题补充:
在百度快照里页面没有显现完整,首页底部(友情链接及版权信息那块)代码和页面都没在快照中出现,那么友情链接对其他网站还有用吗?
答:
这种情况不会影响友情链接。
另外,我们建议尽量将页面大小控制在合适范围内,详见此帖:
“1 ”(网页体积与索引的关系)
cache只是显示一部分。而底部链接提取只和该网页是否被抓全有关。百度spider抓取的网页文件非常之大,链接提取完全不必担心。

8、HTTP状态码 200 0 64是怎么回事?
问题补充:
百度蜘蛛访问后返回的HTTP状态码为200 0 64与200 0 0的区别?是否和服务器开启gzip压缩有关?我开启后感觉百度蜘蛛访问后返回的HTTP状态码均为200 0 64。
答:
我注意到普通用户和其他搜索引擎蜘蛛程序的抓取,也会有相同的现象,这应该是服务请求处理失败或者iis日志记录出错。
一直收集不到能对应到具体站点的相关log,我们也无法确定出现这种状态代码时是否会影响抓取,但可以确定和Baisuspider的抓取行为无关。
建议检查一下iis配置和自己网站的程序有无问题。

9、搜索结果中显示标题与实际标题不一致
问题补充:
在原网页没有改变TITLE的情况下为何百度搜索结果中所示显的网页的TITLE并非跟网站实际TITLE一样?
答:
原因比较复杂,需要针对性分析。主要原因可能是tag title提取失败,系统只好从其他地方取了一些文本作为标题。这种提取失败的原因,有网页设计层面的(比如全是flash或者ajax),也有robots封禁层面的(某些重要网页虽然不抓取,但会保留url本身)。
还有一些系统异常也会造成类似的现象。
如果不符合一般性的预期,这类问题都可以直接提交至webmaster@baidu.com。会有工程师跟进的。

10、搜索北京搬家为什么出来的第一个结果是合肥搬家公司?
答:
这显然是一个ranking bad case。已经转给工程师了。

11、百度是不是调整了对新站的策略
问题补充:
百度是不是调整了对新站的策略,因为去年一些比较热的商业词还可以得到不错的排名,但是今年普遍下滑而且很严重!百度是不是调整了对新站的考核期或者说加大了网站年龄对于权重的影响?
答:
搜索引擎策略一天一小变,一月一大变。我真的说不好这种现象是什么策略造成的。但我们在制定策略的时候,评价标准只是对用户搜索需求满足有怎样的影响,而不会去评价对某个站长的利益有怎样的影响。这一点请大家谅解。

12、一个犀利的问题:百度的产品一直占据了很好的排名?
问题补充:
百度的产品一直占据了很好的排名,真的优化的好?还是对自己做了特殊处理?
我记得以前有啊刚上线不久,搜索一些产品,他们就把有啊放到很靠前的位置了。
答:
很犀利的提问,呵呵。坦率的说,两者兼而有之。但主要是后者。
这个所谓特殊处理就是阿拉丁。我们宣称阿拉丁机制是“开放”的,既然是开放的,那么百度的自有资源,只是一个子集而已,整合非常容易,并且质量控制会更加得当。只是由于资源自有,所以就没有“百度开放平台”这个尾巴。我们对外也并不强调这一点。
这些内部资源被阿拉丁整合,唯一的考量要求,就是是否有利于用户搜索体验的提升。按我们的内部话语而言,叫做“举贤不避亲”。
稍微提两句阿拉丁机制。如果对09年的百度世界有所关注,应该有所了解。这个机制最关键的地方之一,在于搜索需求的判断。这包括需求是什么(比如搜 范冰冰,用户是想知道范冰冰的最近的八卦新闻,还是范冰冰的介绍,或者是范冰冰的图片,视频之类?),以及需求的强弱判断(八卦、介绍、图片、视频等,孰强孰弱?)。有了这两个基本计算,对应的优质资源就可以被整合了。并且这种判定是智能和动态的,而不是固定的。有心的站长可以自己跟踪分析一下结果变化。
阿拉丁的开放部分,过去一直强调“确定性答案”,这主要是机制启动初期,很多东西还不完备。这个系统最近很快会有比较大的升级和变化,并且有更大的市场推进力度。以期其能和各类资源方做出良好配合,改进搜索效果。届时我也会在这里对阿拉丁机制的重大变化做一个详细解读,因为这和广大站长的切身利益息息相关。
说完了机制,接下来谈下优化。
坦白的讲,百度的内部优质资源,不需要在针对搜索引擎赋权部分做很过分的“seo”,因为有阿拉丁这个通道。我看过google发布的自有产品seo分析,那是个很好的报告。百度的产品有的seo做的比较好(比如空间),有的做得比较差(比如贴吧),有的做得极差(全盘ajax)。总体而言,仍有很大改进余地,这也表明我们在内部sem工作的不足。
从网页搜索角度而言,我们会非常关注用户对一个展现效果的反馈。从标题、摘要到其他多媒体元素、用户交互元素的每一个细节的优化。我举一个小例子,大家留意到百度百科的结果,标题构成是词条+百度百科。我们曾经在标题里加了一个slogan,结果使得点击率下降若干个百分点。我之所以谈这个细节,旨在和诸位站长说,大家在关注获取排名的同时,也可以多多的关注一下用户的心理感受和行为模式。这会使得sem效果更上一层楼的。

13、百度如何看待站群优化?
问题补充:
请教一个站群优化的问题,百度对站群优化是什么态度呢?经常发现有很多站群都在百度获得了好的排名,但是相应的那些站群在google的排名却往往没那么优秀,比如在百度搜索“论文代写”这个词就有7个同属一个人的站排在前8名,whois信息也是一样的,记得zac曾建议如果要做站群优化的话whois信息最好不要相同,但是从这个例子发现,百度未必会考虑whois的信息?
答:
我只能说,我们在技术实现上,尚有诸多缺陷和漏洞。这类司空见惯的问题,理应得到合理的处置。

14、关于重复页面的问题?
问题补充:
百度如何面对很难处理的重复页面,比如列表页有分页,文章页也有分页,他们的meta都是相同的,这样会不会当重复页面处理。同时比如一个论坛有两篇相同的帖子都收录,会影响先收录的排名吗?
答:
1,判定页面重复的算法很复杂。可以肯定的是,仅meta相同,是不会被判为重复的。
2,相同两个帖子被收录(URL可能不同),低权重的页面会不被建索引,或者被高权重页面类聚掉。

15、.la的域名是否会受到歧视?
问题补充:
我的网站用的是.LA域名,从各个方面来说 外链 权重 用户体验,都比同类网站的要多要高,但排名总是在一些小站下面,内页也在其它站的内页下面。
听某百度的朋友说非主流后缀像 .LA 之类的域名做站百度不给好权重,不知道是不是真的。
答:
可以肯定的回答:不会。

16、meta keywords和description的问题
问题补充:
网页中是否推荐设置keywords和description?
如果每页都设置这两个属性,是否会被搜索引擎判断为过度优化或作弊而处罚?
答:
可以肯定的回复:不会。但也不见得会起到SEOER预期的排序效果。我们会慎重的对待这些meta信息。
实际上我们非常欢迎网站首页和索引页严肃的设置meta description,这样会使得搜索引擎摘要更好提取,对用户更友好,更易读。

17、为什么搜索行业门户网站名称 这么多山寨的?
问题补充:
现在百度搜索赶集网,第二页以后全是山寨的。但搜索搜房网,58同城,1010兼职网第二页以后全是他们地方分站的,是不是百度可以专门针对一个网站做限制?
是不是以前赶集的排名很好,同一关键词出来很多排名,就如这样的 http://www.baidu.com/s?wd=%C7%E9%C2%C2%D7%B0%C5%FA%B7%A2&pn=30 搜索情侣装批发第4页左右,几乎几页连续是58的。
答:
革命尚未成功,我们仍需努力。

18、请问百度支持canonical属性么?
问题补充:
对于多域名或者多url,站长有没有途径告知百度自己的首选域或首选地址呢
答:
百度暂时还没有支持这类复杂的属性。关于首选域或者首选地址的给定问题,我们内部会郑重的讨论一下。通常情况下,只要网站所有者主推一个域名以及某个url pattern,那么它通常也会被spider选择为主域名以及url主形态。我们也留意到打印页之类的问题,在我们的系统还没有完全的解决这类问题之前,建议用robots来做一下处理。
另外,站长工具平台还没有提供这方面工具的打算。如有新进展,会及时通报的。
 

本文源于漂博远方http://www.ycdsk.com/, 原文地址:http://www.ycdsk.com/post/26.html