<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<?xml-stylesheet type="text/xsl" href="css/rss.xslt"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>漂博远方</title><link>http://www.ycdsk.com/</link><description>网络营销实战经验</description><generator>RainbowSoft Studio Z-Blog 1.8 Arwen Build 90619</generator><language>zh-CN</language><copyright>沪ICP备09091660号 站长qq：1018717117var _bdhmProtocol = ((&amp;quot;https:&amp;quot; == document.location.protocol) ? &amp;quot; https://&amp;quot; : &amp;quot; http://&amp;quot;);document.write(unescape(&amp;quot;%3Cscript src='&amp;quot; + _bdhmProtocol + &amp;quot;hm.baidu.com/h.js%3F1e406e98a5f46a704f64992d83978439' type='text/javascript'%3E%3C/script%3E&amp;quot;)); /*  */  var _gaq = _gaq || [];  _gaq.push(['_setAccount', 'UA-11116827-5']);  _gaq.push(['_trackPageview']);  (function() {    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);  })();</copyright><pubDate>Wed, 18 Aug 2010 16:06:44 +0800</pubDate><item><title>读百度seo指南后感</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/55.html</link><pubDate>Wed, 18 Aug 2010 15:33:32 +0800</pubDate><guid>http://www.ycdsk.com/post/55.html</guid><description><![CDATA[<p>读完百度官方的优化建议，相信有经验的seoer一定觉得不够过瘾吧。下面是笔者针对建议的一些看法：</p><p>1、关于域名注册：建议里面只提用户体验，未谈rul里含有关键词的权重问题。</p><p>2、关于服务器、空间租用：未谈及baiduspider在宕机时的抓取策略。我们知道谷歌有一个盒子专门记录当robot访问宕机的主机时的次数，从而决定是否经常关顾此网站。</p><p>3、关于机器可读：未谈及SE的索引机制，以及主附索引的转化关系。另外在建议中，百度提出的建议是少用flash、图片、JavaScript等ajax技术，但这些技术往往可以给用户更好的体验。</p><p>4、关于子域名与目录的选择：说明了子域会被认为是一个独立的站点，这样以来，spider也会额外增加很大的工作量，我想这会增加spider的数量，浪费服务器资源。</p><p>5、关于rul：百度提到正常的url对搜索引擎没有影响，但可能会让spider掉入死循环，同样会浪费服务器资源，但后文中百度解释说，这种黑洞风险百度已经完美解决。</p><p>6、关于抓取顺序：百度提到&ldquo;用户浏览通常是从左到右的，重要的内容应该放到title的靠前的位置&rdquo;，根据用户体验推断，spider的抓取顺序应该也是从左到右的。</p><p>7、关于写好锚文本：百度提到&ldquo;在搜索引擎刚发现一个新网页时，锚文本也对这个网页的描述是唯一的参考因素。&rdquo;也就是说，被连接的新网页第一个记录是锚文本，这样文中是否出现锚文本，对spider判断网页真实性会有很大的关系。</p><p>最后，笔者的建议，如果百度站长工具，除了301以外，如果有个更容易告诉百度网站改版的沟通工具就更好了！</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/55.html" target="_blank">继续阅读《读百度seo指南后感》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E7%99%BE%E5%BA%A6">百度</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=seo">seo</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E4%BC%98%E5%8C%96%E6%8C%87%E5%8D%97">搜索引擎优化指南</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/55.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/54.html">百度官方的seo指南</a> (2010-8-17 12:12:52)  </li><li><a href="http://www.ycdsk.com/post/53.html">聪明的麦包包seoer借力开心网，获取不菲流量</a> (2010-7-7 16:35:56)  </li><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/31.html">《走进搜索引擎》读书笔记，第37页-第38页，四个结论</a> (2010-5-23 16:7:58)  </li><li><a href="http://www.ycdsk.com/post/28.html">搜索引擎发展史，从国外到国内</a> (2010-5-14 8:52:40)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/55.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=55</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=55&amp;key=1bd1c8aa</trackback:ping></item><item><title>百度官方的seo指南</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/54.html</link><pubDate>Tue, 17 Aug 2010 12:12:52 +0800</pubDate><guid>http://www.ycdsk.com/post/54.html</guid><description><![CDATA[<p>此版本为pdf，官方已出书，目前手上还没有，只能用打印机打出来了。</p><p>ps：此版本pdf为不可打印版，如果需要打印的朋友，可以先下载个PDFEdit，然后进行编辑或是直接打印。</p><p><a target="_blank" href="http://www.ycdsk.com/ycdsk/2010/8/百度搜索引擎优化指南.PDF">点击直接下载</a></p><p>&nbsp;</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/54.html" target="_blank">继续阅读《百度官方的seo指南》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=5">SEO</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E7%99%BE%E5%BA%A6">百度</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=seo">seo</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E%E6%8C%87%E5%8D%97">搜索引擎指南</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/54.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/55.html">读百度seo指南后感</a> (2010-8-18 15:33:32)  </li><li><a href="http://www.ycdsk.com/post/53.html">聪明的麦包包seoer借力开心网，获取不菲流量</a> (2010-7-7 16:35:56)  </li><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/31.html">《走进搜索引擎》读书笔记，第37页-第38页，四个结论</a> (2010-5-23 16:7:58)  </li><li><a href="http://www.ycdsk.com/post/28.html">搜索引擎发展史，从国外到国内</a> (2010-5-14 8:52:40)  </li></ul>]]></description><category>SEO</category><comments>http://www.ycdsk.com/post/54.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=54</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=54&amp;key=8c81d9fe</trackback:ping></item><item><title>聪明的麦包包seoer借力开心网，获取不菲流量</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/53.html</link><pubDate>Wed, 07 Jul 2010 16:35:56 +0800</pubDate><guid>http://www.ycdsk.com/post/53.html</guid><description><![CDATA[<p>今日偶然间发现的，麦包包的seoer真是个聪明的家伙。我只列出了百度的指数和排名，是因为百度日均搜索量达到了220000+，相比其他搜索引擎要大得多。而实际上，&ldquo;开心网&rdquo;这个关键词在谷歌和有道的搜索结果里，麦包包网站也出现在了首页，不过搜索量相比百度，却是冰山一角了。个人认为这是seo中借力策略的很好案例了，特此奉上，大家品尝吧！</p><p><img alt="开心网百度指数" src="http://farm5.static.flickr.com/4093/4770930778_fb44fd4550_b.jpg" /></p><p><img alt="麦包包利用关键词&ldquo;开心网&rdquo;在百度的排名" src="http://farm5.static.flickr.com/4138/4770930814_9bd6fc66bf_b.jpg" /></p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/53.html" target="_blank">继续阅读《聪明的麦包包seoer借力开心网，获取不菲流量》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=5">SEO</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E9%BA%A6%E5%8C%85%E5%8C%85">麦包包</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=seo">seo</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E5%BC%80%E5%BF%83%E7%BD%91">开心网</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/53.html#comment" target="_blank">添加评论</a>(2)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/55.html">读百度seo指南后感</a> (2010-8-18 15:33:32)  </li><li><a href="http://www.ycdsk.com/post/54.html">百度官方的seo指南</a> (2010-8-17 12:12:52)  </li><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/31.html">《走进搜索引擎》读书笔记，第37页-第38页，四个结论</a> (2010-5-23 16:7:58)  </li><li><a href="http://www.ycdsk.com/post/28.html">搜索引擎发展史，从国外到国内</a> (2010-5-14 8:52:40)  </li></ul>]]></description><category>SEO</category><comments>http://www.ycdsk.com/post/53.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=53</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=53&amp;key=ca7d1f15</trackback:ping></item><item><title>搜索引擎下载系统的体系结构</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/50.html</link><pubDate>Sat, 05 Jun 2010 10:17:31 +0800</pubDate><guid>http://www.ycdsk.com/post/50.html</guid><description><![CDATA[<p><img height="362" alt="搜素引擎下载系统的体系结构" width="552" onload="ResizeImage(this,520)" src="http://www.ycdsk.com/plugin/windsphoto/photofile/20106/201065101824109.jpg" /></p><p>名词解释：<br />1）&nbsp;URL库：存放全部历史上曾经抓取过的URL和新增的URL<br />2）&nbsp;Page库：存放爬虫实际抓取下来的原始网页<br />图中抓取过程如下：<br />1）&nbsp;调度员通过更新规则向URL请求一个URL抓取任务<br />2）&nbsp;调度员计算出该URL，然后分配给编号为0的爬虫抓取<br />3）&nbsp;爬虫0实际抓取的网页存放在Page库中<br />4）&nbsp;爬虫0在抓取的网页中提取其他链接后反馈给调度员<br />5）&nbsp;调度员判断网页类型，并设定初始更新时间等后存放在URL库中，继续转1），周而复始</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/50.html" target="_blank">继续阅读《搜索引擎下载系统的体系结构》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=seo">seo</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/50.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/55.html">读百度seo指南后感</a> (2010-8-18 15:33:32)  </li><li><a href="http://www.ycdsk.com/post/54.html">百度官方的seo指南</a> (2010-8-17 12:12:52)  </li><li><a href="http://www.ycdsk.com/post/53.html">聪明的麦包包seoer借力开心网，获取不菲流量</a> (2010-7-7 16:35:56)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/50.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=50</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=50&amp;key=e656a4a8</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--如何选择爬虫（spider）</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/48.html</link><pubDate>Wed, 26 May 2010 08:54:02 +0800</pubDate><guid>http://www.ycdsk.com/post/48.html</guid><description><![CDATA[<p>首先假定有n个爬虫可以并行工作，并且定义一个可以提取URL域名的函数domain，例如：URL=http://fianc&eacute;.sina.com.cn/g/20070317/17163416577.shtml<br />domain（URL）=fianc&eacute;.sina.com<br />说明如下：<br />1）&nbsp;对任意的URL，利用domain函数提取URL的域名<br />2）&nbsp;用MD5签名函数签名域名，MD5（domain(URL)）<br />3）&nbsp;讲MD5签名值对n取模运算，int spider_no= MD5（domain(URL)）%n<br />4）&nbsp;该URL分配给编号为spider_no的爬虫进行抓取<br />&nbsp;</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/48.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--如何选择爬虫（spider）》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/48.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li><li><a href="http://www.ycdsk.com/post/46.html">《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</a> (2010-5-26 8:52:28)  </li><li><a href="http://www.ycdsk.com/post/45.html">《走进搜索引擎》读书笔记--Robots协议</a> (2010-5-26 8:50:37)  </li><li><a href="http://www.ycdsk.com/post/44.html">《走进搜索引擎》读书笔记--网页更新于泊松过程</a> (2010-5-26 8:49:40)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/48.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=48</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=48&amp;key=9826d402</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--进一步说明抓取提速策略</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/47.html</link><pubDate>Wed, 26 May 2010 08:53:18 +0800</pubDate><guid>http://www.ycdsk.com/post/47.html</guid><description><![CDATA[<p>通过比较，为了照顾大站，按照域名分解的策略更加合理。在下载系统中，按照域名分解抓取任务的工作由一个称为&ldquo;调度员&rdquo;的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此，下载系统主要有爬虫和调度员构成<br /><span style="color: #ff0000">&rarr;</span><br />用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市，提供这样一种服务。当购物者消费满20元时，就可以免费乘坐超市提供的小车来回家。由于小车有限，因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率，避免了一个站点多个小车或是一些站点没有小车的情况。<br />此例中，小车就可以看作是爬虫，通过与调度员的合作，更加有效的进行网页下载的工作。</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/47.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--进一步说明抓取提速策略》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/47.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/46.html">《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</a> (2010-5-26 8:52:28)  </li><li><a href="http://www.ycdsk.com/post/45.html">《走进搜索引擎》读书笔记--Robots协议</a> (2010-5-26 8:50:37)  </li><li><a href="http://www.ycdsk.com/post/44.html">《走进搜索引擎》读书笔记--网页更新于泊松过程</a> (2010-5-26 8:49:40)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/47.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=47</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=47&amp;key=5b52a556</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/46.html</link><pubDate>Wed, 26 May 2010 08:52:28 +0800</pubDate><guid>http://www.ycdsk.com/post/46.html</guid><description><![CDATA[<p>提速基本可以采用下面几种方法：<br />1）&nbsp;提高抓取单个页面的速度<br />2）&nbsp;尽可能减少不必要的抓取任务<br />3）&nbsp;增加同时工作的爬虫数量<br />事实证明，受到万维网发展水平限制，第1）种方法基本不可行，单个页面抓取速度受到下载带宽的限制，在现有技术条件下很难任意提高；第2）种方法难度很大，由于需要和万维网的变化保持紧密同步，所以冗余的抓取总是不可避免的；第3）种方法通过增加爬虫数量提高总体抓取速度是可行的。<br /><span style="color: #ff0000">&rarr;</span><br />多爬虫合作抓取是目前主流搜索引擎抓取策略之一。书中提到：在多个爬虫抓取的情况下，如何将工作量分解成为主要的问题。即要解决一个网页交给哪一个爬虫抓取？如果分工不明，很可能多个爬虫抓取了相同的网页，从而引入额外的开销。通产采用以下两种方法来进行抓取任务的分解：<br />1）&nbsp;通过web主机的IP地址来分解，使某个爬虫仅抓取某个地址段的网页<br />2）&nbsp;通过网页的域名来分解，使某个爬虫紧抓取某个域名段的网页</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/46.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/46.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li><li><a href="http://www.ycdsk.com/post/45.html">《走进搜索引擎》读书笔记--Robots协议</a> (2010-5-26 8:50:37)  </li><li><a href="http://www.ycdsk.com/post/44.html">《走进搜索引擎》读书笔记--网页更新于泊松过程</a> (2010-5-26 8:49:40)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/46.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=46</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=46&amp;key=e35d6bc4</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--Robots协议</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/45.html</link><pubDate>Wed, 26 May 2010 08:50:37 +0800</pubDate><guid>http://www.ycdsk.com/post/45.html</guid><description><![CDATA[<p>Robots协议时web站点和搜索引擎爬虫交互的一种方式，即将一个robots.txt的文件放在网站的根目录上<br /><span style="color: #ff0000">&rarr;</span><br />robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件，文件名为robots，在这个文件中，可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的，也可以阻止某些爬虫的抓取</p><p>robots协议通过User-agent和Disallow告知搜素引擎非公开目录和非公开网页。说明如下：<br />1）&nbsp;User-agent：*：表示对一切搜索引擎爬虫有效，如果特别针对某个爬虫，则可以写明。<br />2）&nbsp;Disallow：/2004/ontaria/basic：表示禁止抓取这个目录。<br /><span style="color: #ff0000">&rarr;</span><br />继续解释1）中，如果特别针对某个爬虫，比如你的网站想让谷歌抓取，则可以写User-agent：googlebot<br />我们可以随处引用一个站点来学习robots协议，比如<a href="http://www.baidu.com/robots.txt"><font color="#0a5d0a">www.baidu.com/robots.txt</font></a>，打开后，我们可以找到百度填写的robots协议。如果当你在分析某个网站时，未能找到robots协议的话，证明该站点的根目录里未放有robots协议。此时爬虫会按照User-agent：*的指令来进行抓取，同时也可以说明该站并不重视与爬虫对话。</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/45.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--Robots协议》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/45.html#comment" target="_blank">添加评论</a>(1)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li><li><a href="http://www.ycdsk.com/post/46.html">《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</a> (2010-5-26 8:52:28)  </li><li><a href="http://www.ycdsk.com/post/44.html">《走进搜索引擎》读书笔记--网页更新于泊松过程</a> (2010-5-26 8:49:40)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/45.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=45</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=45&amp;key=92448d0f</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--网页更新于泊松过程</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/44.html</link><pubDate>Wed, 26 May 2010 08:49:40 +0800</pubDate><guid>http://www.ycdsk.com/post/44.html</guid><description><![CDATA[<p><img style="oldpaddingtop: ; oldbordertopwidth: ; oldpaddingbottom: ; oldborderbottomwidth: ; oldpaddingright: ; oldborderrightwidth: ; oldpaddingleft: ; oldborderleftwidth: " title="" alt="" src="http://www.ycdsk.com/plugin/windsphoto/photofile/20105/2010524192234139.jpg" onload="ResizeImage(this,520)" /><br />图中分别描述了&ldquo;.com&rdquo;&ldquo;.net&rdquo;&ldquo;.edu&rdquo;&ldquo;.gov&rdquo;的网页更新的泊松分布。由图中可知：.com类型的网页变化最剧烈，.gov类型、.edu类型的网页变化最少。因此给予不同类型的网页不同的重访频率是科学的。网页更新策略的3个重要结论：<br />1）&nbsp;网页更新过程符合泊松过程<br />2）&nbsp;网页更新时间间隔符合泊松指数分布<br />3）&nbsp;对于不同类型的网页采用不同的更新策略</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/44.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--网页更新于泊松过程》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/44.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li><li><a href="http://www.ycdsk.com/post/46.html">《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</a> (2010-5-26 8:52:28)  </li><li><a href="http://www.ycdsk.com/post/45.html">《走进搜索引擎》读书笔记--Robots协议</a> (2010-5-26 8:50:37)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/44.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=44</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=44&amp;key=cff5dc93</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/43.html</link><pubDate>Wed, 26 May 2010 08:49:02 +0800</pubDate><guid>http://www.ycdsk.com/post/43.html</guid><description><![CDATA[<p>1）&nbsp;统一重访策略：爬虫以同样的频率重访已经抓取的全部网页，已获得统一的更新机会，所有的网页不加区别的按照同样的频率被爬虫重访。<br />2）&nbsp;个体重访策略：不同网页的改变频率不同，爬虫根据其更新频率来决定重访该个体页面的频率。<br /><span style="color: #ff0000">&rarr;</span><br />虽然笔者未证实百度、谷歌等著名搜索引擎的重访策略，不过笔者通过不同网站的web日志可以判断，这些搜索引擎应该结合运用了统一和个体两种重访策略。</p><p>Copyright © 2008</p><p><a href="http://www.ycdsk.com/post/43.html" target="_blank">继续阅读《《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类》的全文内容...</a></p><p>分类: <a href="http://www.ycdsk.com/catalog.asp?cate=6">读书有感</a> | Tags: <a href="http://www.ycdsk.com/catalog.asp?tags=%E8%AF%BB%E4%B9%A6%E7%AC%94%E8%AE%B0">读书笔记</a>&nbsp;&nbsp;<a href="http://www.ycdsk.com/catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>&nbsp;&nbsp; | <a href="http://www.ycdsk.com/post/43.html#comment" target="_blank">添加评论</a>(0)</p><h3>相关文章:</h3><ul><li><a href="http://www.ycdsk.com/post/50.html">搜索引擎下载系统的体系结构</a> (2010-6-5 10:17:31)  </li><li><a href="http://www.ycdsk.com/post/48.html">《走进搜索引擎》读书笔记--如何选择爬虫（spider）</a> (2010-5-26 8:54:2)  </li><li><a href="http://www.ycdsk.com/post/47.html">《走进搜索引擎》读书笔记--进一步说明抓取提速策略</a> (2010-5-26 8:53:18)  </li><li><a href="http://www.ycdsk.com/post/46.html">《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</a> (2010-5-26 8:52:28)  </li><li><a href="http://www.ycdsk.com/post/45.html">《走进搜索引擎》读书笔记--Robots协议</a> (2010-5-26 8:50:37)  </li></ul>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/43.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=43</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=43&amp;key=bfecea1f</trackback:ping></item></channel></rss>
