<?xml version="1.0" standalone="yes"?>
<?xml-stylesheet type="text/xsl" href="css/rss.xslt"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>漂博远方 - 读书有感</title><link>http://www.ycdsk.com/</link><description>网络营销实战经验 - </description><generator>RainbowSoft Studio Z-Blog 1.8 Arwen Build 90619</generator><language>zh-CN</language><copyright>沪ICP备09091660号 站长qq：1018717117var _bdhmProtocol = ((&amp;quot;https:&amp;quot; == document.location.protocol) ? &amp;quot; https://&amp;quot; : &amp;quot; http://&amp;quot;);document.write(unescape(&amp;quot;%3Cscript src='&amp;quot; + _bdhmProtocol + &amp;quot;hm.baidu.com/h.js%3F1e406e98a5f46a704f64992d83978439' type='text/javascript'%3E%3C/script%3E&amp;quot;)); /*  */  var _gaq = _gaq || [];  _gaq.push(['_setAccount', 'UA-11116827-5']);  _gaq.push(['_trackPageview']);  (function() {    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);  })();</copyright><pubDate>Sun, 05 Sep 2010 15:09:31 +0800</pubDate><item><title>读百度seo指南后感</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/55.html</link><pubDate>Wed, 18 Aug 2010 15:33:32 +0800</pubDate><guid>http://www.ycdsk.com/post/55.html</guid><description><![CDATA[<p>读完百度官方的优化建议，相信有经验的seoer一定觉得不够过瘾吧。下面是笔者针对建议的一些看法：</p><p>1、关于域名注册：建议里面只提用户体验，未谈rul里含有关键词的权重问题。</p><p>2、关于服务器、空间租用：未谈及baiduspider在宕机时的抓取策略。我们知道谷歌有一个盒子专门记录当robot访问宕机的主机时的次数，从而决定是否经常关顾此网站。</p><p>3、关于机器可读：未谈及SE的索引机制，以及主附索引的转化关系。另外在建议中，百度提出的建议是少用flash、图片、JavaScript等ajax技术，但这些技术往往可以给用户更好的体验。</p><p>4、关于子域名与目录的选择：说明了子域会被认为是一个独立的站点，这样以来，spider也会额外增加很大的工作量，我想这会增加spider的数量，浪费服务器资源。</p><p>5、关于rul：百度提到正常的url对搜索引擎没有影响，但可能会让spider掉入死循环，同样会浪费服务器资源，但后文中百度解释说，这种黑洞风险百度已经完美解决。</p><p>6、关于抓取顺序：百度提到&ldquo;用户浏览通常是从左到右的，重要的内容应该放到title的靠前的位置&rdquo;，根据用户体验推断，spider的抓取顺序应该也是从左到右的。</p><p>7、关于写好锚文本：百度提到&ldquo;在搜索引擎刚发现一个新网页时，锚文本也对这个网页的描述是唯一的参考因素。&rdquo;也就是说，被连接的新网页第一个记录是锚文本，这样文中是否出现锚文本，对spider判断网页真实性会有很大的关系。</p><p>最后，笔者的建议，如果百度站长工具，除了301以外，如果有个更容易告诉百度网站改版的沟通工具就更好了！</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/55.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=55</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=55&amp;key=1bd1c8aa</trackback:ping></item><item><title>搜索引擎下载系统的体系结构</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/50.html</link><pubDate>Sat, 05 Jun 2010 10:17:31 +0800</pubDate><guid>http://www.ycdsk.com/post/50.html</guid><description><![CDATA[<p><img height="362" alt="搜素引擎下载系统的体系结构" width="552" onload="ResizeImage(this,520)" src="http://www.ycdsk.com/plugin/windsphoto/photofile/20106/201065101824109.jpg" /></p><p>名词解释：<br />1）&nbsp;URL库：存放全部历史上曾经抓取过的URL和新增的URL<br />2）&nbsp;Page库：存放爬虫实际抓取下来的原始网页<br />图中抓取过程如下：<br />1）&nbsp;调度员通过更新规则向URL请求一个URL抓取任务<br />2）&nbsp;调度员计算出该URL，然后分配给编号为0的爬虫抓取<br />3）&nbsp;爬虫0实际抓取的网页存放在Page库中<br />4）&nbsp;爬虫0在抓取的网页中提取其他链接后反馈给调度员<br />5）&nbsp;调度员判断网页类型，并设定初始更新时间等后存放在URL库中，继续转1），周而复始</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/50.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=50</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=50&amp;key=e656a4a8</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--如何选择爬虫（spider）</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/48.html</link><pubDate>Wed, 26 May 2010 08:54:02 +0800</pubDate><guid>http://www.ycdsk.com/post/48.html</guid><description><![CDATA[<p>首先假定有n个爬虫可以并行工作，并且定义一个可以提取URL域名的函数domain，例如：URL=http://fianc&eacute;.sina.com.cn/g/20070317/17163416577.shtml<br />domain（URL）=fianc&eacute;.sina.com<br />说明如下：<br />1）&nbsp;对任意的URL，利用domain函数提取URL的域名<br />2）&nbsp;用MD5签名函数签名域名，MD5（domain(URL)）<br />3）&nbsp;讲MD5签名值对n取模运算，int spider_no= MD5（domain(URL)）%n<br />4）&nbsp;该URL分配给编号为spider_no的爬虫进行抓取<br />&nbsp;</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/48.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=48</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=48&amp;key=9826d402</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--进一步说明抓取提速策略</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/47.html</link><pubDate>Wed, 26 May 2010 08:53:18 +0800</pubDate><guid>http://www.ycdsk.com/post/47.html</guid><description><![CDATA[<p>通过比较，为了照顾大站，按照域名分解的策略更加合理。在下载系统中，按照域名分解抓取任务的工作由一个称为&ldquo;调度员&rdquo;的模块来处理。通过域名分解将不同的域名调度给不同的爬虫进行抓取。因此，下载系统主要有爬虫和调度员构成<br /><span style="color: #ff0000">&rarr;</span><br />用生活中的例子来解释爬虫和调度员的关系。我们家那里有一个超市，提供这样一种服务。当购物者消费满20元时，就可以免费乘坐超市提供的小车来回家。由于小车有限，因此需要一个调度来安排空闲的小车和所要开往的站点。从而有效地协调运输的效率，避免了一个站点多个小车或是一些站点没有小车的情况。<br />此例中，小车就可以看作是爬虫，通过与调度员的合作，更加有效的进行网页下载的工作。</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/47.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=47</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=47&amp;key=5b52a556</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--抓取提速策略（合作抓取策略）</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/46.html</link><pubDate>Wed, 26 May 2010 08:52:28 +0800</pubDate><guid>http://www.ycdsk.com/post/46.html</guid><description><![CDATA[<p>提速基本可以采用下面几种方法：<br />1）&nbsp;提高抓取单个页面的速度<br />2）&nbsp;尽可能减少不必要的抓取任务<br />3）&nbsp;增加同时工作的爬虫数量<br />事实证明，受到万维网发展水平限制，第1）种方法基本不可行，单个页面抓取速度受到下载带宽的限制，在现有技术条件下很难任意提高；第2）种方法难度很大，由于需要和万维网的变化保持紧密同步，所以冗余的抓取总是不可避免的；第3）种方法通过增加爬虫数量提高总体抓取速度是可行的。<br /><span style="color: #ff0000">&rarr;</span><br />多爬虫合作抓取是目前主流搜索引擎抓取策略之一。书中提到：在多个爬虫抓取的情况下，如何将工作量分解成为主要的问题。即要解决一个网页交给哪一个爬虫抓取？如果分工不明，很可能多个爬虫抓取了相同的网页，从而引入额外的开销。通产采用以下两种方法来进行抓取任务的分解：<br />1）&nbsp;通过web主机的IP地址来分解，使某个爬虫仅抓取某个地址段的网页<br />2）&nbsp;通过网页的域名来分解，使某个爬虫紧抓取某个域名段的网页</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/46.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=46</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=46&amp;key=e35d6bc4</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--Robots协议</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/45.html</link><pubDate>Wed, 26 May 2010 08:50:37 +0800</pubDate><guid>http://www.ycdsk.com/post/45.html</guid><description><![CDATA[<p>Robots协议时web站点和搜索引擎爬虫交互的一种方式，即将一个robots.txt的文件放在网站的根目录上<br /><span style="color: #ff0000">&rarr;</span><br />robots协议是网站与爬虫对话的平台。站长们可以建一个以.txt为扩展名的记事本文件，文件名为robots，在这个文件中，可以填写协议规则来告诉爬虫此网站的哪些页面是不允许抓取的，也可以阻止某些爬虫的抓取</p><p>robots协议通过User-agent和Disallow告知搜素引擎非公开目录和非公开网页。说明如下：<br />1）&nbsp;User-agent：*：表示对一切搜索引擎爬虫有效，如果特别针对某个爬虫，则可以写明。<br />2）&nbsp;Disallow：/2004/ontaria/basic：表示禁止抓取这个目录。<br /><span style="color: #ff0000">&rarr;</span><br />继续解释1）中，如果特别针对某个爬虫，比如你的网站想让谷歌抓取，则可以写User-agent：googlebot<br />我们可以随处引用一个站点来学习robots协议，比如<a href="http://www.baidu.com/robots.txt"><font color="#0a5d0a">www.baidu.com/robots.txt</font></a>，打开后，我们可以找到百度填写的robots协议。如果当你在分析某个网站时，未能找到robots协议的话，证明该站点的根目录里未放有robots协议。此时爬虫会按照User-agent：*的指令来进行抓取，同时也可以说明该站并不重视与爬虫对话。</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/45.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=45</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=45&amp;key=92448d0f</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--网页更新于泊松过程</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/44.html</link><pubDate>Wed, 26 May 2010 08:49:40 +0800</pubDate><guid>http://www.ycdsk.com/post/44.html</guid><description><![CDATA[<p><img style="oldpaddingtop: ; oldbordertopwidth: ; oldpaddingbottom: ; oldborderbottomwidth: ; oldpaddingright: ; oldborderrightwidth: ; oldpaddingleft: ; oldborderleftwidth: " title="" alt="" src="http://www.ycdsk.com/plugin/windsphoto/photofile/20105/2010524192234139.jpg" onload="ResizeImage(this,520)" /><br />图中分别描述了&ldquo;.com&rdquo;&ldquo;.net&rdquo;&ldquo;.edu&rdquo;&ldquo;.gov&rdquo;的网页更新的泊松分布。由图中可知：.com类型的网页变化最剧烈，.gov类型、.edu类型的网页变化最少。因此给予不同类型的网页不同的重访频率是科学的。网页更新策略的3个重要结论：<br />1）&nbsp;网页更新过程符合泊松过程<br />2）&nbsp;网页更新时间间隔符合泊松指数分布<br />3）&nbsp;对于不同类型的网页采用不同的更新策略</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/44.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=44</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=44&amp;key=cff5dc93</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--目前网页重访策略大致可以归为以下两类</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/43.html</link><pubDate>Wed, 26 May 2010 08:49:02 +0800</pubDate><guid>http://www.ycdsk.com/post/43.html</guid><description><![CDATA[<p>1）&nbsp;统一重访策略：爬虫以同样的频率重访已经抓取的全部网页，已获得统一的更新机会，所有的网页不加区别的按照同样的频率被爬虫重访。<br />2）&nbsp;个体重访策略：不同网页的改变频率不同，爬虫根据其更新频率来决定重访该个体页面的频率。<br /><span style="color: #ff0000">&rarr;</span><br />虽然笔者未证实百度、谷歌等著名搜索引擎的重访策略，不过笔者通过不同网站的web日志可以判断，这些搜索引擎应该结合运用了统一和个体两种重访策略。</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/43.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=43</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=43&amp;key=bfecea1f</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--网页重访策略</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/42.html</link><pubDate>Wed, 26 May 2010 08:48:03 +0800</pubDate><guid>http://www.ycdsk.com/post/42.html</guid><description><![CDATA[<p>由于时间因素，链接策略并不完美。爬虫日积月累地下载各种各样的网页，然而过去的网页可能变化了。因此爬虫不得不周期性的刷新（refresh），重访那些已经下载的网页。通过重访以便这些网页能够与万维网的变化与时俱进。<br /><span style="color: #ff0000">&rarr;<br /></span>如何判断再一次访问的时间，书中P61-P63中详细解释了这一策略&mdash;&mdash;泊松过程模型，想要了解泊松过程模型的更多内容可以在wiki或是百度百科里查阅。网页变化符合泊松过程模型，因此网页寿命的时间间隔也就可以计算出来了。</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/42.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=42</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=42&amp;key=feca37cf</trackback:ping></item><item><title>《走进搜索引擎》读书笔记--网页抓取优先策略</title><author>a@b.com (ycdsk)</author><link>http://www.ycdsk.com/post/41.html</link><pubDate>Wed, 26 May 2010 08:45:14 +0800</pubDate><guid>http://www.ycdsk.com/post/41.html</guid><description><![CDATA[<p>判断一个页面的重要性主要有三个因素：链接欢迎程度、链接重要度、平均链接深度<br />链接欢迎度为IB（P），它主要由反向链接的数目和质量决定<br />链接重要度为IL（P），它是一个关于URL字符串的函数，仅仅考察字符串本身。链接重要度主要通过一些模式，比如认为&ldquo;.com&rdquo;或者&ldquo;home&rdquo;的URL重要度，以及具有较少斜杠（slash）的URL重要度高等。<br />平局链接深度ID（P），表示在一个种子站点集合中，每个种子站点如果存在一条链路（宽度优先遍历规则）到达该网页，那么平均链接深度就是这个网页的又一个重要性指标。<br />定义网页重要性的度量为I（P），可量化为：<br />I（P）=a&times;IB（P）＋&beta;&times;IL（P）</p><p><span style="color: #ff0000">&rarr;</span><br />1）若想提高网页被抓取的机会，可以利用链接原则来实施<br />&nbsp; 2）书中所提到的链接重要度，可以理解为URL的深度，URL越深，重要度越低。比如<a href="http://www.ycdsk.com/"><font color="#669900">www.ycdsk.com</font></a>要比<a href="http://www.ycdsk.com/post/31.html"><font color="#669900">http://www.ycdsk.com/post/31.html</font></a>重要，以此类推<br />&nbsp; 3）由于重要性网页可直接量化为链接欢迎度+链接重要度，因此对单页面优化可转化为：连接数量+链接质量<br />&nbsp; 4）链接质量和链接重要度是有区别的，链接重要度是单纯的考虑URL的级数，级数越低越重要。链接质量则不单纯考虑URL的级数，简单的说，有一些内页的链接质量高于首页的链接。打个比方，在只考虑外部链接这一个因素的排名情况下，假设<a href="http://www.ycdsk.com/"><font color="#669900">www.ycdsk.com</font></a> 被链接100次，<a href="http://www.ycdsk.com/post/31.html"><font color="#669900">http://www.ycdsk.com/post/31.html</font></a>被连接200次，那么后者的链接诶质量要比前者高。</p>]]></description><category>读书有感</category><comments>http://www.ycdsk.com/post/41.html#comment</comments><wfw:comment>http://www.ycdsk.com/</wfw:comment><wfw:commentRss>http://www.ycdsk.com/feed.asp?cmt=41</wfw:commentRss><trackback:ping>http://www.ycdsk.com/cmd.asp?act=tb&amp;id=41&amp;key=d9b2e362</trackback:ping></item></channel></rss>
