2007年11月25日星期日

搜索引擎优化技术教程之完全版 第五章 重点:链接策略

第五部分:搜索引擎优化的重点:链接策略
链接是网站的灵魂。用户通过超级链接获得丰富的网站内容,搜索引擎蜘蛛也是沿着一个网 站的页面链接层层跟踪深入,完成对该网站的信息抓取。对搜索引擎尤其是 Google 来说, 决定一个网站排名的关键,是外部有多少高质量的链接指向这个网站。这就是外部链接或反 向链接,也称导入链接(Inbound links 或 backlinks)。而从网站引向其它网站的导出链接 以及网站内部页面间的彼此链接也对排名带来或多或少的影响。
搜索引擎分类目录
搜索引擎目录(Directory)即搜索引擎的人工分类目录。今天,登录分类目录是网站建成 后非常基础、重要的工作,尤其登录几大主要分类目录,其重要性不在于访问者是否通过目 录链接找到你的网站,而主要在于通过这些目录你的网站获得了重要的、高质量的外部链接, 这对于你的网站提高排名具有举足轻重的作用。
目前,对于中文网站来说,最重要的分类目录有以下几个:开放式目录 ODP,Yahoo!,门户 搜索引擎目录搜狐、网易、新浪。可以分为免费登录和付费登录两种情况。无论是免费还是 付费,都须通过手工输入登录。
免费登录: 最著名最重要的登录是全球最大的开放式目录库 Open Directory Project:www.dmoz.org。 ODP 的宗旨是:建立网上最全面最权威的目录,以及建立一个被公众认为高质量的资源库。 在这一宗旨下,全球志愿编辑员选择高质量内容的网站核准进入分类目录。
由于 Google 等重要搜索引擎都采用 ODP 的数据库,是 Google 每月一次深度索引的基础,因 此向 ODP 提交网页成为每个网站完成后的首要工作。登录 ODP 目录是免费的,但要接受较为 严格的人工审核和较长时间的等待,并且最后可能网站登录不成功,还要经历反复提交的过 程。
由于 DMOZ 目录在网站排名中举足轻重的作用,使得越来越多良莠不齐的的网站向 DMOZ 提交 或违规提交,而志愿加入的人工编辑队伍中出现以权谋私的现象和素质不高的情况,诸多因 素使得现在登陆 DMOZ 非常困难,没有一个网站敢保证被 DMOZ 收录。因此,要确保登录成功, 唯一的办法是小心谨慎地完全遵守 DMOZ 登录条款。以下是必须遵守的提交注意事项:
1、确保网站内容是原创而非转载、镜象或复制 如果你的网站内容只是一些会员制产品/服务信息及链接,或是大量拷贝其它站点内容,那 么你的网站极有可能被 DMOZ 拒绝。即使对已经收录的站点,一旦发现它们是镜象、复制或 非原创,DMOZ 也会将其从目录中剔除。所以务必在网站中加入产品或服务的原创介绍信息。
2、不要采用虚假、作弊和夸张的手段 被搜索机器人反感的做法,同样被目录编辑拒之门外。下文将有专门章节讲到什么是搜索引 擎作弊行为。网站说明中任何虚假、夸张的文字都会遭到拒绝。对违法性内容,也是不会收 录的。3、确保网站外观的良好性 如果网站内容出现大量拼写错误、死链接或“正在建设中”的字样,或者下载缓慢,都会阻 碍编辑对你的网站的收录。此外,对于来自免费主机的网站,被 DMOZ 收录的机会很少。
4、确保网站中包含具体联系信息 一个 DMOZ 编辑称,如果他在网站中找不到实际联系地址或电话号码,他就会认为这个网站 不具备可信度。因此,如果你的网站中只有一个 Email 地址作为联系信息,是极不利于收录 成功的。
5、确保网站提交到正确的目录 选择合适的分类目录及子目录是网站提交的核心。很多网站登录失败只是由于提交选择的目 录不正确所致。所以在提交网站之前,必须先浏览整个目录,最好也了解一下竞争对手的网 站都放在哪个目录下。确认之后,才在该目录页面右上角点击“提交网页”。
6、记下提交日期、目录名和编辑邮箱 向 ODP 提交完你的网站后,记下提交的日期及目录。如果你提交的那个目录下有编辑员信息, 最好把编辑的名字和邮箱也记下来。这些信息,对于你需要询问提交网站的处理状态或再次 提交时,非常有用。
7、不要多次重复提交网站 因为编辑是根据网站的提交日期顺序进行处理的,一个目录下往往有很多网站在队列中等候 审批。从提交成功到最后收录,最快也要 2 周时间,最晚的甚至要等到半年以后。因此,你 需要耐心等待结果。如果网站非常庞大,且拥有很多不同内容的分支时,你可以尝试将不同 内容的网页分别向 DMOZ 下的相应目录进行提交。
一旦 DMOZ 收录了你的网站,那很快就可以被 Google,Lycos,Netscape,AOL, HotBot, DirectHit 等一些大型搜索引擎和门户网站收录。
其它的重要免费目录包括 Yahoo 目录。Yahoo 是最早开始做分类目录的网站,直到今天登录 Yahoo 目录也是网站推广的重要环节。Google 把来自 Yahoo 目录的链接作为网站排名的重要 分值。
工具推荐: 检查网站是否登录多个重要目录:www.123promotion.co.uk/directory/index.php
付费登录(Paid Inclusion): 英文 Yahoo 实行付费登录商业网站政策,国内的门户搜索引擎目录也对商业网站纷纷采用付 费登录。付费登录商业模式包括普通登录和固定排名,一般按年付费,网站在付费之后立即 登录目录,无须等待和受到其它因素的影响。门户搜索引擎的搜索程序也比较偏重于对自身 付费目录数据的抓取。
总体上,付费登录对于商业网站和采用了大量不利于搜索引擎友好的手段建设的网站来说, 还是有必要的。关于自动登录软件(Submitting Tools): 自从有了 B2B 商务平台和搜索引擎营销以来,就出现了向这些中间平台和搜索引擎提交供求 信息或网站的自动登录软件,并一度在市面上广为流行。搜索引擎自动登录软件的功能是承 诺将客户的网站一次性登录到全球 N 个搜索引擎目录,有的甚至保证可以使网站在搜索引擎 中的排名获得极大提升。实际上,已经有诸多营销实践者对此类自动登录软件实际效果提出 了质疑:
1、真正为网站带来访问量的搜索引擎主要集中于几大主流搜索引擎,其它的小搜索引擎搜 索量极小,即使网站被这些小搜索引擎收录成功,也不能指望通过他们带来什么访问量。
2、 今天的主流搜索引擎目录往往采用付费登录或严格的人工审核,这些目录极其反感由自 动登录软件提交的网站,有的明确提出拒绝自动提交方式。
3、在软件自带的几千个搜索引擎中,软件本身提示登录成功的大概有百分之六七十,是否 真正登录成功,实际操作中很难一个一个去检验。
4、 如果网站有来自其它网站的导入链接,即使不用登录,主流搜索引擎机器人同样会抓取 到你的网页。
5、如果从增加外部导入链接的角度出发,英文网站针对英文搜索引擎的自动提交可以一试, 聊胜于无,但不可对其抱有太大的期望。
总体上,盛行于免费推广时期的自动登录软件在今天各大主流商业推广平台纷纷实施付费政 策的商业模式下,已经越来越丧失价值。
高质量导入链接
搜索引擎在决定一个网站的排名时,不仅要对网页内容和结构进行分析,还围绕网站的链接 展开分析。对网站排名致关重要的影响因素是获得尽可能多的高质量外部链接,也称导入链 接。网站即使没有向目录提交,但由于其他重要网站上有你的网站链接,一样可以获得搜索 引擎的快速抓取,并为取得好排名加分。
将导入链接纳入排名重要指标的依据在于,搜索引擎认为,如果你的网站富有价值,其它网 站会提及你;对你提及越多,说明价值越大。由此引申出链接广度(Link Popularity)在 搜索引擎优化中的重要地位。
唯其如此,人们想方设法地为网站“制造”外部链接,导致涌出大量垃圾(spam)链接和网 站,于是搜索引擎在算法调整中,仅对高质量的外部链接给予重视,对类似 Spam 的做法往 往给予适得其反的结果。
因此,今天对链接广度要有这样的认识:即使获得上百个质量低劣的或内容毫不相干的站点 的链接,也抵不上一个高质量且内容高度相关或互补的站点的链接。
链接质量分析: 来自以下网站的链接都可以称为高质量的链接:搜索引擎目录中的链接以及已加入目录的网站的链接 与你的主题相关或互补的网站 PR 值不低于 4 的网站 流量大、知名度高、频繁更新的重要网站(如搜索引擎新闻源) 具有很少导出链接的网站 以你的关键词在搜索结果中排名前三页的网站 内容质量高的网站
相比高质量链接,以下链接堪称垃圾链接,对网站排名不起作用或起反作用: 留言簿、评论或 BBS 中大量发贴夹带网站链接 已经加入太多导出链接的网站(几十甚至上百个“友情链接”中有一个你的网站) 加入链接基地(Link Farm)、大宗链接交换程序(bulk link exchange programs)、交 叉链接(Cross Link) 等链接程序,与大量会员网站自动交换链接,被搜索引擎视为典 型的垃圾链接,极有可能受到惩罚或牵连。Google 就会对那些使用链接程序的站点进行 永久性删除。
还有两种导入链接被误认为可以增加链接广度: 点击付费的搜索引擎广告链接,如百度竞价排名和 Google 的右侧关键词广告。 多层级的网络会员制联盟(Affiliate program)链接。 这些链接不会直接指向你的网站,而是指向盟主的网站,以方便他们跟踪点击计费,因此不 会提高你网站的链接广度。
当然,如果你本身主持该会员制联盟,你的服务器就在跟踪会员网站并将它们指回你的站点, 这种情况下还是有助于提高你的链接广度。
怎样获得高质量导入链接: 1、 向搜索引擎目录提交网站: 见前文
2、 寻找网站交换链接 俗称友情链接或互惠链接。互惠链接的基础是你的网站内容具有较高质量,否则请求链接不 容易成功。交换链接对象包括:
已经加入搜索引擎分类目录的相关网站 所有主要搜索引擎中的与你的行业相关的目录下的网站,都是理想的链接对象。
与你的竞争对手链接的相关网站 要找到这些网站,可以在搜索引擎中输入"link:",跟着输入竞争者的域名,如 "link:theirdomain.com" 和 "link:www.theirdomain.com." 。这样还可以在获得链接的同 时与对手竞争获得目标客户。
生意链中的对象: 竞争对手与你的主题最相关,但交换链接不大可能,因此可以考虑与你的生意链中的上下游 合作伙伴,包括分销商,代理商,供应商等的网站交换链接。容易被找到的相关网站 如那些做搜索引擎广告的网站或其它大力宣传推广的网站,以及自然排名不错的相关网站。
找到以上网站之后,再对其进行链接分析,考察是否属于高质量链接对象。诸如流量 ALEXA 排名、PR 值高低和导出链接的数量都是考察的基本条件。最好为对方提供链接的 HTML 源代 码信息,这样链接交换对象只需简单复制这些代码并嵌入自己网页即可。注意,由于你的网 站可以通过好几个不同的 URL 达到。比如下面这四个 URL 地址都指向新竞争力的主页: http://jingzhengli.com/ http://www.jingzhengli.com http://jingzhengli.com/index.htm http://www.jingzhengli.com/index.htm
但搜索引擎的链接分析系统视它们为四个完全不同的页面。因此,在交换链接时必须提供一 个统一的 URL,一般以符合大多数人群使用习惯的 http://www.yourname.com 为准。
交换链接的过程,是经过对对方网站仔细分析后,通过诚恳的一对一的联系最终获得,而不 是漫天撒网的垃圾邮件轰炸来请求交换链接。
3、 网站被主动链接或转载: 这是最获搜索引擎赏识的链接,也是搜索引擎重视外部链接的根本原因。如果你的网站内容 丰富,质量高,其它相关网站会主动将你的网站链接到他们的网站。尤其当你的网站提供很 多相关免费资源、知识库时,被其它网站链接和转载的机会都很高。
4、 在重要网站发表专业文章: 围绕目标关键词在一些重要站点发表文章,在文章中或结尾带上你的网站签名,或在作者简 介中放上你的链接和围绕关键字的网站描述。这样也是既可以获得高质量互惠链接,亦可能 获得目标客户。在你的博客日志或个人主页上也不要忘了加上网站链接。注意你发表的每篇 文章标题都应该包含关键词在内。
何谓重要网站,指那些流量高,威信度高的网站。个人体会是,可以用你网站的关键词去主 流搜索引擎订阅新闻,那些被作为新闻源的网站都被搜索引擎看作重要网站。搜索引擎对这 些新闻源每天检索一次,更新频繁,这些网站上的链接自然也成为被更新的对象,效果极佳。
5、 在所在行业目录提交网站 尽可能向更多的相关网络目录、行业目录、商务目录、黄页、白页提交你的网站,加入企业 库。
工具推荐: 查询网站有哪些导入链接及数量: www.sowang.com/so/ (综合查询:含链接广度、PR、ALEXA 排名) www.marketleap.com/publinkpop(可同时与多个竞争对手网站进行比较) www.uptimebot.com(同时检测 10 个搜索引擎的收录情况) www.seotoolkit.co.uk/link_popularity_checker.asp 搜索框命令:在 google 中输入:link:www.yourname.com 在 Yahoo 中输入:link:http://www.yourname.com
导出链接和内部链接
导出链接就是你的网站中指向其它网站的链接。搜索引擎机器人除了分析你的导入链接,也 会分析你引出去的站点,如果导出链接站点内容与你的网站主题相关联,同样有利于搜索引 擎友好。这也是交换链接要选择主题相关网站的原因。最后,一个网站内页面间的链接也被 纳入链接分析之中,影响到网站的页面等级,最终影响排名。
导出链接: 在你的网站上如果增加一些与你关键词有关的行业/专业的资源性网站链接,不仅有利于丰 富网站内容,也有利于提升搜索引擎对你网站的好印象。
这一点尤其值得一些站长注意。由于缺乏原创资料,他们常常转摘其它网站的文章作自己网 站的内容,但又不注明来源,惟恐导出链接助长了竞争对手,不利于自己的网站访问量。其 实,对搜索引擎来说,适量、适当的导出链接是很有必要的。
当然,导出不同于导入,即使主题相关,也要控制数量。因为从“网页级别”的角度看,搜 索引擎认为一个页面奉献的导出链接数量越多,则该网站其它页面的受益相应就减少。所以 一个页面导出链接数量应受到合理控制,不要超过 15 个。首页的导出链接更要控制在10 个以内,多出的应单独安排在次级页面。Google 认为一个页面的最大导出链接数量不应超 过 100 个。
内部链接: 除了导入导出链接,一个站点的页面之间也往往彼此链接,如一篇文章结束后的“相关文章” 列表,将该网站中同一主题下的其它文章都链接在内,不仅方便访问者,也有利于搜索引擎。 网站应有意识将重要内容页面对次链接于其它页面,让搜索引擎知道这是你的重要页面,从 而给予更高的 PR 值,进行重点索引。
网站还可以通过建立多个二级域名子站,子站间彼此相链,再一起链回主站,形成一个子站 群包围主站,对提高排名相当有利。
无论是导出链接还是内部链接,都要保证链接有效而不是死链接,死链过多不仅给用户造成 不便,也极不利于搜索引擎友好,影响排名。
附:免费链接检测工具: 1、 Xenu:http://home.snafu.de/tilman/xenulink.html 2、 W3C:http://validator.w3.org/checklink
关键词链接文本及上下文语意
搜索引擎比较重视链接文本中出现的关键词。因此无论是导出链接、导入链接还是内部链接,都最好兼顾到链接文本中含有关键字。比如导出链接最好选择那些有关键词命名的网站,如 一个服装厂商的网站可以在行业资源中添加名称中带有“服装”二字的导出链接。
需要注意的是,如果一个网站的导入链接的文本完全相同,则可能遭致搜索引擎忽略或惩罚。 因为搜索引擎希望导入链接是别人自然创建的,这种统一文字使搜索引擎怀疑该网站是为了 增加链接广度而进行人为制造的结果。因此网站在对外交换友情链接时最好使用不同的文 本,如新竞争力的链接文本就包括“新竞争力”“网络营销管理顾问”“深圳竞争力科技公司” 等。
除了链接文本,链接周围的文字即上下文(Context) 语意也非常重要。链接分析系统通过检 查链接上下文内容来确定网站与其链接对象之间的关联度,以评估该页面的内容质量。通过 语意分析,也可以判断出关键词是否作弊。

搜索引擎优化技术教程之完全版 第六章 走在钢丝绳上的SEO作弊

第六部分:走在钢丝上的搜索引擎优化作弊
由于技术型搜索引擎在网站排名过程中完全由蜘蛛程序自动完成,未有人工参与,这为那些 针对排名原理而采用欺骗蜘蛛程序的手段提供成功的可能性。因此在 SEO 的发展过程中,一 直伴随着关于作弊方法的讨论,成为业界关注的话题。
SEO 作弊手段
做 SEO 必须了解基本的作弊手段,目的是避免无意间采用了相关手段遭到处罚。以下是被视 为作弊的常见手段:
1、关键字堆砌: 为了增加关键词的出现频次,故意在网页代码中,如在META、title、注释、图片ALT以及 URL地址等地方重复书写某关键词的行为(Stuffing)。
2、虚假关键词: 通过在META中设置与网站内容无关的关键词,如在Title中设置热门关键词,以达到误导用 户进入网站的目的。同样的情况也包括链接关键词与实际内容不符的情况。
3、 隐形文本/链接: 为了增加关键词的出现频次,故意在网页中放一段与背景颜色相同的、包含密集关键字的文 本。访客看不到,搜索引擎却能找到。类似方法还包括超小号文字、文字隐藏层等手段。隐 形链接是在隐形文本的基础上在其它页面添加指向目标优化页的行为。
4、 重定向(Re-Direct): 使用刷新标记(Meta Refresh)、CGI程序、Java、javascript或其它技术,当用户进入该页 时,迅速自动跳转到另一个网页。重定向使搜索引擎与用户访问到不同的网页。
5、 偷换网页: 也称“诱饵行为(Bait-&-Switch)”,是在一个网页成功注册并获得较好排名后,用另一个内 容无关的网页来替换它的行为。
6、复制站点或内容: 通过复制整个网站或部分网页内容并分配以不同域名和服务器,以此欺骗搜索引擎对同一站 点或同一页面进行多次索引的行为。镜象站点(Mirror Sites)是此中典型。
7、桥页/门页(Bridge/Doorway/Portal/Entry): 针对某一关键词专门制作一个优化的页面,链接指向或重定向到目标页面。有时候为动态页 面建立静态入口,或为不同的关键词建立不同内页也会用到类似方法,但与桥页不同的是, 前者是网站实际内容所需而建立的,是访问者所需要的,而桥页本身无实际内容,只针对搜 索引擎作了一堆充斥了关键词的链接而已。
8、隐形页面(Cloaked Page) 指同一个网址下对不同的访问者选择性返回不同的页面内:,搜索引擎得到了高度优化的网
页内容,而用户则看到不同的内容。
9、重复注册: 违反网站提交纪律,突破时间间隔限制,将一个网页在短时间内反复提交给同一个搜索引擎 以获得收录的做法。
10、垃圾链接: 加入“链接工厂”(亦称“大量链接机制”)指由大量网页交叉链接而构成的一个网络系统。一个 站点加入 “链接工厂”后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它 需要“奉献”自己的链接。籍此方法来提升链接得分。
11、包含指向作弊网页的链接: 这种情况,有的是无辜被作弊网页牵连,有的则是桥页之故。
搜索引擎对作弊的处罚
由于作弊行为完全背离了搜索引擎对搜索结果排名的初衷——对用户有利的原则,破坏了正 常的搜索结果,严重影响搜索引擎质量和声誉,并昭示出搜索引擎技术的漏洞,因此作弊行 为被搜索引擎厂商深恶痛绝。一旦被侦破为作弊,将视情节轻重给予不同程度的处罚。发生 在2005年3月底的Google清理部分垃圾性搜索结果(清理“广告位出租”的SEO垃圾)以及关 闭部分作弊情节严重的作弊站长网站事件,就是典型的处罚案例。
搜索引擎技术的发展也是侦破作弊技术的发展。今天,搜索引擎对于蒙蔽它的手段识别技术 越来越精,过去可能还行得通的手段在今天就有着被处罚的危险。以下是部分搜索引擎对于 作弊行为的处罚:
百度: 根据网页的作弊情况,会受到不同程度的惩罚。 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名。 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后。 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失。 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用 户投诉,一经确认也会被百度拒绝收录。
中搜 中搜采用多种方法惩罚作弊。封杀、只索引部分正常内容(不减权)、整个网页排序推后、 连带责任。 根据历史纪录,中搜有作弊黑名单,黑名单中的网站是重点防范、监控对象;根据作弊监 控算法计算出来分值很高的网站也会被重点审查。 有轻微作弊的基本正常网页,中搜会只收录正常内容,如隐含文字等内容不建索引。 有较多作弊特征的网页会被减权,基本上在前几页没有机会出现。 包含有指向作弊网页的链接的网页会被牵连,承担连带责任。 中搜会搜索引擎技术的各个环节监控作弊,同时重点监控排序剧变的网页,网站不分大小、 不分领域、部分亲属远近都受到每周7*24小时的监控。除自动监控系统外,还有一个人工监 控小组打击作弊。Google Google 没有明确给出处罚条款,但站主通过以下情况可以了解到网站是否受到处罚: 网站的 PageRank 变为“0” Google 工具栏上的 PageRank 指示为“0” 网站在 Google 的外部链接数变为“0” Google 工具栏上的 Backlinks 或在 Google 搜索框中键入“link:www.yourdomain.com”命 令显示没有外部链。 网站排名骤降 以核心关键词搜索,原有的排名下降明显。不过这种情况有时候是算法更新的原因,与处罚 无关。 网站在 Google 中消失 直接输入网址,找不到该网站。
被处罚的网站一般情况下如果解除作弊,还是可以获得“新生”,情况特别严重者除外

搜索引擎优化技术教程之完全版 第七章 网页级别(PageRank


搜索引擎优化技术教程之完全版 第七章 网页级别(PageRank)关闭广告 本文作者:胡宝介
第七部分:网页级别(PageRank)
Google搜索引擎采用的核心软件称为 PageRank,这是由Google创始人开发出的一套用于网 页评级的系统,是Google搜索排名算法中的一个组成部分,级别从1到10级,10级为满分, PR值越高说明该网页在搜索排名中的地位越重要,也就是说,在其他条件相同的情况下,PR 值高的网站在Google搜索结果的排名中有优先权。网页级别由此成为Google所有网络搜索工 具的基础。
网页级别概述
Google对网页级别的描述 “作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上, 当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。Google 根据网 页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还 要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页 的“重要性”。
重要的、高质量的网页会获得较高的网页级别。Google 在排列其搜索结果时,都会考虑每 个网页的级别。当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因 此,Google 将网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网 页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该 网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。”
PR值算法原理 总体上基于下面2个前提: 1、一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重 要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。 这种重要的网页称为权威(Authoritive)网页。
2、假定用户一开始随机的访问网页集合中的一个网页,然后跟随网页的链接向前浏览网页, 不回退浏览,那么浏览下一个网页的概率就是被浏览网页的PageRank值。
影响 PR 值的因素
PR值体现为从0到10的11个数值,在Google的工具栏上以一条横向绿色柱状图显示,0级情况 下呈白色。它是针对网页而不是网站,因此一个网站的首页和内页往往有着迥然不同的PR 值。由于Google市场拓展进程的原因,中文网页的PR值整体上低于英文网页。对中文网站来 说,拥有3级PR是基础, 4级PR算达标,5级PR可谓良好,而6、7级PR就算相当优秀的网站。 当然,由于PR最直接的影响因素是来自链接,因此这种评级并不代表内容的级别水准,网站 内容质量对PR的影响是间接的、长期的。根据PR值的算法原理,可知影响一个网站(首页) PR值的因素主要包括:
1、 网站的导入链接质量: 根据前文对高质量导入链接的分析,则获得高PR值需要获得来自以下网站的链接: 加入搜索引擎分类目录与已经加入目录的网站交换链接 获得来自 PR 值不低于 4 并与你的主题相关或互补的网站的链接 你的链接出现在流量大、知名度高、频繁更新的重要网站上(如新闻源) 与你交换链接的网站具有很少导出链接 与内容质量高的网站链接(PR 值上升潜力大)
2、 导出链接数量: 根据PR计算原理,由于“一个网页的重要性被平均的传递到它所引用的网页”,因此反过来 看,一个页面内过多的导出链接将潜在引起该页PR值的流失。但从内容的角度看,适当数量 的与主题有关联的导出链接给搜索引擎带来良好的印象。因此,一个页面,尤其是首页的导 出链接数量的把握,应该兼顾到PR值和关键词内容二者之间的平衡,即控制导出链接数量, 以不超过10个为宜。
3、 搜索引擎收录一个网站的页面数量 在探讨SEO的时候,人们过多关注核心关键词排名以及首页的表现情况,却往往忽略了一个 极其重要的问题:即搜索引擎对一个网站收录的页面数量。后者在SEO中也有着极其重要的 意义。一个用核心关键词查询排名不佳的网站,可能由于被抓取大量网页而在用户使用其它 关键词查询时,内页获得前三甲排名。由于用户搜索时使用的关键词具有分散性,使得这种 情况往往给网站带来极大访问量。
正因为收录页面的数量直接影响访问量,因此对PR值的影响也是很大的。被收录页面越多, 主页PR越高。不过需要强调的是,此处所指的数量是指被收录数与网站页面总数的比值,而 不是收录页面的绝对数值。比如一个拥有50个页面的网站被收录了10个页面,网站的被收录 比值是1/5,一个拥有5000个页面的网站被收录了500个页面,比值是1/10,结果是收录10 个页面比收录500个页面的网站还更具排名优势。但对各个搜索引擎来说,究竟达到多大的 比值算是良好,目前还没有相关的数据。
附:查询网站收录页面数量:在搜索引擎中输入:site:www.yoursite.com(如果输入: site:yoursite.com,则获得的是在yoursite.com域名下所有二级域名的网页数量)。 工具推荐: www.marketleap.com/siteindex 可获得网站在多个主流搜索引擎中的网页收录数
4、首页PR的高低 尽管对PR的界定是针对网页而不是网站,但由于每个网页都依托某一网站而存在,首页是推 广的核心页面,所以网站首页PR高低对内页各PR也产生直接影响。一般而言,一个网站各页 面的PR值呈现以下走向:首页﹥一级页面﹥二级页面﹥三级页面……每深入一级,PR降低1 -2个档次。更深层次可能就无法列入评级范围了。当然,如果一个深层内页有很多外部或 内部链接,情况则另当别论。
5、文件类型 Google 可以索引到的网页和文件类型包括:pdf、asp、jsp、hdml、shtml、xml、cfm、doc、 xls、ppt、rtf、wks、lwp、wri、swf。做成 PDF 格式的文件往往都是网站比较重要的内容 或文章。因此 Google 默认 PDF 格式文件的 PR 天生为 3,高于一般 HTML 文件。同理,Google 给予 XML、PS、Word、Power Point、Excel 等类型页面的 PR 也比普通网页文 件高。因此,对于网站比较有价值的内容,建议做成 PDF 格式。
6、 PR 值的更新: Google 每个月进行一次彻底的数据更新(Dance),更新后的网站排名和导入链接都会有某 些变化,但其 PR 更新时间一般要延迟至 dance 后三个月左右,而且网站的 PR 值相对稳定, 要上升或下降一级 PR 是很不容易的事情。
工具推荐: 查看 PR 值是否处于更新期间:www.seochat.com/seo-tools/future-pagerank (如果结果 出现不一致的情况,则处于更新期间)
PR 值的作用
由于网页级别的高低直接受链接的影响,而链接仅是 SEO 的一个方面,因此 PR 的高低只能 反映出 SEO 的部分效果。一个网页如果拥有高 PR 值能够说明的仅是:
网页比较重要,拥有了排名靠前的优先权,并不能与排名靠前直接划上等号 具有了获得高质量导入链接的谈判优势 搜索引擎会加快对网页数据的更新 看上去挺美
正因为具有了排名靠前的优先权和谈判优势,使得高 PR 网站往往最终确实产生高排名,业 内不少人士就干脆直接将 PR 与 SEO 划等号,这不仅不正确,也不利于 SEO 实施。因为 PR 值不高的网站同样有可能获得好的排名,而 PR 高的不见得有理想的排名。并且,在这样的 思想指导下,人们往往片面追求链接效应,忽略了 SEO 对于内容、结构、关键词等方面的分 析和改进,而后者才是用户和搜索引擎长期关注的焦点。网络营销专家冯英健博士认为:PR 值的高低应该是包括 SEO 在内的搜索引擎营销所产生的自然结果而不应作为追求的目标。
结论:在 SEO 的过程中,不能忘记内容建设,不能忘记优质外链,但忘掉 PR 可没什么大不 了的。

SEO入门:交换链接中如何分别假PR值

SEO入门:交换链接中如何分别假PR值
做网站难免要交换链接,尤其是做SEO搜索引擎优化的时候。目前看来交换连接唯一的依据就是pr和alexa排名,而交换连接的目的就是增加反链及网站权值,所以PR值就显得更加重要,于是就经常看到交换连接的第一个要求就是PR值。 很早以前就听说过PR值劫持,就是没太在意,忘记从哪弄了一个查PR值的网址,也不知道是从哪得来的消息,这个网址查出的值就是真实的值,于是就傻乎乎的信以为真没把假PR值当回事。更何况像我这种天性单纯的人是宁愿天下无贼的。 而就在为成都旅游热线寻找反链的时候意外的发现一个网址站PR值竟然是8,熟悉SEO的朋友都应该知道国内PR值到8的网站并不多,而这个网站可以说一点名气都没有,于是产生了怀疑也引起了好奇心一查到底。开始网上收集相关文章,明白了是利用301转向技术直接转到高PR值网站上,下次更新就跟他的PR值一样了。而辨别办法基本是通过google网页快照或者通过查询网页历史的方法。但是很遗憾GOOGLE搜索里已经看不到网页快照的链接了,查找网页历史同样也有一定的问题。 于是多方实验,最后发现一个比较简单的办法就是直接在google里通过link命令查反链,任意点几个链接进去找不到该站的链接就基本判定是假PR值。

SEO知识就需要学以致用

人们常说学以致用,这句话恐怕在小学的时候就耳详能熟。但是我们一直到今天,成为了互联网大军中的一员、SOHO一族中的一份子,这4个字真正能彻悟并能运用到位的有多少?那么多新手站长每天都在QQ群,论坛大肆的提问着,得到答案后消化掉多少,反复的问吗?填鸭式的学习在任何领域都不能得到良好的效果,所以我说学习就要学以致用。 昨天我QQ来了一位同仁问我一些SEO基本的知识并让我对他的站点提出指点,鉴于本人SEO能力尚未达到教学的水准,担心误人子弟,就推荐他到丘仕达的SEO资料站看些资料一步一步学习SEO基础知识,他的回答让我深思,资料站的全部文章已经看完,目前已经掌握了修改TITLE和META信息,对页面关键字的优化尚在一知半解中。这种学习方法想必存在于很多人的身上,不知道你是为了什么目的来学习SEO,这种急于求成的方式我不赞同,首先学习必须要有兴趣,然后细细的学习并加以实践,日积月累的经验自然就把你推到一个高手的位置,一口气吃不成胖子这个道理很多人明白却又不明白。 所以我要跟想通过SEO做站赚钱的已经成为站长和想要成为站长的站长们说,学习就要学以致用,举一反三,实践才是硬道理,前人的经验只能让你少走部分弯路,完全的借鉴永远都不能让你得到创新性的提高。

搜索引擎优化:内容VS .链接

搜索引擎优化:内容VS .链接
搜索引擎优化由相关内容、新鲜趣闻及链接组成。关于这点,我每天都强调很多次。但在互联网国度仍然存在着一种争论,你是应该花更多时间在网站内容上,还是为网站赢得更多链接。 反链接派称,“内容主宰一切!” 的确……内容及为重要。如果你不向互联网提供有用、有启发性且有趣的新文章,那就麻烦了。搜索引擎会下载你整个网站并判定它与什么内容相关。过程极为复杂,我们只需了解大意。 如果网站关于汽车,那就应该有百万页关于汽车维修、汽车分类、汽车信息、汽车相关产品及汽车文章的百科全书,这样的话,可以明显看出此网站是与“汽车”高度相关的。 但如果没有一个网站与我们百万页中的任何一个网页链接呢?当然,现实生活中是不会出现这种情况的……我们可以假设。 网站的链接是高质量的象征。你想想,会有成千上万的人愿意把自己的网站链接到一个毫不相干又无实际价值的网站上去吗?一般都不会。这就是为什么Google特别着重链接数的原因。你当地的汽车商铺网站可能会有五百多个相关的链接,但网站内部只有十个网页。 你当地汽车商铺网站的排名,看起来好象要比拥有上百万网页的汽车网站要高的多,这又是为什么呢?其实网站内容就像重量一样,十两黄金和十两棉花重量相同,价值却大相径庭。 所以,如果没有网站与之链接,上百万个内容不相关的网页也可能会在搜索引擎里消失。当然,有这么多的网站内容,在博客、网站或论坛上,势必会有人参与并与产生链接……但如果都是无用的内容,那就说不定了。 那到底该怎么做?内容是最重要的。创建更多的好内容,你们企业会更有优势。具备了其它企业所不知道的技术知识。这些知识就充当于上述所提的十两黄金,可以充分利用。 在网站上添加这一技术知识的文章,你就可以开始进行链接转换并为网站赢得“不请自来”的链接……这一切都归功于你现在有价值、相关且有趣的网站内容。 在网站内容和链接的对比中,答案很明显的。两者都很重要,但有益的内容应该放在首位。且链接和有益的网站内容都要来自于相关的网站!

十条面向搜索引擎的网站优化的方式

提示一:不要只用图片和Flash动画等非文本的内容来构成网页。当然,如果不在乎来自搜索引擎的访问的话,打开使用这些奢侈和花哨的设计。   提示二:看看那些爬虫经常光顾自己的网站,对自己网站的页面用爬虫模拟程序来观察那些链接、那些页面会被查阅到。   提示三:为自己的网站编写robots.txt,给爬虫指路。   提示四:明确每个页面的主题,给出恰当的题目,并将它作为网页的标题。   提示五:为每个页面提供单独的描述元标签。   提示六:把javascript脚本程序外放连接。   提示七:搜索引擎喜欢那些放在标题标记中的文字。   提示九:避免不必要的表格嵌套。   提示十:使用b或strong来标记文章中重要的内容,比如关键词。   对于Blog程序,比如Mt,可以将内容的摘要作为meta中的描述。MT3.1使用hx来标记标题,符合搜索引擎的嗜好。现在要注意的,就是将关键词着重标示。或许这对adsense也有帮助,免得它看到服装两个字就把服装的广告给放到了关于信息搜索的页面来。

SEO工具

内容与结构工具 搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页Text,Link,Keywords及Description信息 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.webconfs.com/search-engine-spider-simulator.php 相似页面检测工具 检验两个页面的相似度.如果相似度达80%以上,将可能受到惩罚 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.webconfs.com/similar-page-checker.php Google Sitemaps 在线创建 在线创建 Google Sitemaps 网站地图文件 中文:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.xinqj.com/sitemap/sitemap.asp 英文:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.xml-sitemaps.com/ Google Sitemaps Builder .Net Google Sitemaps 创建软件, 可以很方便的创建网站的Sitemaps 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seobbs.net/read.php?tid=10620 综合查询工具 网站收录查询 同时查询Google,百度,Yahoo等8个搜索引擎的收录状况 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://tool.cndw.com/Shoulu/Index.asp 关键词排名查询 可以同时在3个搜索引擎中查询指定网页指定关键词的排名情况. 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seores.com/search/keywordrank.asp 搜索引擎优化监视器(SEO Monitor) 一个仅321K的小软件,可以同时查询多个搜索引擎,多个关键词的排名情况.并自动记录历史排名情况. 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seobbs.net/read.php?tid=2490 Google各服务器关键词排名查询 查询在Google各个服务器中,指定网页指定关键词的排名情况,可以作为一个升降的参考 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://tool.cndw.com/Rank/Index.asp 关键词工具 Google Adwords关键词工具 查询指定关键词的扩展匹配,搜索量,趋势和受欢迎度. https://adwords.google.com/select/KeywordToolExternal 百度相关搜索 按热门程序排序,列出指定关键词相关的扩展匹配及热门程度 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://d.baidu.com/rs.php 关键词密度分析工具 分析指定关键词在指定页面中出现的次数,及相应的百分比密度 中文:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://tool.cndw.com/Seo/Key_Density.asp 英文:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.keyworddensity.com/ 关键词热门排行及指数 百度排行榜:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://top.baidu.com/ 百度指数:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://index.baidu.com/ Yahoo排行榜:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://misc.yahoo.com.cn/top_index.html 搜狗指数:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.sogou.com/top/?IPLOC=CN1102 搜搜龙虎榜:0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.soso.com/lhb/s_i_sosolhb.shtml Google工具 Google Sitemaps Google推出的一项免费服务,一个杰出的SEO工具 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.google.com/webmasters/sitemaps/docs/zh_CN/about.html Google Analytics Google推出的免费分析服务.在市场营销和内容优化上提供很多专业报表.对搜索引擎营销有很大帮助. 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.google.com/analytics/zh-CN/ Google Dance 查询工具 不仅可以查询Dance情况,还可以通过E-mail及时获得每月google dance通知 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seochat.com/googledance/ 查看在GOOGLE各服务器上的PR值 利用这个工具,可以判断PR是否更新,预测更新后的PR值 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seochat.com/seo-tools/future-pagerank Google PR历史更新时间表 看看Google 2000看至今更新PR的具体时间和周期时长 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seocompany.ca/pagerank/page-rank-update-list.html 链接工具 链接广泛度检测工具 反向链接查询工具.同时支持Google,百度,Yahoo等8个搜索引擎 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://tool.cndw.com/LinkIn/Index.asp 查询Google中链接的工具.可以抓取文本标题和链接.中文标题显示的是乱码 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.webconfs.com/google-backlink-checker.php Yahoo新推出的链接检查工具,可以查询网站中所有被检索的页面以及反向链接情况 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://siteexplorer.search.yahoo.com/ 同时查询Google,Yahoo,MSN中的链接数量 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.trafficzap.com/linkpopularity.php 无效链接检查工具 检查指定页面内的链接.包括链接有效性检查,链接文字,链接类型 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seores.com/search/checkurl.asp W3C GLink Checker 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://validator.w3.org/checklink 其他工具 国外主要搜索引擎和人工目录的关系表 一个Flash,解析国外主流搜索引擎与人工目录的关系,对海外推广很有帮助 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seobbs.net/read.php?tid=911 网站历史查询工具 美国互联网档案馆(The Internet Archive)保存了自1996年开始,借助Alexa搜索引擎获取的网站资料 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://web.archive.org/collections/web/advanced.html 分类目录收录查询 检查网站是否登录多个重要分类目录 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.123promotion.co.uk/directory/index.php Alexa世界排名查询 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://alexa.chinaz.com/Index.asp 本文由樂思蜀整理,转发请注明出处及链接! 原发:点石互动 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.dunsh.org/2006/09/12/seo-tools/ 网易学院SEO专区 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://tech.163.com/06/0913/22/2QUCDDNG000920NE.html SEO Blog 0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.seobbs.net/blog/archives/seo-tools.html

Robots.txt指南

当搜索引擎访问一个网站时,它首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。Robots.txt文件用于限定搜索引擎对其网站的访问范围,即告诉搜索引擎网站中哪些文件是允许它进行检索(下载)的。这就是大家在网络上常看到的“拒绝Robots访问标准”(Robots Exclusion Standard)。下面我们简称RES。 Robots.txt文件的格式:   Robots.txt文件的格式比较特殊,它由记录组成。这些记录通过空行分开。其中每条记录均由两个域组成:   1) 一个User-Agent(用户代理)字符串行;   2) 若干Disallow字符串行。   记录格式为: “:“   下面我们分别对这两个域做进一步说明。 User-agent(用户代理):   User-agent行(用户代理行) 用于指定搜索引擎robot的名字,以Google的检索程序Googlebot为例,有:User-agent: Googlebot   一个robots.txt中至少要有一条User-agent记录。如果有多条User-agent记录,则说明有多个robot会受到RES标准的限制。当然了,如果要指定所有的robot,只需用一个通配符“*“就搞定了,即:User-agent: * Disallow(拒绝访问声明):   在Robots.txt文件中,每条记录的第二个域是Disallow:指令行。这些Disallow行声明了该网站中不希望被访问的文件和(或)目录。例如“Disallow: email.htm“对文件的访问进行了声明,禁止Spiders下载网站上的email.htm文件。而“Disallow: /cgi-bin/“则对cgi-bin目录的访问进行了声明,拒绝Spiders进入该目录及其子目录。Disallow声明行还具有通配符功能。例如上例中“Disallow: /cgi-bin/“声明了拒绝搜索引擎对cgi-bin目录及其子目录的访问,而“Disallow:/bob“则拒绝搜索引擎对/bob.html和/bob/indes.html的访问(即无论是名为bob的文件还是名为bob的目录下的文件都不允许搜索引擎访问)。Disallow记录如果留空,则说明该网站的所有部分都向搜索引擎开放。 空格 & 注释   在robots.txt文件中,凡以“#“开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。但大家需要注意两个问题:   1) RES标准允许将注解内容放在指示行的末尾,但这种格式并不是所有的Spiders都能够支持。譬如,并不是所有的Spiders都能够正确理解“Disallow: bob #comment“这样一条指令。有的Spiders就会误解为Disallow的是“bob#comment“。最好的办法是使注解自成一行。   2) RES标准允许在一个指令行的开头存在空格,象“Disallow: bob #comment“,但我们也并不建议大家这么做。 Robots.txt文件的创建:   需要注意的是,应当在UNIX命令行终端模式下创建Robots.txt纯文本文件。好的文本编辑器一般都能够提供UNIX模式功能,或者你的FTP客户端软件也“应该”能够替你转换过来。如果你试图用一个没有提供文本编辑模式的HTML编辑器来生成你的robots.txt纯文本文件,那你可就是瞎子打蚊子——白费力气了。 对RES标准的扩展:   尽管已经提出了一些扩展标准,如Allow行或Robot版本控制(例如应该忽略大小写和版本号),但尚未得到RES工作组的正式批准认可。 附录I. Robots.txt用法举例:   使用通配符“*“,可设置对所有robot的访问权限。   User-agent: *   Disallow:   表明:允许所有搜索引擎访问网站下的所有内容。   User-agent: *   Disallow: /   表明:禁止所有搜索引擎对网站下所有网页的访问。   User-agent: *   Disallow: /cgi-bin/Disallow: /images/   表明:禁止所有搜索引擎进入网站的cgi-bin和images目录及其下所有子目录。需要注意的是对每一个目录必须分开声明。   User-agent: Roverdog   Disallow: /   表明:禁止Roverdog访问网站上的任何文件。   User-agent: Googlebot Disallow: cheese.htm   表明:禁止Google的Googlebot访问其网站下的cheese.htm文件。   上面介绍了一些简单的设置,对于比较复杂的设置,可参看一些大型站点如CNN或Looksmart的robots.txt文件(www.cnn.com/robots.txt www.looksmart.com/robots.txt) 附录II. 相关robots.txt文章参考:   1. Robots.txt常见问题解析   2. Robots Meta Tag的使用   3. Robots.txt检测程序 Robots.txt常见问题解析:   我们开发了一个针对robots.txt文件的“验检程序”,同时又设计了一个搜索程序,专门下载robots.txt文件,以此对新推出的这个“robots.txt验检程序”进行测试。在对DMOZ(ODP)中所链接的站点进行遍历,共计检索240万个站点后,我们总共找到了大概75k的robots.txt文件。   在这些robots.txt文件中,我们发现了大量的而且是形形色色的问题。有超过5%的robots.txt文件使用了错误格式,有超过2%的文件由于使用的是极其拙劣的格式而导致无法为任何SPIDER读取。我们将发现的一些问题在下面列出来供大家参考借鉴: 错误1—语法混用   例如:   User-agent: *   Disallow: scooter   正确语法应为:   User-agent: scooter   Disallow: * 错误2—一行Disallow声明多个目录   这是一个比较常见的错误。我们发现很多网站在其robots.txt中,在一个Disallow指令行中放入了多个目录。譬如:Disallow: /css/ /cgi-bin/images/ 绝大多数的spiders对上述声明行都无法做出正确的解析,有些Spiders会忽略其空格而解析为/css//cgi-bin//images/,或只解析/images/或/css/,或者根本不予解析。 正确的语法应为:   Disallow: /css/   Disallow: /cgi-bin/   Disallow: /images/ 错误3—在DOS模式下编辑robots.txt文件   这也是一个比较常见的错误。正确的做法应该是在UNIX模式下编辑你的robots.txt文件并以ASCII码格式上传。显然并非所有的FTP客户端软件都能够天衣无缝地将文件格式转换为UNIX命令行终端,所以在编辑robots.txt文件时,一定要确保你的文本编辑器是在UNIX模式下。 错误4—在指示行末尾加注   在robots.txt文件中,凡以“#“开头的行,均被视为注解内容,这和UNIX中的惯例是一样的。例如:Disallow: /cgi-bin/ # this bans robots from our cgi-bin   虽然根据RES标准,在指示行的末尾加注是可行的,但这种格式在过去却并非所有的Spiders都能够支持,有些Spiders干脆就把整个句子视为注解内容直接跳过去不读。当然我们知道现如今搜索引擎基本上都能够支持这种格式,不过—仍有可能无法被某些搜索引擎正确解读,你冒得起这个险吗?我们建议在编辑robots.txt文件时,最好让注解自成一行。 错误5—指令行前有空格   例如“Disallow: /cgi-bin/“,虽然RES标准并未对这种格式予以特别说明,但我们对这种格式是持极力反对态度的。同样的问题摆在你面前你冒得起无法被Spiders正确解读的险吗? 错误6--404重定向至另一页面   一般没有robots.txt的网站会将对robots.txt文件的调用请求转至另一页面。这种重定向通常不会产生服务器状态错误或重定向状态信息。然而因为是Spiders自己决定它看到的是robots.txt文件还是一个.html文件。虽然理论上应该不会有什么问题,不过为了保险起见,不妨在你服务器的顶级目录下放一个空的robots.txt文件。在www.google.com/bot.html下,也提供了相同的建议—“如欲避免网络服务器日志中的出错信息‘找不到文件’,可在其根域下创建一个空的robots.txt文件。” 错误7—声明自相矛盾   例如:   USER-AGENT: EXCITE   DISALLOW:   虽然RES标准忽略大小写(Case Sensitive),但目录和文件名却是大小写敏感的。所以对于“USER-AGENT“和“DISALLOW“指令,用大小写都是可以的。但对于所声明的目录或文件名却一定要注意大小写的问题。 错误8—列出所有文件   这也是一种常见错误,不厌其烦地将目录下文件全数列出。例如:   Disallow: /AL/Alabama.html   Disallow: /AL/AR.html   Disallow: /Az/AZ.html   Disallow: /Az/bali.html   Disallow: /Az/bed-breakfast.html   其实,上面这么多声明行只需用目录选项来替代:   Disallow: /AL   Disallow: /Az   需要注意的是:反斜杠“/“表示禁止搜索引擎进入该目录。如果只有几十个文件需要设置访问权限,那倒也无可厚非。问题是我们发现有一个robots.txt文件中列出了有400k,多达4000个文件。我们只是纳闷看到这么多声明,有多少Spiders会掉头而去。 错误9—自创ALLOW指令   没有ALLOW指令,只有DISALLOW指令!我们发现有这样的用法:   User-agent: Spot   Disallow: /john/   allow: /jane/   正确写法应为:   User-agent: Spot   Disallow: /john/   Disallow: 错误10—对声明的目录无反斜杠标识   例如我们发现有这样的例子:   User-agent: Spot   Disallow: john   对这样的记录Spider该怎么反应?按照RES标准,Spider会将名为“john“的文件和名为“john“的目录都DISALLOW。所以要记得使用“/“来标识所声明的路径(目录)。   我们还发现,有些网站的优化工作做得真彻底,竟然在其robots.txt中也放了关键词(费解,不明白他们怎么想的)。这些人一定是把他们的robots.txt纯文本文件当作是html文件了。(要记住:在FrontPage下是不可能正确创建robots.txt文件的) 错误11—网络服务器端的错误配置   为什么对robots.txt文件的调用请求会产生一个二进制文件?只有网络服务器或FTP客户端软件错误设置的情况下才可能发生这种错误。建议大家定期检查自己的robots.txt文件(0 && image.height>0){if(image.width>=510){this.width=510;this.height=image.height*510/image.width;}}" align=absMiddle border=0>http://www.rose1314520.cn/robots.txt)。 服务器/域名“农场”   搜索引擎检测服务器或域名“农场”(即包含巨量站点)的一个简单途径是看它们的robots.txt。我们发现规模在400到500个域名的大型域名“农场”,其“库”内站点使用都是同一个robots.txt文件。这也就相当于告诉搜索引擎这些使用同一robots.txt文件的站点是相关联的。 Google率先支持通配符:   Google是第一家能够支持robots.txt中通配符文件扩展名的搜索引擎。例如:   User-agent: googlebot   Disallow: *.cgi   不过注意了,由于目前只有Google能够支持这种格式,所以”USER-AGENT”只能是“Googlebot”。

反向链接的类型

1)站内链接:分为两种,一种是实际存在的,而另一种是虚拟存在的;一种是为浏览者设计的,而另一种是专为搜索引擎设计的。 (2)镜象站的链接:分为两种,一种是有国际域名的镜象站,而另一种是使用免费空间所做的“桥页。 (3)友情链接(交换链接)。 (4)自助链接。 (5)blog链接。 (6)wiki链接。 (7)guestbook链接。 (8)forum链接。 (9)网页目录。 (10)搜索引擎的搜索结果。 (11)引用日志。