web搜索引擎优化技术 网络搜索引擎优化

学习web搜索引擎机制,理解web设计方法,以改进页面在搜索结果中的排名

1.1 搜索引擎

随着网络技术的迅速发展,万维网成为巨量信息的载体,如何有效地检索和利用这些信息成为巨大挑战。在未知链接地址时,用户要在这种信息海洋里查找信息无异于大海捞针。

搜索引擎(Search Engine)技术应势而生,成功地解决了这一难题。搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。根据权威调查显示,搜索引擎的导航服务已成为非常重要的互联网服务,全球80%的网站,其访问量70%-90%都来自于搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的最有效办法。

搜索引擎借助于自动搜索网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。提供这种服务的网站便是“搜索引擎”。

搜索引擎收集因特网上数以十亿计的Web文档,并对其每术语即关键词进行索引,建立索引数据库,当用户查找某个关键词的时候,所有在包含该关键词的文档都将作为搜索结果罗列出来。这些结果将按照与搜索关键词的相关度高低,依次排列显示。

搜索引擎搜索和收集的Web文档类型有HTML、PDF、博客、FTP文件、图片、字处理文档(Word、PPT)、多媒体文件等。本文主要涉及页面或Web文档。

商业运作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。

1.1.1 搜索引擎的工作原理

搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。

搜索引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。它以一定的策略在互联网中发现和搜集信息,对信息进行处理和组织,以便为用户提供检索服务,从而起到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。

1 网页搜集

搜索引擎使用软件按某种策略自动获取文档,软件名称不同,如Robot、Spider、crawler,Wanderer等。Robot直译为机器人,crawler直译为爬行器,spider直译为网络蜘蛛,Wanderer直译为漫游器,它们是搜索引擎用来抓取网页的工具或自动程序。

著名搜索引擎的探测器(Robot):谷歌的为googlebot,百度的为baiduspider,MSN的为MSNbot,Yahoo的为Slurp。

搜索引擎将检索首页,并根据其中的链接去搜索网站其它页面。搜索引擎从Web中抓取页面的过程如同蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl),被称为Web crawling或Spidering。

搜索引擎要从互联网上抓取网页,利用其Spider(蜘蛛)自动访问互联网,并沿着网页中的URL爬到其它网页。搜索引擎将Web看作是一个有向图:

?搜集过程从初始网页的URL开始,找出其中所有URL并放入队列中;

?根据搜索策略从队列中选择下一步要抓取的网页URL;

?重复上述过程直到满足系统的停止条件。

网页抓取策略分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致蜘蛛的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。

Web有两个重要特征:信息海量和更新频率快,这使得Web crawling极其困难。

巨量信息意味着在给定时间蜘蛛只能下载部分Web页面,这需要蜘蛛有针对性地下载。快速的更新频率意味着蜘蛛在下载某个网站的最后一个页面时,说不定前面下载的页面已经被更新了。Crawling Web在某些程度上相似于在晴空万里的夜间观望天空,你所看到的只是群星在不同时刻状态的反映,因它们的距离不一。蜘蛛所获取的页面集合也非Web的快照,因这不代表任一时刻的Web。

如今,网络速度虽然有所提高,但仍然满足不了处理速度和存储容量的要求。因此,搜索引擎的Spider一般要定期重新访问所有网页,时间间隔因搜索引擎和目标网页而异,以便更新索引数据库,比较真实地反映出网页内容的更新情况,如增加新网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。从而使得网页的具体内容及其变化情况比较准确地体现在用户的查询结果中。

2 预处理

预处理旨在为收集到的Web文档建立逻辑视图。

在传统的信息检索中,文档逻辑视图是“bag of words”模型,即文档被视同为一些单词的无序集合。而在Web搜索引擎中,这种视图被逐步扩展了,如用词频、权重、Web文档的元信息、文档的权威性和使用情形等。

搜索引擎要处理蜘蛛所搜索到的信息,从中抽取出索引项,以便用户检索,索引项分为:

?内容性索引项

?元数据索引项,指文档的作名、URL、更新时间、编码、长度等

搜索引擎要给索引项赋于权值,以表示该索引项对文档的贡献程度,用于计算查询结果的相关性。

然后用索引项建立索引表。索引表一般使用某种形式的倒排表(Inversion List)。倒排表由两部分组成:词汇及其位置列表。词汇是所有关键词的排序列表,对于词汇中的每个关键词,其在文档集中的出现的“位置”列表。

3 查询服务

搜索引擎为用户提供查询界面,以便用户通过浏览器提交待查询的词语或短语。

当用户输入关键词后,搜索系统程序从索引数据库中找到符合该关键词的所有相关网页,并根据网页针对该关键词的相关性排序,相关性越高,排名越靠前。

然后很快返回与用户输入内容相关的信息列表,该列表中的每一条目代表一篇网页,至少有3个元素,即网页的标题、地址和摘要。

相关性(Relevance)体现着用户查询与查询结果文档的匹配程度。

1.1.2 信息检索技术

信息检索(Information Retrieval,IR) 指在一个集合中检索文本和搜索有用的文档,如在web上搜索文档。按查询有效地检索相关文档。用户在进行信息检索时,最关心如何在最短时间内找到所需要的信息,因此系统应判断哪些信息最符合用户的检索意图,并按级别排列出信息文档。

关键词的“匹配/位置/频次”的原则,即内容中的字词、词组或短语与用户输入的关键词越匹配,出现的次数越多。

信息检索过程始于用户输入一个查询字符串,该字符串是信息需求的形式化表示。在信息检索中,一个查询字符串可以识别出数据库中多个文档,这些文档的相关性可能不同。

基本的IR方法是出文档中的单词,并与查询中的单词比较

三种经典信息检索(IR)模型

布尔模型:文档被表示成关键词集合,查询被表示关键词的成布尔表达式(And, Or, Not),其输出是文档的相关与否,而没有匹配或排名。

统计模型:把文档表示成关键词集合(无序),被取样的单词相互独立,根据词频对文档进行排序。

矢量空间模型:每个文档被表示成高维空间中的一个矢量,查询也被表示成一个矢量,比较查询和文档集合,找出最接近的文档组。大多数查询系统计算数据库中文档匹配查询字符串的程度,并按排名依次显示。计算方法有统计法、信息论法和概率法等,这些方法大都基于矢量空间模型(vector space model)。矢量空间模型是把文档表示索引项矢量的代数模型,矢量的维数是词汇表中单词的数目。每个维对应于一个索引项。若索引项出现在一个文档中,其值(即权重值)为非零。

相关性基于文本和概念匹配,其中文本匹配主要关注:页面中的术语,关键区域中的术语如title标签、headlines等,链接中的术语。

Web搜索,应用IR到互联网中的HTML文档。

Web搜索与IR的区别是,必须通过crawling web 搜集文档资料,这些文档是不可控制的,可利用HTML (or XML)的结构性布局信息和元信息,能利用web 中的链接结构。

1.1.3 搜索引擎排名算法分类

在各种搜索引擎上进行同样搜索时会产生不同的结果。究其原因,首先,检索依赖于网络蜘蛛能找到的信息。其次,并非搜索引擎都使用相同的排名算法。搜索引擎用排名算法决定索引中的信息与用户所搜索的关键词的一致性。

搜索引擎在为文档排名时,除了考虑文档内容及其元信息外,还要考虑文档受用户欢迎的程度如外部链接和访问量等因素。

Web搜索排名算法变化趋势:

?Yahoo!为代表的第一代文本搜索算法;雅虎的人工分类方式,网站目录搜索

?第二代以PageRank和HITS为代表的基于链接分析的搜索算法;

?第二代半基于网站的访问量。

?第三代应该具有智能化、个性化和社区化等特征。

随着Web页面不断增加以及网络规模不断扩大,搜索引擎技术也在不断完善。搜索引擎在判断页面的相关性时,要考虑内容、元信息、名气、实际访问量等因素。

在为页面排名时,有两种算法:

?查询无关的排名如PR,给索引库中的每个页面赋予固定的分数。

?查询有关或主题敏感的排名如HITS,根据具体查询为每个页面赋予一个分数。

1.1.4 Google的几种排名算法

在最初的Google排名算法中:

?首先,使用IR(Information Retrieve)算法找到所有与查询关键字相匹配的网页;

?其次,根据页面因素(标题、关键字密度等)进行排名;

?最后,通过PageRank得分调整排名结果。

Web上的链接结构是一种有价值的信息资源,若能利用好这种资源,可以极大地提高检索结果的质量。如今,Web链接被搜索引擎用作判定页面质量的关键技术之一。为了给用户提供更有价值的搜索服务,目前各引擎在原有相关性基础上,逐步在排名规则中引入了网页的链接流行度(Link Popularity),网页的链接在其他网页中出现的数量。

算法要分析的另外一个要素是页面与其它页面的的链接方式。通过分析页面如何相互链接,搜索引擎就能决定页面的主题(假如被链接页面的关键词相似于原页面的关键词)和页面是否被认为是重要的。

基于链接的分析主要基于如下基本假定:

?共享链接的Web页面很有可能具有主题相似性

?超文本链接包含了对目标网站的认可信息;

?网站的外部链接越多,则排名越靠前。

?并非所有链接都一样,来自于高质量网站的链接权重高。

以上假设在各种基于链接分析的算法中均以某种方式体现出来。

基于链接分析的算法,提供了一种衡量网页质量的方法:独立于语言、独立于内容。

1 PageRank算法

在基于链接分析的排序算法中,最为著名的就是PageRank。PageRank在Google中的应用获得了巨大的商业成功。

Google的创始人拉里•佩奇等于1998年在史丹福大学发明了PageRank算法。PageRank算法是与查询无关的、针对Web页面排序的、最早应用链接分析技术的搜索引擎算法。

把链接视同为选票,Google的PageRank算法假定链接能作为网站编辑对页面的质量和相关性的投票,即PageRank算法通过网络中链接关系确定页面的等级和相关性,其基本思想是试图为可以搜索的所有网页赋予量化值,其值由指向该网页的所有网页的值决定。Google为互联网中每个页面赋予的数值权重范围是0-10,以表明页面的重要性。Google根据投票来源(甚至来源的来源,即连结到A页面的页面)和投票目标的等级来决定新的等级。简单地讲,高等级页面可以提升其它低等级页面的等级。

PageRank依赖于Web特有的民主性,使用其巨大链接结构衡量页面价值。Google把从A页面到B页面的连结解释为A页面给B页面的投票。而且,Google 不仅仅依靠投票的数量即页面得到的链接数,它还有分析投票页面的质量,即来自重要页面的投票分量大。换而言之,页面PageRank源于其它Web页面对该页面的重要性的投票表决。

PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。

一个页面的PageRankge由递归定义,依赖于其外部链接的数目及其PageRank。被许多具有高PageRank的网页链接的页面也得到高排名。若页面没有外部链接,也就得不到支持。

页面的PageRank大致基于导入链接(inbound links)的数量和提供这种链接的网页的PageRank。其他因素如关键字在页面上的相关度、根据Google toolbar 计算的页面的访问量也影响着PageRank。为了防止人为操作、spoofing和Spamdexing,Google没有公开影响PageRank的其它因素。

然而,Google不仅仅依靠这种投票。最重要的事情是要在网站上发布一流文章,以便自然得到链接。根据Google内部人士透露,最好的链接是自愿给出的,别购买或交换链接,否则会弄巧反拙,欲速则不达。

PageRank算法是一种独立于用户查询的、离线的、被实践证明具有快速响应能力和很高成功率的算法,然而它仍存在着明显缺陷:

?独立于用户查询,不能够应用于特定主题获取信息;

?偏重旧网页,过分强调网页的外部链接而忽视专业站点;

?链接权威性可以从任何页面到任何页面,而无论主题的相关性,从而使得那些从完全不相关链接的网站也在搜索结果中排名靠前;

?在实践中,PageRank难以抵制人为的取巧操作。

Google TrustRank出现的背景。九十年代发明的PageRank确实是识别一流网站的好方法,它曾是Google算法的核心概念,对Google的成功功不可灭。但PageRank在计算网页排名时,对链接的依赖程度很大。较高的PageRank总会产生较好的排名,这能通过外部链接实现:付费链接和交换链接在互联网上很流行,许多Web垃圾页面出于商业目的而误导搜索引擎,它们利用各种技术获取在搜索引擎结果页面(search engines' result pages,简称SERP)上的虚假排名。因此,较高的PageRank不再是质量的保证,Google的PageRank面临着人为操作的巨大挑战。单纯依靠PR办法已遭到了各种样作弊行为的挑衅。因此需要其它技术去甄别良莠。

如何确定网页的PR值?可利用google工具条,使之在浏览网页时,自动出现其PR值。或登录http://tool.admin5.com/pr.html查询PR值。

2 TrustRank算法

改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。

TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。Trustrank的基本思想是在为网页排名时,要考虑到该页面所在站点的信任指数和权威性。

Trustrank旨在应对轻易操纵google排名、提升搜索结果质量的作弊手段。实施这一方法极大地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。所有要以TrustRank值作为网页排名的重要依据,页面的TrustRank用来评价其是否具有真正权威性。TrustRank用以将来自Spam的链接与优质内容带来的真正意义上的好评区别开来。

TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。

TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。

TrustRank的主要概念是:

?高质量页面一般不连接垃圾页面,而垃圾页面总试图连接到好页面以提高其声望;

?种子页面的候选者是专业网站,它们只基于优点而链接其它页面,如政府网站、非谋利性网站和严格管理的网站(DMOZ、Yahoo目录、Search Engine Watch等),它们不会链接垃圾页面的。

?最权威和可信的网页就是”种子”页面本身。

在处理上TrustRank分两个步骤,源目标的选定和评分的传递。

?让专家手工识别出少量高质量网站,并赋予其信任值(trust value);

?TrustRank值会随着页面的传递而降低,随着页面与“种子”页面的跨度增加,其TrustRank值就会越低;

与PR值原理类似,若网页获得了来自高TrustRank值网页的连接,则也就获得了高TrustRank值。通过分析这种链接结构,并以此比较其它页面,进而发现那些没有作弊可能性的页面。TrustRank传递方式与PageRank相似,但web页面没有内在的TrustRank值,因此使得通过链接模式去获取TrustRank值变得更加困难。

PageRank不是Google用于决定页面相关性的唯一算法,TrustRank已经被融入PageRank中以改善搜索相关性,其重要性不言而喻,甚至已经超过PR值的作用。

而随着时间的推移,Trustrank引起的新问题开始渐渐凸显,成为google的新麻烦:

?搜索结果充斥着著名和权威站点的影子,即使这些页面内容可能是Spam。

?用一些权重高的站点发布同样的内容页,排名要明显高得多。

?优秀的个人或企业站点,尤其是新建的,即使内容再好,也难有排名优势。

这已严重影响了Google搜索结果的质量。因此,Trustrank在给Google带来众多积极意义的同时,其负面影响也凸显。Google如何改进算法和弥补不足,我们拭目以待。

3 Hilltop算法

HillTop也是搜索引擎结果排序的专利,是Google工程师Bharat在2001年发明的。Google的排序规则经常在变化,但变化最大的一次也就是2003年的基于HillTop算法的优化。

HillTop算法的指导思想和PageRank的一致,都通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定被链接网页的权重值。

Hilltop算法定义一个网站与其它网站的相关性,作为识别跨站点的链接交换干扰与识别相似链接的技术,以杜绝那些想通过任意链接来扰乱排名规则、那些想通过增加无效链接来提高网页PageRank值的做弊行为。

HillToP算法基本过程可以分为两步:

?首先,根据查询寻找“专家网页”,专家网页是关于一定主题、指向许多非隶属网页、其中至少有一个短语包含查询关键词的网页。

?其次,给顶部专家网页链向的目标网页打分,这个过程综合了它与所有相关专家网页的链接关系。

基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选,目前,Google首先给了教育(.edu),政府(.gov)和非盈利组织(.org)站点很高的优先级。

作为对原始PageRank算法的补充,Hilltop算法具有以下优点

?与原始的PageRank相比,Hilltop是主题灵敏的,通过来自“权威性”文挡的链接来确定网页的可信度。对于具有同样主题、PR相近的网页排序,HillTop算法显得非常重要。与以购买离题链接而获得高排名相比,这更难以人为操作。Hilltop解决了这个问题,随意性链接已经失去往日的作用,即使仍有一定的价值,但与来自于专家网站的链接相比,不能相提并论。

?Hilltop与Trust Rank相似,但更加自动化。它依赖于专家文档和源于这些文档的链接,如X链接到Y,Y链接到Z,那么X和Z也相关。

然而,Hiltop在应用中还存在如下一些问题:

?专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公平性在一定程度上难以保证。

?Hiltop忽略了大多数非专家页面的影响。

?在Hiltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。

?Hiltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hiltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,提高精度,而不适合作为一个独立的页面排序算法。

?Hilltop中根据查询主题从专家页面集合中选取与主题相关的子集也是在线运行的,这与前面提到的HITS算法一样会影响查询响应时间。随着专家页面集合的增大,算法的可伸缩性存在不足之处。

1.1.5 HITS算法

HITS(Hyperlink-Induced Topic Search)是由Kleinberg在90年代末提出的基于链接分析的网页排名算法。该算法与查询相关。

用HITS算法评估网页质量,可得到内容权威度(Authority)和链接权威度(Hub)。内容权威度与网页自身直接提供内容信息的质量相关,网页被引用得越多,其内容权威度越高;而链接权威度与网页提供的超链接的质量相关,引用内容质量高的网页越多,网页的链接权威度越高。

一个好中心网页应该指向很多权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向。对整个Web集合而言,Authority和Hub是相互依赖、相互加强、相互优化的关系,这是HITS算法的基础。

HITS算法的施行是“迭代—收敛”的过程,即网页A链接权威度的数值是通过其链向的网页的内容权威度决定的,而网页A的内容权威度的数值则是由链向其的网页的链接权威度决定的。Authority和hub的值相互递归定义,即authority的值是指向给页面的hub值之和,而hub的值则是该页面指向的页面的authority值之和。

每个节点的Hub和Authority的值用下述算法计算:

•赋予每个节点的hub值和authority值都为1。

•运行Authority更新规则。

•运行Hub更新规则。

•Normalize数值,即每个节点的Hub值除所有Hub值之和,每个Authority值除所有Authority值之和。

•必要时从第二步开始重复。

在实施中还要考虑被链接页面的相关性。该算法要完成一系列迭代过程,每个迭代过程包含两个基本步骤:

•Authority值更新:更新每个节点的Authority值,为该节点指向的Hub的数值之和。即由信息Hubs链接的节点被赋予了高authority值。

•Hub值更新:更新每个节点的Hub值,使之等于它指向的每个节点的Authority值之和。即通过链接到同一主题的authorities节点的节点被赋予了高hub值。

因在上述伪代码中,hub和authority的值不收敛,有必要限制该算法的迭代步数。方法之一是,在每步之后规范化hub和authority的值,即通过:dividing each authority value by the sum of all authority values, and dividing each hub value by the sum of all hub values.

与PageRank相似,HITS也是基于Web文档链接的迭代算法,然而也有一些重要差别:

•它是在查询时执行,而不是在建立索引时执行,与查询性能如时间等相关。因此,赋予页面的hub和authority权值也是query-specific。

•它不是搜索引擎通用的技术(虽然据说Ask.com的Teoma使用了相似的算法)。

•它计算了文档的两种权重即hub和authority,而非一种权重。

•它只处理相关文档的很小子集,而PageRank针对文档全集。

1.1.6 微软的BrowseRank技术

网页被访问的次数也是搜索引擎决定网页排名的关键因素。通过搜索引擎访问某个网页时,搜索引擎对这种访问是由记录的,以便作为排名网页的指标。在某些搜索引擎中影响排名的一个因素是点击流行度,对在搜索结果中网页链接的点击次数、页面被访问的次数可能会被统计。经常被点击的页面的点击流行度就较高。当访问者从搜索结果中点击网站时,搜索引擎将给网站奖励一定分数。如果网站得到较高的点击量(根据IP地址),那么也将得到更多的分数。

谷歌在忙于改进PageRank,旨在使重要网页得到高PageRank排名,而微软称PageRank没有实现这个目标,因为它阻止不了人为提高网页的重要性。微软微软称BrowseRank方法更优越、能成为搜索引擎的支撑技术,该技术在决定搜索结果的相关性时,考虑了用户浏览网页或网站的时间,反映出人类的实际行为。用户行为数据可以由网络客户端的互联网浏览器记录和在网络服务器上搜集。

微软研究人员指出,用户浏览图更能确切地描述浏览者的随机行进过程,因此,对计算页面的重要性更有用。用户访问网页的次数越多、在网页上浏览的时间越长,网页就可能更重要。利用这个图评估数百万用户对网页的重要性,进行“隐式投票”。

BrowseRank是可行方案吗?我们拭目以待。然而它也有其以下软肋:

?因BrowseRank考虑了用户在具体网站上的所用的时间,很明显这有利于social networking网站。然而,这种网站的内容并非具有普遍价值或对大多数浏览者有用。这个因素使BrowseRank失效,因它能导致许多不相关的、垃圾的结果。

?微软认为,依赖于链接的PageRank不可靠,因Web上的链接可以由Web内容的创建者任意增减。而用户行为的可靠性也值得怀疑,因这也能以各种方式操作。网站管理员不用购买链接,而是雇佣廉价的Web浏览者在其网站上“耕作”。

?最大问题是如何获得这种时间信息。网站需要传递这种信息的机制,这有待时日去实现。

?用浏览时间评估网页的重要性也不完全公道。因内容性网站尽量保持浏览者长时间浏览网站,而交易性网站聚焦于用户如何尽快完成交易,导航性网页也旨在那用户快速导向目的网页。

1.1.7 Alexa流量排名

Alexa通过Alexa工具条收集用户上网信息、统计网站流量以及相关信息。要想获得较好的Alexa流量排名,就应该下载和使用Alexa工具条,并倡导其他浏览者这么做。

Alexa为Alexadex.com提供搜寻引擎,并为A9.com搜寻引擎提供“网站信息”服务。

显示在ALEXA工具栏和其它地方的流量排名则是以三月平均流量数据为基础进行计算的。日流量反映网站单日流量,具有偶然性,而季度流量排名则比较客观。持续流量能更好地衡量网站,所以选择季度流量排名代表网站的总体流行程度。

Alexa流量排名基于Alexa工具条用户一个季度的历史流量数据,是页面浏览数和到达用户数的综合体现。

到达率(Reach)由某天访问网站的Alexa用户数目决定,被表示为浏览某个网站的互联网用户的百分比。Alexa的周平均到达率和季度平均到达率是日到达率的平均值。其季度变化取决于对比网站当前及前一季度的到达率。

页面访问量(Page Views)衡量Alexa用户浏览某个网站的页面数。同一用户在同一天对同一页面的多次浏览只被计算一次。页面的人均PV就是指浏网站览该者每天浏览此页面的平均值。其季度变化取决于比较网站当前PV和前一季度PV。

Alexa流量排名的特点是:

?Alexa流量排名只针对顶级域名(网站),而不为页面、子域名提供单独排名;

?若子域名被识别为博客和个人主页,则被单独提供排名,排名规则与顶级域名一样,但名次后带有星号;

?镜像网站将被合并到原网站;

Alexa取样量大、资料易取得,被最广泛用于评估网站的受欢迎度。

如何计算变动(Movers & Shakers)?

变动列表基于平均到达率(用户数量)的变化。对于每个网站,计算平均周到达率,并将其与前些周的平均到达率进行比较。变化越明显,该网站的名次就越高。变动列表中的百分比变化基于到达率变化情况。

值得注意,变动显示的流量排名是周流量排名,这不同于在其它ALEXA服务上的季度平均流量排名和用来生成列表的到达率排名。

如何计算流量趋势图?

在趋势图中则采用日流量排名,可以更加清楚地反映短期的流量波动。趋势图呈现三日内日流量排名变化情况。在趋势图中,网站季度流量排名有可能高于其任何单日流量排名。任何天都有可能临时出现排名突出的某些网站。但是如果某网站有着持续流量表现,则有可能在整个季度的平均流量排名取得最佳名次。

软肋:

流量排名基于分析Alexa工具栏用户浏览网站的信息,经过分类、筛选和计算这些信息,得到排名。Alexa只基于使用Alexa工具条(即Alexa“社区”)用户的信息衡量网站浏览情况,而不能代表因特网的所有用户的信息,Alexa承认排名中几项不准确性:

?使用量较小的网站很难准确估量。由于Alexa用户库是因特网民众的样本,流量相对低的网站可能因为样本统计局限性而得不到精确排名。Alexa数据来源于数百万Alexa工具栏用户这种庞大样本,仍不足以进行统计学计量、不足以精确地对每月访客少于1000的网站进行排名,流量在100,000位以后的排名也不可靠。网站的流量越大(越靠近第一位),其流量排名越可靠。

?所采用的样本可能对不同浏览器的用户存在高估或低估的情况,具体程度不得而知。Alexa样本包括了IE、FIREFOX和MOZILLA用户,而不支持AOL/Netscape和Opera用户。

?所采用的样本可能对使用不同操作系统的用户存在高估或低估的情况,具体程度不得而知。Alexa样本中包括了内建于Windows、Macintosh和Linux的工具条。

?在某些情况下,流量数据也许会受我们对“网站”的定义。如镜像网站、域名、主页的变更不能得到及时反映。

?在安全页面(HTTPS)上,Alexa工作栏将自动关闭,所以具备安全页面的网站可能会在Alexa流量数据上得不到充分体现。

数据规范化?Alexa排名方法在校正了大量的潜在偏差后才计算排名。校正基于浏览者的地理位置。在统计浏览者的分布时做了校正,校正了从Alexa工具条中采集的数据的潜在偏差,以更好地表示那么没有使用Alexa工具条的浏览者的情形

新排名算法除保留Alexa权威的流量和页面浏览等数据外,还考虑了获得的其它信息,如用户忠实度、Google PR值、互联网信任度、页面数量等多个新指标。

Alexa排名与Google Page Rank的比较

?PageRank用10以内的数字为页面的外部链接的数量和质量排名;而Alexa排名基于近3个月的网站用户数目和浏览的页面数为网站排名。

?Alexa从不基于网站因素而实施排名惩罚。

?Alexa排名基于流量,而不主观;Google排名基于Google算法,若不符合此算法,网站即使好,也可能排名为0。

1.1.8 谷歌搜索引擎的服务趋向

Google秉持着开发“完美的搜索引擎”的信念,“确解用户之意,返回用户之需”,坚持不懈地追求创新,不受现有模型限制,开发出了具有突破性的PageRank™技术,使得搜索方式发生了根本性变化,而在业界独树一帜。

在谷歌诞生10周年之际,谷歌副总裁梅耶尔近期在其博客上陈述了对搜索未来的一些想法。她认为,虽然90%的搜索问题已经得以解决,但解决剩余10%的问题将需要几十年的时间。梅耶尔把当前的搜索技术比作16、17世纪时的生物学和物理学,并称由10条搜索结果链接组成的谷歌搜索页面才是刚刚开始,在搜索结果中加入图片、视频、新闻、书籍和地图的全面搜索是迈向正确方向的第一步。谷歌团队一直在为丰富媒体搜索结果改进界面设计和用户体验。用户将在未来几个月能看到谷歌的这些最新成果。梅耶尔还相信个性化将成为搜索的重要组成部分,个性化搜索能够更好的了解用户需求,搜索引擎将能做得更好。未来的搜索引擎或许可以知道你的地理位置,可能知道用户已经了解了哪些信息或者稍早时候获得的信息,还可能完全知道用户的偏好。用户的社交圈也同样重要,需要更好的利用用户的好友,从而了解用户会阅读哪些新闻,关注哪些本地事件。梅耶尔心目中理想的搜索引擎概念,即搜索引擎是你最好的朋友,能够帮助你立即获知全球所有信息,也是你所见过的或者知道的最好的照相存储器。

1.2 搜索引擎优化原理与策略

如今,Web浏览者已经习惯于通过搜索引擎查询信息,因此网站在搜索结果中的排名对增加流量很重要。搜索引擎优化(Search Engine Optimization,简称SEO)技术有助于改善网站的外观和质量、有助于提高网站在搜索引擎结果中的排名。网站在搜索结果中的排名越前,就越吸引浏览者访问网站,被用户访问的机会也就越大。

搜索引擎优化指通过提高在搜索引擎的的搜索结果中排名而增加网站访问量的过程。互联网用户的习惯性行为是不逐页点击搜索结果。因此,网站在搜索结果中的排名对导向网站的流量至关重要。SEO有助于确保网站是搜索引擎可访问的、增加网站被搜索引擎发现的机会。

根据搜索引擎的搜索与排名原理,对网站结构、网页内容和布局、网站之间的互动等进行小而合理的修改,以改善网站在搜索引擎的搜索表现,进而增加客户发现并访问网站的可能性。单看每个变化时似乎可有可无,但当与其它优化结合起来时,就会对网站产生巨大影响,无论是用户体验的满意度,还是在搜索引擎搜索结果中的表现。

SEO是一种网络营销方式,通过网站在搜索引擎中获得较好排名而赢得更多潜在客户。搜索引擎优化的目的是让搜索引擎蜘蛛更好地阅读和抓取。通过总结搜索引擎的排名规律,对网站进行合理优化,使网站在搜索引擎的排名提高,让搜索引擎为网站带来潜在客户。

在实际操作中,SEO以关键字为中心,通过对网站内容,网站结构及外部链接等的优化,使该关键字在搜索引擎查询结果页面上获得理想排名,出现在靠前的位置。

SEO的工作方式。SEO通过了解各类搜索引擎如何抓取互联网页面、如何建立索引、以及如何确定搜索引擎结果对某些特定关键词的搜索结果排名等技术,来对网站网页进行相关的优化,提升网站的综合能力,从而提高在搜索引擎上的排名,

让网站对搜索引擎友好是搜索引擎优化的基础。搜索引擎优化建立在用户搜索体验为中心的基础之上,通过提高网页级别、建立合理而顺畅的网站链接结构、丰富的网站内容及表现形式,使网站自身结构、网页代码适应搜索引擎的抓取文档,进而在搜索结果上获得较前排名。

SEO贯穿于网站策划、建设、运营、推广全过程,通过制定和执行有针对性的网站优化策略,依靠搜索引擎平台为企业引入潜在用户,是企业网站、商业网站开展网络营销推广的重要方式。SEO分析的几个切入角度:

?从市场角度:分析网站定位、目标、资源、现状,竞争状况,确定核心关键词等。

?从技术角度:分析网站的结构、网站导航、内部链接、导出链接、域名、url等。

?从推广角度:网站导入链接,目前被搜索引擎收录的情况等。

?从运营角度:内容编辑质量、原创数量、更新速度、蜘蛛到访频率;网站硬件平台质量,稳定性,同IP网站搜索引擎表现。

?从历史角度:网站以往的推广措施,是否受到过惩罚、排名历史情况、域名注册时间长短、网站是否进行过大的改版?主题定位是否发生了变化等。

1.2.1搜索引擎优化原理

网站优化与搜索引擎优化不同。网站优化包括网站搜索引擎优化、网络环境优化和用户体验优化。网站设计人员在设计网站时,往往主要考虑如何吸引用户,而忽视了对搜索引擎的友好性。以下主要讨论针对搜索引擎的优化。

SEO虽然名义上是针对搜索引擎的优化,但应该把优化策略首先基于网站用户的需求。用户是网站内容的最终消费者,他们要利用搜索引擎找到具有相关信息的网站。仅仅聚焦于在搜索引擎结果中的排名,或许会弄巧成拙。

任何搜索引擎都有其独特的排名算法,因此,在优化时只能顾及大方向,然后综合考虑各种搜索引擎的具体要求。根据经验,若面向百度则要注重网站内部优化;若面向Google则要注重网站外部优化。

使页面对搜索引擎检索容易!如何创建页面,为搜索引擎蜘蛛提供它们想要的信息呢?

记住游戏规则,别着迷与设计页面外观或链接地址,而忘记了SEO基本规则。页面需要上好内容、元标记、高声望的链接、合适的关键词,这样才有可能登上搜索引擎排名前列。

蜘蛛是机器。在设计网站时,要牢记它将被机器阅读。这意味着若你把主页的标题换成图片,蜘蛛就是识别不了标题,也不知道核心文本从哪里开始,虽然这对人没有任何问题。

搜索引擎赖以文本而工作。它们检索页面内容、页面标题、元标记等,并把这类信息记录在数据库中。没有文本,搜索引擎就无所适从。而且,若搜索引擎触及不到页面,其上的文本也无济于事。搜索引擎必须能根据主页上的链接到网站的其它页面,以便搜索其文本内容。

“Web网站如同沙土城堡而非铜墙铁壁”,即Web网站建设是循序渐进过程,要做有规律地维护。

在设计和优化网站时,要考虑哪些因素呢?从搜索引擎蜘蛛的视角看,搜索引擎蜘蛛在检索、抓取和分析页面时会遇到哪些问题?解决了这些问题的网站就是搜索引擎友好的。

搜索引擎蜘蛛能不能找到网页很关键。要让搜索引擎找到主页,就要有外部链接,在找到主页之后,还必须能找到内部网页,也就要求网站具有良好的物理结构,网页之间要有良好的链接结构(逻辑结构),所有页面都要能从主页开始,顺着链接能找到,最好在3次点击之内,链接以文字链接最好。网站需要有网站地图,把所有重要网页都列上。

搜索引擎蜘蛛找到网页后能不能顺利抓取到网页也不容忽视。只要搜索引擎能顺利找到、抓取和分析网页内容,网站才是搜索引擎友好的。同时网页的HTML代码要做优化处理,格式标签要少,内容要多,整个文件要小。

应该排除那些不利因素,如flash和java script等;使用这些技术得不偿失,它们不能给网站增色,往往有害于网站的表现。如果必须要使用这些脚本,把它们作为外部文件。把CSS也要放在外部文件中。

网站设计越简单越好。文字内容的比重应该大于HTML格式的比重。整个网页应该规范化,应该在所有浏览器上能正常显示。符合HTML3.2标准,搜索引擎蜘蛛目前还不太适应HTML4.0标准。

若网页是由数据库动态生成的,那么URL一般要改写成静态的,即要去掉URL中参数符号和Session ID等。搜索引擎并非无能读取这种URL,但是为了避免陷入无限循环,而通常远离这类URL。若网站整体上基于flash,那也没办法读取。框架结构(frame)是搜索引擎蜘蛛的大敌。总之,要尽量去除不必要的、搜索引擎不能读的东西,如像音频文件,图片,弹出窗口等。

1.2.2 搜索引擎优化策略

用户在使用搜索引擎查询信息时,实际上是在搜索被搜索引擎预整理好的网页索引数据库。当用户查找某个关键词的时候,所有包含该关键词的网页都将被作为搜索结果并按照相关指标排列和显示出来,如网页与搜索关键词的相关度、网页被引用(链接)的程度等。

SEO策略指利用各种资源以充分发挥SEO作用的手段。SEO在原则上基于搜索引擎排名原理,但还要考虑其它相关因素,如服务器的性能、网站结构、网页布局、内容与主题、关键词选取与布置等。注重用户体验的网站自然会受到用户的追捧,优质内容自然也会获得更多的外部链接。

在优化时,要把关键词的选取和布局、网页内容的创建及其描述和布局放在首位;内部链接(逻辑结构)同目录结构基本上属于同一个层次;外部链接是网站的流量的重要来源。

若在激烈的市场竞争中占有一席之地,要有持续不懈的SEO策略,即监视网站,确保排名稳定;持续的链接发展运动,要考虑浏览者因素;要理解SEO需要时间,不是一周可以见效的事情,往往需要数月才能见效;要理解SEO应该是在线营销策略的组成部分,有利于提高网站流量;增加网站流量才是最终目标。

搜索引擎关注,文本(关键词)即与潜在用户在搜索引擎中输入的查询字符串相匹配的单词和短语;网站导航即搜索引擎蜘蛛能轻易跟踪的网站导航URL结构,对网站的链接(外部链接)即标志着网站的流行度。因此SEO的基本概念有:

关键词,利用针对潜在用户的文本,吸引搜索引擎和外部站点的链接。

导航模式,有助于浏览者和蜘蛛能轻易找到内容。

设计要素,确保细节不破坏SEO效果。

Page Rank,研究链接策略以提高网站的流行。

搜索引擎优化是一个持续过程。网站排名可能会波动。竞争对手们也在优化他们的网站、更新页面内容,搜索引擎也在不断地更新排名算法。

1.3 网站结构及其优化

网站结构设计要清晰明了,容易被用户浏览和被搜索引擎爬虫抓取。网站结构分为两种,即逻辑结构和物理结构。

物理结构指网站真实的目录及文件所存储的位置所决定的结构。物理结构可以有两种:扁平式结构,所有网页都存在网站根目录下,这比较适合于小型的网站;但被事实证明是很见效的方法。树型结构,根目录下分成多个子目录,然后在每一个子目录下再放上相应的网页,对稍有些规模的网站来说,树型逻辑结构比较容易管理。

逻辑结构(也称为链接结构)是由网页内部链接所形成的逻辑的或链接的网络有向图。搜索引擎更关注由链接形成的逻辑结构,被收录的容易性在于离主页有几次点击距离,而不是它的物理位置。蜘蛛根据网站的内部链接处理页面,首先处理根目录中的页面,其次是第一级目录,或许会处理第二级目录,但通常不会处理第三级目录。因此,大多数专业网站具有扁平结构。

1.3.1 服务器与域名选择

服务器的地区分布影响排名。对于搜索引擎而言,针对不同的区域,有不同的搜索结果。SEO的排名效果不是为了网站管理员自恋,而是为了为其吸引潜在客户。相同的英文关键词,用相同的方法,放在美国服务器上的网站总排在搜索结果的首页。所以服务器的区域选择应选瞄准潜在客户群体所在的区域。

同样,服务器性能对搜索引擎也至关重要。服务器速度快了,蜘蛛爬行网站候效率就高,用户满意度也高。服务器运行要稳定,能提供7X24服务。

如何检查服务器质量?通过检查服务器上网站被搜索引擎收录情况而定。检查步骤是:首先检查服务器上放了多少网站?根据如下工具可以查出有多少域名指向同一个IP:(http://www.seologs.com/ip-domains.html)。其次,选择其中的www.###.com,在Google中输入:site:www.###.com,检查Google收录该网站页面的情况。若发现Google还没有收录它,就多查几个网站,若大部分都是没有被Google收录,则很可能该服务器被Google处罚过的。一般而言,被google处罚的域名(网站)比较多,而被Google处罚的服务器相对较少。

域名选择。应该选择容易建立品牌的域名,选择诸如Google.com的域名,而不是keyword.com。域名当中所包含的关键词曾经有作用,但现在的作用非常小,充斥着关键词的域名应该被抛弃。

二级域名和目录。二级域名在中文网站中很流行,其中充斥着大量垃圾内容。建议使用目录,除非在特别需要时,不要轻易使用二级域名。

设计与优化原则如下:域名若要包含关键词,可以选择与关键词相关的英语域名或汉语拼音域名。文件名要用关键词,并且各个单词之间要用中横线“-”分开,不要用下横线。顶级域名比二级域名和子目录优先(知名网站、权威网站的二级域名除外)。二级域名比栏目页有优势,栏目页比内页有优势。静态路径比动态路径有优势。目录的层次不要太深,最多不要超过3层,层次越深,权重越低。

1.3.2 网站地图及其提交

创建蜘蛛友好的网站地图,以便搜索引擎蜘蛛发现所有页面。因此,主页上要有对网站地图的链接。网站地图本质上是网站页面的分类列表。网站地图分为两种,即普通Html网站地图(文件名为“sitemap.htm”)和XML Sitemap:普通Html格式的网站地图,目的在于帮助用户从宏观上了解网站。Html格式的网站地图根据网站结构特征制定,尽量把网站的功能结构和服务内容富有条理地列出来。首页底部应有指向这种网站地图的链接,其猫文本为“Site Map”。XML Sitemap通常称为Sitemap,包括所有URL、页面更新时间、URL的相对权重等。制作并给搜索引擎提交Sitemap,以便网站内容被搜索引擎更好地收录。XML Sitemap 可以帮助搜索引擎机器人抓取原本不好获得的、隐藏比较深的页面。

若站点很简单、所有页面均可通过html链接到达,且层次不超过三层,则不用XML Sitemap也会被全部收录。虽然说网站排名与XML Sitemap并没有直接的关系,但因为XML Sitemap为搜索引擎提供了站点的更多信息,有利于搜索引擎更好地评估站点,有助于提高其排名。

1. 向搜索引擎提交网站

为了便于被搜索引擎及时发现,有必要向搜索引擎及其关注的著名目录提交网站。最简单方式是把网站所有页面的URL单独列出来,命名为Sitemap.txt,然后直接提交给Google。其它搜索引擎则不支持这种方式。对于Google搜索引擎,XML Sitemap可以放在任何能爬取到的位置,包括其他网站上,通过Google网站管理员工具把存放地址提交Google;对其他搜索引擎而言,需要放在网站根目录,同样需要提交。

以下是向几个重要搜索引擎提交网站的地址:

百度:http://www.baidu.com/search/url_submit.html

Google:http://www.google.com/intl/zh-CN/add_url.html

Google网站地图注册:https://www.google.com/webmasters/sitemaps/login

中国雅虎:http://search.help.cn.yahoo.com/h4_4.html

微软Live&Msn:http://search.msn.com.cn/docs/submit.aspx

网易有道:http://tellbot.yodao.com/report

2. 向分类目录提交网站

为了便于被搜索引擎及时发现,还有必要向著名的分类目录提交网站。

分类目录分为免费登录和付费登录,都须通过手工输入登录。在分类目录上发布网站信息非常重要,其重要性不在于访问者是否通过目录链接找到网站,而主要在于通过这些目录使网站获得了重要的、高质量的外部链接。因此,对于网站提高排名具有举足轻重的作用。对于中文网站来说,最重要的分类目录有开放式目录ODP、Yahoo!门户搜索引擎目录等。

在免费分类目录中,最著名的是开放式目录库Open Directory Project:www.dmoz.org。向ODP提交网站是网站完成后的首要工作。虽然ODP目录是免费的,但要接受较为严格的人工审核和较长等待期,并且不能保证一提交就成功,可能需要反复提交。以下是提交必须遵守的注意事项:确保网站内容是原创而非转载、镜象或复制,不要采用虚假、作弊和夸张手段,确保网站具有良好外观,确保网站中包含具体联系信息,确保网站提交到正确的目录,记下提交日期、目录名和编辑邮箱。网站一旦被DMOZ收录,那很快就可以被Google、Lycos、Netscape、AOL、HotBot和DirectHit等大型搜索引擎和门户网站收录。

3 创建网站地图的工具

eXactMapper Lite,自动创建专业网站地图.为用户提供三种不同的、可定制的html/dhtml网站地图的风格,包括UL列表,母本树和索引页。

SiteMapBuilder.NET,可自行创建Google XML网站地图或以网站地图为基础的文本,能检查出URL错误。需要NET框架支持。

Sitemap Creator,将目录结构输送到html文件上后创建网站地图。不需要浏览在线网站.

Sitemap 4 traffic,可以创建Google和html网站地图,检查不健全的链接,支持网站文件。需要Net框架1.1版本或更高版本和浏览器6+支持。

用生成器创建Sitemap,见http://www.google.cn/support/webmasters/?hl=zh-CN。

4. 搜索引擎的沙盒效应(Sandbox)

新上线的网站起初在Google很难有好的排名,甚至没有排名,这种现象被称为沙盒效应(Sandbox)。

Google的沙盒效应一般会持续6个月至一年,期间新站应该不断完善。期间需要不断提交网站,因它有可能被搜索引擎删除掉。这是游戏规则,需要认真对待。在沙盒效应过后,一般会有不错的排名。百度对新站也有一个为期2个月的建立信任期,这两个月内,若频繁修改网站结构、文章标题,会造成百度对站点信任度的降低。

凡事不能立竿见影。获得良好的搜索引擎排名也需要时间。这是识别专家和班门弄斧者的方法之一。搜索引擎不愿意公布其方法和技术,这属于商业机密。但很多事实说明了时间的重要性。搜索引擎不相信新网站会有良好表现,新网站尚处于摇篮期有待成熟,把新网站当真未免显得太憨;这样也可以减轻搜索引擎的处理压力。很多搜索引擎可能在网站上线六个月之后才去检索。如同新入盟公司的职员要经历试用期以便确认其能否胜任工作,沙盒效应大多用于阻止垃圾网站。当网站处于沙盒效应中时,网站管理员要不断地上传原创性文章,以便自然地增加其外部链接。新网站即使已经做了很好的SEO优化,如拥有丰富的相关内容、大量的高质量外部链接、网站URL搜索引擎友好和网站结构用户体验友好等,但在刚上线的几个月内,在Google上几乎没有好排名。

如前所述,Google的TrustRank用于评估网站的可信度,以便进一步改进其搜索结果的效能和相关性。决定TrustRank的主要因素是域名年龄和链接源网站的质量。最好的方法是要有规律地增加新内容,顺其自然;而不要认为操纵链接、购买付费链接或滥用关键词。

Sandbox和trustrank在本质上几乎是同一算法的二个极端。沙盒效应是网站管理员想摆脱的状态,而trustbox则是网站管理员想获得的状态。当站点的Trustrank非常低时,该站点便进入了所谓的Sandbox,随着站点的信任指数逐渐增加,就逐步从Sandbox过度到正常状态,再进入trustbox状态。在Sandbox中,站点不受搜索引擎注意;而trustbox中,站点会受到搜索引擎的格外重视。若站点处于sandbox状态,不妨乐观地认为站点进入了trustbox,尚需赢得足够信任而已。摆脱SandBox的站点才可能获得高TrustRank值。

1.3.3 蜘蛛搜索协议(robots.txt)

蜘蛛搜索协议robots.txt(Robots Exclusion Protocol)是业界的事实标准,它不属于任何标准化组织。网站管理员可利用该协议件对robots作出访问限制。没有作出明确限制,就被认为是允许robots检索的。Google、雅虎和微软搜索引擎都尊重robots.txt文件及Meta标签的标准规范和约束。

一般把robots.txt放在根目录下,当Robot访问Web站点时,先检查根目录中是否存在文件robots.txt文件。若存在,它便会分析该文件,以确定是否应该访问该站点及其文件;通常,浏览者看不到这个文件。

Robots.txt有两个元素,即User-agent和Disallow。其记录格式是:

<field>:<optionalspace><value><optionalspace>。

其记录通常以一行或多行User-agent开始,后面加上若干Disallow行,表示不希望Robot访问的URL,每个URL必须单独占一行,不能出现Disallow: /cgi-bin/tmp/之类的语句。

相关几个参数的意思如下:User-agent,用于描述搜索引擎robot的名字,如果有多条User-agent记录说明有多个robot会受到该协议限制;如果需要限制robots,那么至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何蜘蛛都有效,User-agent: *只有一条。Disallow,该值用于禁止robot访问的URL,URL是完整路径或相对路径。

在使用robots.txt是,要考虑以下两点:一是有些Robots不顾及robots.txt,如探测web安全漏洞的恶意蜘蛛、电子邮件地址harvesters。二是Robots.txt文件对公众是开放的,任何人都可以看到服务器对蜘蛛作出的访问限制。因此,别用robots.txt去隐藏信息,要隐藏信息就得通过服务器设置。

在建设网站时,良好规范是要在根目录中包含robots.txt文件,即使不想限定搜索引擎的搜索也罢。robots.txt起码有助于搜索引擎避免浪费时间去处理图像目录,因蜘蛛不愿劳心去完全检索网站,特别针对新网站。Robots.txt有助于引导搜索引擎检索网站的重要页面。

两种robots.txt工具。robots.txt checker能检查网站的robots.txt文件和元标签。IP Lookup有助于找出那些蜘蛛访问了网站。

1.3.4 链接优化策略

链接是网站排名的重要因素,因此要为搜索引擎准备充分的基本链接(大多数搜索引擎不搜索动态链接)以便搜索。站点地图是为搜索引擎提供链接的很好方法,因此网站应提供基本链接地图。

链接是从网页指向另一个目标的连接关系,这个目标是Web上的任何信息资源,如网页、图片、程序、相同网页上的其他位置。如果单击链接上的文字或图片,则相当于指示浏览器移至同一网页内的某个位置,或打开一个新网页。链接的猫文本很重要,从搜索引擎的角度出发,链接不要用FLASH按钮和图片,而是使用文本,其中应有策略性关键词。

链接以特殊编码的文本或图形形式来实现信息资源之间的连接。链接是网页内的对象,在本质上属于网页的有机组成部分。各个网页链接在一起后,才真正构成网站。

链接的URL是信息资源的地址,如http://www.baidu.com。完整的URL包括协议、域名、端口号、目录名和文件名。

常用的链接分类方法有,根据链接对象分为文本超链接、图像(多媒体)链接和E-mail链接等。根据链接方向分为导出链接、导入链接和内部链接。根据链接的范围,分为页内链接和页外链接。根据链接地址的完整性分为绝对URL链接、相对URL链接和网页内部链接即书签。根据页面是否在服务器上存在分为动态连接和静态连接。

设计和优化链接的策略有七个。

1. 书写得体的URL

一切以浏览者为中心。在静态网页时代,基于内容的逻辑性,把文档组织在目录中。如有新闻频道,就放在/news/year/month/目录中。而在动态地呈现内容时,这种约定就不能用了。

隐藏所使用的技术。良好的网站结构要求在链接中不能暴露网站技术。如当主页是default.asp时,人们能猜测出网站的制作技术。这还不是关键问题所在。当要用PHP重写网站时,那么需要把URLs从.asp换成php。而其例外是.htm 或.html页面,可用任何web语言创建。隐藏技术的另一个优点是使黑客对网站的破坏更加困难。

若不费力,也应该在URL中包含关键词。让用户看到URL,就可以大致了解网页的主题和内容。URL中的关键词对搜索引擎排名还是有作用的,用dashes分开。我们不能保证这是谷歌算法的因素,但排名在前的页面大多在域名或页面URL中包含关键词。即使它不是谷歌的计算因素,而肯定是一些小搜索引擎的计算因素。但最好不要为了放关键词,而把目录名文件名弄得很长、包含过多的单词则肯定被搜索引擎视为作弊。

若在目录名文件名中放上中文字,或者有时候有空格,这样的URL出现在浏览器地址栏的时候,都会变成一些编码字符。虽然搜索引擎可以辨识,但不雅观。

用连词符,在URL、目录名、文件名中,单词之间最好用连词符-,这是IT规范。不要用下划线_,肯定不能用空格,空格在搜索结果中被编码成“%20”,很不雅观的,部分旧浏览器也难处理空格。连词符会被当作空格处理,看起来整洁,在google中也有良好表现。

大小写,URL中最好统一全部使用小写字母。大多数网站基于Unix/Linux服务器,后者对大小写字母敏感。小写字母便于人识别和键入。

URL静态化,这几乎是必须的。不要争辩说有很多带有一两个问号的URL都被收录得很好。其实能做得更好也很简单,不要去跟做得不好的看齐。许多搜索引擎不能处理动态URLs。

图片链接的注释,要为链接增加title=“注释内容”。图片注释标签,alt=“注释内容”,ALT注释要简明,不要冗长,否则会被视为作弊。

2. 链接的锚文本

链接的锚文本(Anchor Text)是链接中的可见、可点击的文本。包含在锚文本中的单词能决定页面在搜索引擎上获得的排名。锚文本通常给出链接目标文件的内容的相关描述或语境信息。锚文本在搜索引擎算法中的权重很高,因目标文本通常与源页面相关。搜索引擎的目标是提供很相关的搜索结果,这是锚文本的重要性所在,因趋势是锚文本与源页面相关。

网站管理员可利用锚文本获取在搜索引擎结果页面中高排名。Google的网站管理员工具实施这种优化,要求网站管理员研究导入链接的猫文的单词。

锚文本可以与链接地址的实际内容相关,也可以不相关。因此,Google bombing就利用锚文本作弊。但从2007年1月起,Google更新了其算法,减少了Google bombs的影响。

锚文本,对页面的描述比页面本身更准确,尤其对不能被基于文本的搜索引擎所检索的文档如图像、程序和数据库而言,因此锚文本的意义比页面大。

锚文本描述目标页面的内容,影响着该页面的相关性,因此避免使用“click here”链接。

3. 网站导航与内部链接

网站既有物理结构,又有逻辑结构(页面之间相互链接)。网站要具有明确的逻辑层次结构,这可用文本链接导航或图像导航实现。整个网站的结构看起来更像蜘蛛网,既有栏目组成的主脉,也有网页之间的适当链接。所有网页上都要有指向网站地图页面的链接。导航模式要有利于浏览者和搜索引擎。若网站没有导航模式,页面排名将不会很好。

文本链接,大多数搜索引擎对文本链接比较友好,用于一级或二次导航,每个页面都应从一个文本链接能到达。若利用图像导航,则要使用alt文本。避免使用JavaScript,除非为网站提供二级文本导航模式。

有问题的导航模式是,Poor HTML coding,图像导航、Frames、JavaScript、动态页面、Flash页面。

合理的网站链接结构有以下特点:

首先,要建立完整的网站地图。网站地图是方便搜索引擎和用户快速查找信息的,网站地图中的链接指向网站的重要网页,应该在首页给予其链接指向,以便搜索引擎发现和抓取该网页。

其次,网站导航是为引导用户访问网站的的栏目、菜单、在线帮助、布局结构等形式的统称。网站导航的目的在于引导用户方便地访问网站内容,告诉浏览者网站的主要内容和功能,告诉浏览者所在网站的位置,告诉浏览者访问过的页面(链接为紫色)。网站导航是评价网站专业度、可用度的重要指标。导航结构要清晰明了,网站导航链接是搜索引擎蜘蛛向下爬行的重要线路,也是保证网站频道之间互通的桥梁,超链接要用文本链接,尽量使用文字导航(文字链接)。网站导航中的链接文字应该准确描述栏目内容,即链接文字中要有关键词,但不要在这里堆砌关键词。在网页软文中提到其他网页内容时,要使用关键词链接到其他网页。网站导航中的文字链接如何放置需要一定的策略,这跟网站频道的重要性或者说网站的特色有关,一般按频道的重要性依次排列。若要使用图片作为网站导航链接,那就对图片进行优化,以图片链接指向页面的主要关键词作为ALT内容,另外在图片下搭配文字链接作为辅助。

再者,面包屑导航的意义在于明确告知用户目前处于网站的何种位置,方便用户通过该导航快速达到上级页面,这种导航的设计是应该在当前窗口打开的。面包屑导航应该列出用户所处页面的所有上级网页的名称及链接,这里是文字链接,若频道名称、分类名称、子分类名称设计得好,则下级页面通过以关键词为锚文本的链接指向上级页面。

外部链接对网站排名至关重要,反向链接中的关键词是排名的重要因素之一。但也不要忽略了站内链接(内部链接或交叉连接)的作用 。内部链接旨在把网站内高质量的内容连接起来。对Google来说,基于相似内容的相互链接对网站内分享PR是非常重要的。以实现网站PR的传递和流动,好的网站整体结构,其PR传递应该是很均匀的,首页最高,栏目页次之,内容页再次。网站不需要使其他网页黯然失色的某个明星网页,如果发现网站里面有一页确实吸引大部分流量,那么就应该把该页的PR通过链接分散到其他网页。若用户在浏览完一篇文章后,文章内容结尾处提供了相关文章,很可能通过相关文章进行深入挖掘,这种方式可以使用户达到最大的满意度。但要注意网页离首页不能超过三个层次。因此,可以通过网页链接影响PR值的传递,使某一页或重要页面PR值和重要性升高。内部链接可用nofollow控制权重分布,若在链接放上nofollow,可以主动控制链接权重及PR在网站中的分布。

4. 图像链接的Alt描述

Alt描述是在图像装载前在图像位置上显示的文本。其正常用法是在浏览器不能显示图像时为浏览者显示该文字。

利用猫文本去显示关键词是一种作弊手段,曾被滥用,被植入长串关键词列表,蜘蛛不理会它们或甚至惩罚这种滥用。

5. 增加反向链接的策略

用户通过超级链查找网站内容,搜索引擎蜘蛛通过跟踪页面中的链接以完成对网站信息的检索和处理。

对搜索引擎尤其对Google而言,决定网站排名的关键因素是外部有多少高质量的链接指向这个网站。外部链接或反向链接或导入链接(Inbound links或backlinks)指从其它网站指向自己网站的链接。如前所述,外部链接相当于是对页面的投票,当网站被其它网站链接时,相当于为该网站投了赞成票,这对提升网站PR值和搜索引擎排名有益。

如何精确查询网站的反向链接数量?反向链接可以用语法来查:link:url。如要查百度的反向链接,就输入“link:www.baidu.com”。

基于Page Rank的优化技术

链接流行度(Link Popularity)是评价Web知名度的基本指标,基于外部链接数目为页面的赋值;各种搜索引擎的流行度算法不同,Google的算法是Page Rank,其赋值为0-10。网站来自流行页面的外部链接越多,页面的流行度排名越高;即反向链接数量越多,说明站点越有价值,网站流行度越高。链接流行度不是本网站所能控制的,但可用策略来提高链接流行度。因此,有必要适当地建立内部链接以给页面传递PR值。

影响流行度的因素有外部链接的锚文本、外部链接的数目及其流行度。注意,流行度是针对页面的,而不针对网站;流行度也不能被继承。

因此,选择链接源网页的原则是,高PR值页面;或PR值不是太高但导出链接较少的页面;或权威网站的主要页面。因此,除了追求PageRank外,要聚焦于权威性链接。一个高PR值的网站的链接胜于多个低PR值的链接。

获取反向链接的方法很多,比如向著名搜索引擎目录如Yahoo和DMOZ提交(有助于蜘蛛发现)、专家链接诱饵、与主题相关的网站建立互惠链接(友情链接)、网络广告、站点合作等等。当然其关键是网站的质量要高,有规律地更新内容,提供有价值的信息,其它网站管理员发现它有价值,就会主动进行链接,这都有助于提高网站的排名。一般而言,大多数SEO公司将推荐应该寻求链接的网站类型,如组织结构的网站、专业社区网站等。

基于Trust Rank的优化技术

Hilltop和TrustRank是Google用于防范垃圾和过分使用SEO技术的措施。在这两者实施之前,搜索引擎优化技术人员能通过获得高PR链接而稳居关键词查询结果排名的前列。而使用这两个算法后,这种游戏就有点困难。

Google利用Trust Rank区分种子页面和商业垃圾页面。因此SEO面临的挑战是如何找到这些种子页面或网站,并设法取得从这些页面的链接。

在分析要获得链接的潜在网站时,寻找种子网站或有种子网页的网站。域名年龄很重要,因新商业域名不会被标记为种子网站,而那些开展免费服务和研发某些业务模型的老域名更有可能是种子网站或含有种子页面。若认为某个网站有种子潜力,那么值得努力去从中获得链接,这或许需要你花费时间或资金,但至少将获得一个高质量链接。

因TrustRank问世较早,很有可能已经被Google改进和优化。无疑,权威性链接是有价值的,种子是权威性链接的核心所在。

基于Hilltop的优化技术

基于Hilltop的优化需要找出专家文档并设法从中获得链接。这是基本的链接优化策略:致力于从最权威的网站获得链接。

寻找权威性网站的简易方法是在搜索结果中寻找具有权威列表的站点,权威里表中包括sitelinks。Site links(image example)是搜索结果中的第一个链接。有些网站具有很高的权威性,and rank for generic terms with sitelinks.一般而言,sitelinks are shown for brand searches like “seo chat,” 而一旦网站被显示成具有通用术语如“seo”的sitelinks,则说明该网站是那个主题上的高度可信的权威。

万变不离其宗,建立链接要基于信息相关性。网站管理员题突出,就受到用户亲睐,得到的外部链接就越多。

如今PageRank技术日趋复杂,如能识别和忽视关键词堆砌等,这沉重打击了那些企图通过建立人工链接去提高排名的网站管理员。但别受“链接数量之上”的说法愚弄,对于排名而言,质量优于数量。建立丰富而有质量的反向链接始终是SEO重要工作之一。

6. 建立反向链接要谨慎

随着互联网的发展,搜索引擎调整算法的频率越来越快,垃圾页面可以钻营的空间自然也就越来越少。基于这种考虑,那种号称能迅速让网站获得成百上千链接的自动处理方案应该被淘汰,这类链接来自链接养殖场(link farm),而后者是所有搜索引擎打击的对象。

有些网站为了防止浏览者在评论或日志中添加垃圾链接,使用了nofollow属性。赋予链接nofollow属性很简单,只需在链接代码中加入rel=‘nofollow’。 目前主流博客如WordPress和MovableType均自动为其留言中的链接添加nofollow属性,旨在杜绝作弊者试图通过这种方法提高其网站的流行度。这相当于告诉搜索引擎该链接所指向的网页非我所能控制,对其内容不予置评,或者该链接不是对目标网站或网页的“投票”,搜索引擎在计算目标的网站的链接流行度时,不考虑该链接。

但nofollow属性并没有真正解决博客的垃圾问题。究其原因:首先,很多人并不清楚nofollow的含义,仍以为通过评论垃圾可以提高网站的链接流行度。其次,纵使明白这不能提高网站在搜索引擎结果页面(SERP)中的排名,链接是用户到达网站的途径,只要广泛地添加链接,积少成多,也会提高自己网站的访问量。

7. 动态链接的静态化

动态页面的链接是动态产生的,在返回页面内容之前,动态脚本需要一些信息,如cookie data、session id或字符串。动态页面是基于数据库驱动的,通过脚本语言动态产生的页面。动态网站中有模板,内容一般存放于数据库中。要浏览页面时,模板调用数据库中的内容,参数被添加到URL上, 这种复合型URL告诉了模板要装载的具体内容。浏览者在动态网站中通过使用查询字符串发现信息,这种查询字符串被键入表单中或被预先编码在主页上的链接中。

蜘蛛不清楚如何使用查询功能,若蜘蛛用没有查询字符串的不完整向服务器提交,服务器会要求信息完整地址,这是蜘蛛不能理解的,从而可能陷入了一种死循环中。搜索引擎难以处理动态网站,因不能提供产生页面需要的信息,会陷入到动态页面服务器中而不能自拔,蜘蛛和服务器陷入无限循环之中,会导致服务器瘫痪。因此,动态网页内容对大多数搜索引擎蜘蛛是不可见的,大多数蜘蛛反感动态页面,在识别出这种URL后,会敬而远之。不会检索它。因此需要把这些有价值的内容转换成随蜘蛛可见的形态。

这种复合型URLs 是搜索引擎难以检索的,因搜索引擎不知道定义内容的参数。参数越多,越难以被检索到。为此,需要克服这种不完整地址问题。有两种解决方案:

搜索引擎友好的动态页面,修改URLs,参数越少越好,最好把页面静态化,一般采用如下两种方法。

建立静态网关页面,连接网站中的网页。确保链接地址完整,不需要临时产生,即不包含?符号,在需要时,服务器能转换这些静态链接以便蜘蛛不同回答问题就能直接访问动态页面。这种网关页面要有丰富的文本,以免被蜘蛛忽视。这适合于动态页面较少的情形。

对系统做技术维护,使服务器能应对蜘蛛的访问,把“?”用其它符号如“/”代换。这种方法的实施依赖于Web服务器的种类和集成数据库和Web网站的技术:Apache有一个特制的重写模块(mod_rewrite),允许把包含查询字符串的URL转换形成搜索引擎能跟踪的URL。Active Server Pages:大多数搜索引擎能检索.asp页面,若URL中不含问号。XQASP提供的一个产品能自动地用“/”代替URL中的问号。

1.3.5 URL检测工具简介

检测网站URL结构、无效链接等的工具,其地址分别是:www.xxx.cn/soft/XENU.ZIP,http://validator.w3.org/checklink

相似页面检测工具,对比两个页面间的相似度,来判断是否有受到惩罚的危险,其地址是:www.webconfs.com/similar-page-checker.php

蜘蛛程序模拟器,模拟蜘蛛可抓取到的文本及链接,其地址分别是:www.webconfs.com/search-engine-spider-simulator.php,www.spannerworks.com/seotoolkit/spider_viewer.asp

CheckWeb,强大的分析链接工具.可以查看在线和下线的HTML网页,并对链接、错误和网页大小信息作出报告。

Mihov Link Checker,检查网站上多个链接和本地网页.报告链接的状态,如空白网页,错误网页,被禁止访问。可以将链接隐藏在文本文件中,只要点击网页就能自动弹出来。

SiteLinkChecker,检查网站坏掉的链接,使用方便。轻而易举地锁定坏掉的链接和有句法错误的链接,并报告每个链接的状态。

1.3.6 链接流行度检测工具简介

Indexa,显示Google的网页级别,记录Google,Yahoo,MSN,Altavista和AlltheWeb上的返回链接数量和网页数量。

Link Popularity Check,检查网站流行度,查出在五大搜索引擎中竞争对手。

BackLinks Master,查出导入链接,分析链接是否是直接链接和锚文本中的关键字。

www.4c2.cn,综合利率网,查询含链接广度、PR、ALEXA排名。

www.marketleap.com/publinkpop,可同时与多个竞争对手网站进行比较。

www.uptimebot.com,同时检测10个著名搜索引擎的收录情况。

www.seotoolkit.co.uk/link_popularity_checker.asp,检测网站的链接流行度。

www.123promotion.co.uk/directory/index.php,检查网站是否登录分类目录。

1.4 网页优化

Web页面由两部分组成,即<head>和<body>。浏览器一般显示网页<head>中的页面名称(title)、链接地址(URL),和<body>中的正文。

在设计和优化网站时,首先要考虑这些因素,优秀的网站内容要包括:原创内容较多,容易被众多网站引用,引用的过程中一般都会给这个页面加有链接,所以这个页面可以获得较好的评分,排名自然会好;网站内容丰富,丰富的网站内容会让Google收录网站许多内容,网站各个页面之间的链接有利于其提高网站各个页面的在Google中的评分。合理调整页面中关键词的频率,关键词在网页中出现的频率保持在3%-8%比较好。网页文本中的关键词要专门突出:可以用<B></B>来突出,也可以用醒目的颜色来突出。网页内容的逻辑层次要清新,要用标题标签,其中要包含关键词。网页中导出链接要少。图片要加上alt注释,要合理地加图片说明,但不要在说明中堆积关键词。同时为页面文件减肥。

其次考虑搜索引擎要利用的元数据如关键词、描述元标签等。

1.4.1 合理设计头标签<head>

页面文件的头标签包括<title>标签和一些元标签<meta>。大多数web 搜索引擎不太考虑描述标签以外的元标签。

1. Title标签

title标签是最重要的HTML标签,其中的文本内容是浏览器中的醒目提示栏和书签中的题目;title标签中的文本将被用作搜索结果中页面的标题,对搜索引擎至关重要,是搜索引擎决定页面排名的重要因素之一,理应受到重视,

页面<title>是页面名称,要尽可能具体。如公司的主要业务是在伦敦销售teapots,则应命名为“Teapots for sale London”,而不是“Home”。

因此,尽量使用与文本内容和关键词匹配的页面title内容,考虑通过搜索引擎查询页面关键术语,并把这些术语以简短描述的方法是融入到title标签中。

titile不超过25汉字,对页面唯一,在title中合理突出1-2个关键词。

2. Meta标签

元标签用于提供有关HTML文档的信息即结构化元数据(元数据是有关数据的信息)。元标签是隐藏标签,用于表达浏览者所不关心的信息,浏览器不显示这类信息,对于页面浏览者是不可见的;但元标签常用于协助搜索引擎正确地分类页面,是搜索引擎可理解和解析的。搜索引擎蜘蛛要利用这类信息去了解要抓取的页面。

元标签有四个属性,即content、http-equiv、name和scheme,其中只有content是必要的属性。元标签总以name/value对形式提供信息。Content提供名值对信息信息,它可以是出现在引号中的合法字符串。Name和http-equiv属性提供名称信息,一些常用名称是:标识页面主题的单词关键词(keywords),它有助于搜索引擎分类网站。对页面的简短描述(Description),应包含关键词,这个标签享有搜索引擎的广泛支持,很值得使用,使用该标签的搜索引擎将在显示链接列表时提供这个标签的内容。用于限制搜索引擎搜索页面的Robots,这个标签得到搜索引擎的全面支持,但只有在不想让搜索引擎检索页面时,才需要它。网页编码和语言注释标签:主要是面向浏览器的,不同语言的编码都不同,所以做外文网站的时候一定要注意,最好用潜在客户使用的操作系统的编码,要不然潜在客户看到的网页将是乱码。其它可选元标签:任何其它元标签被大多数搜索引擎忽视,虽然可能被少数搜索引擎使用,如版权和作者信息等。

元标签曾经是搜索引擎优化的焦点之一。在1990s中后期,搜索引擎依赖于元标签去分类页面,网站管理员随即就明白了元数据的商业价值,即在搜索引擎中的排名会带来网站的高流量。随着搜索引擎流量在网络营销中日益重要,那些熟悉搜索引擎如何处理网站的人(咨询师)便粉墨登场,利用各种技术(无论合法与否)去为其客户改善排名,利用各种方法为网站在搜索引擎上提供较好的排名。一些作弊行为,如元标签中的关键词无限堆砌,企图回避搜索引擎排名算法,因此元标签曾被严重滥用。随着搜索引擎蜘蛛日趋完善,元标签的作用急剧减小,如今元标签业已失去往日风光。

但仍有必要重视元标签,因有些搜索引擎仍然对元标签感兴趣。元标签内容要简短,与正文内容一致。若过分重视元标签以愚弄搜索引擎,就会被揭穿并受到应用的惩罚。元标签不是把网站推送到搜索结果页面前列的“银弹”。它们是工具,有助于提升网站在那些使用元标签的搜索引擎中的排名。利用它们可使网站的更多页面被收录和浏览。

元标签主要面向搜索引擎,关键词和描述尽可能对页面是唯一的,即不能被多个页面共用。

关键词早期被大多数搜索引擎使用;但其作用越来越小,目前对Google已经没有用了,对个别搜索引擎的排名还有一定作用。然而,对解析的关键词的数目有限制,因此,要慎重使用关键词。其设计原则是简明,若用多个关键词,用英文逗号格开,即关键词要用最简单、最明确的内容。

其设计原则是:每个页面要有独特的、与网页内容相符合的、简明的关键词和描述信息。元信息长度要合理,不超过50个汉字;在描述中核心关键词出现4次左右。

Robots允许说明不让搜索引擎检索的页面或跟踪其中的链接。要排除蜘蛛搜索,可在相应页面中加入这种说明性标签。这种标签得到搜索引擎的广泛支持,有些搜索引擎也对robots标签做了扩展。robots是一种事实标准,详见http://www.robotstxt.org/meta.html。

Robots元标签的格式为:<meta name="robots" content="index,follow">。其中,name属性是robots,content的值用逗号隔开,只有某些组合才有意义,其缺省值是"index,follow",即蜘蛛将检索网站所有页面,并将跟随其中的链接。content的合法值是index、noindex、follow或nofollow等。index指Robot可以索引含此标签的网页,Noindex指不要索引含此标签的网页。follow指Robot可以跟踪含此标签的网页里的特定链接,Nofollow指不要跟踪含此标签的网页里的特定链接。Archive指蜘蛛可以存储含此标签的网页的快照,Noarchive指蜘蛛不要存储含此标签的网页的快照。Nosnippet指蜘蛛不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接。Noodp指蜘蛛不要使用开放目录中的标题和说明。

在使用robots时,要考虑两点。蜘蛛可不理会元标签,特别是黑客探测web安全漏洞的恶意蜘蛛、电子邮件地址harvesters。元标签不是阻止搜索引擎检索网站内容的最好方法,不必使用robots标签去帮助页面得到检索,这是多此一举。更可靠和有效的方法是利用蜘蛛访问协议即Robots.txt文件,而不需要逐页添加robots标签。Nofollow指令只适用于本页面上的链接,别与rel="nofollow"链接属性混淆。

3. 几种元标签生成器

BHead,用于建立完整的标题区,包括CSS层叠样式表。生成所有正在流行的meta标签代码,可创建专门的标签;引出文件的关键字和文件的描述;具有编辑彩色样式表格和检查拼写,更换搜索,语法凸嵌等功能。

Metty Meta Tag Maker,可同时创建33个meta标签,让搜索引擎毫不费力地索引到网站。容易使用,无须具备meta标签知识基础。

Search Engine Buddy,无论网页在线还是离线,都能分析其meta标签和网页内容,创建最好的meta标签,根据要求创建相关的网页内容,分析搜索引擎的排名算法。

MetaWizard,简单的基本meta标签创建工具,为网页建立基本的标签。

1.4.2 网页内容

大多数搜索引擎注重页面的文本内容和页面题目,并认为其搜索相关性高于元标签。因此,要保证页面有相关的标题和内容。这将比只适用元标签更能改善排名。

内容很重要,许多搜索引擎开始应用Latent Semantic Indexing技术,即更加看重在内容中相关术语的页面,而不是术语重复出现多次的内容。相关、及时和唯一的内容自然会被链接。网站的内容要丰富、网站原创内容要多、用文本来表现内容,更新要及时。

1. 关键词丰富的文本

内容写作要注重内容质量、更新频率、与关键词的相关性。

搜索引擎关注页面<h>标签中的内容,并认为紧跟其后的内容才是最重要的文本区。大多数搜索引擎注重文本的开始内容,根据具体搜索引擎而异,开始文本单词的数量依次降低,一般以50个单词为单位。要在文本中使用关键词,把关键词放置在段落和标题的开始很重要;文本首先是为人写的,其次是为搜索引擎写的,使关键词醒目也有作用。文本中的关键词为每个页面选择一两个关键词或短语,用用户熟悉的语言,别滥用,以免形成关键词堆砌而受到搜索引擎惩罚。

根据经验,吸引蜘蛛的原则是:一是要提供文本和注重正文。Google喜欢内容,特别是高质量的内容。没有文本的页面很难获得高的排名,这点对主页特别重要。若主页上没有文本,那么蜘蛛可能会立即停止搜索。有规律地更新;实效性的、主题性的文章永远最好。原创的内容最佳,切忌被多次转载的内容;内容独立性,与其他页面至少30%互异。别做任何重复,若重复了关键词,将受到惩罚。二是内容围绕页面关键词展开,与网站管理员题相关。研究关键词,找出好点子,写好新网页,即以一系列关键词为基础的内容。三是分段要合理;并且也是逻辑分割;使用黑体等醒目标识强调重点。四是提高写作技巧,学习适合网上人群的写作方式:多分段,短句子,读起来快的内容,因大部分网站访客不是读,而是浏览。四是蜘蛛有停止词列表,主要涉及成人内容和亵渎性语言。当发现这种关键词时,蜘蛛就会放弃这种网站。若某个页面有这种关键词,可以在robots.txt文件中限制对它的访问。五是若页面中有大量链接,要确保有相关的文本内容伴随。纯链接页面总被蜘蛛忽视,甚至会受到惩罚,而若有描述则可避免这个问题。

2. 权重性标签

<titles>和<h>标签非常重要,是搜索引擎优化的日常工作重点。对页面中的关键内容如关键词,可使用下属权重性标签进行标注,以体现其关键性:H1、H2等标签;粗体、斜体和下划线标签。

总之,SEO友好的网页设计,应该做到:网站的各个页面结构尽量保持简单和一致。网页文件大小适中,以便提高搜索引擎读取时的速度。为网页指定明确单一的内容主题。通过频道导航(特别是首页),并在网页中放置关键字,以及在频道导入、导出链接中,用关键字突出主题。不要轻易使重定向、框架等对搜索引擎不友好页面处理方式。尽量把关键字放到网页文件名,图片名,图片替代文字中。通过页面的title和description突出主题。标题(title)最好控制在40-60个字母以内,并将关键字置于其中以突出主题。把关键字和文章分段标题,重要段落用显现方式突出网页要表达的主题。可以通过关键字在文章标题,正文,显现方式,出现的频率来体现页面的独特性。网站栏目网页内容保持规律的更新,通过评论等形式保持页面内容更新。尽量不要出现大量相同或相似的内容页面,文章正文内容不要过短。

1.4.3 页面框架

为便于一次性更新网站的导航菜单,为浏览者提供统一的导航菜单、站点名称和站标,大多数网站管理员喜爱框架(Frames)。框架本质上是页面内的页面,因破坏了Web赖以存在的一个文档对应一个URL的模式,因此给浏览者和搜索引擎带来了特殊问题。

浏览者不能为基于框架的站点的内部页面做书签(bookmark),当他们点击链接浏览那些基于框架的内部网页时,不能导航到网站的其他页面。当搜索引擎用户点击搜索结果列表中的基于框架的网站的页面链接时,能完全看到内部页面,但没有任何方法去浏览该网站的其它页面,因该内部页面在被浏览器装载时,相应的<frameset>没有被装载,因此没有导航菜单。当framed页面出现在Google搜索结果中时,总显示<frameset>页面的<title>和<meta>描述信息,而不是页面的<title>和<meta>描述信息,因此用户不愿意点击的。解决方案是利用JavaScript技术,通过跟踪下面链接,JavaScript检测当被包含在<framset>中页面被直接装载到浏览器时,自动地以在<framset>中的位置重新装载该页面。这不是万灵药,还需要在内部网页中包含<noscript>信息,为那些不能运行JavaScript的用户,以免pop-up windows和安全威胁。

基于框架的网站也困扰着SEO和排名。搜索引擎排名算法主要基于链接流行度,网站的主页通常最好。而在基于框架的网站上,主页只包括<frameset>布局和“Your browser doesn't support frames”,而信息在<noframes>部分。其不当之处在于<frameset>中没有相关的内容,因此搜索引擎无法对这种网页进行排名操作。其优化方法是,<noframes>部分应包含一个微缩主页,以便搜索引擎获得更多的资料,而非仅有标题。用<h1>标签显示合适的headline,另配有关键词丰富的文字段落,这样使得基于框架的主页有机会与其它主页竞争。还要包括到网站中最重要页面的常规HTML链接。若使<noframes>部分如同正常页面,也也能如正常页面那样获得高排名。

总之,Frames困扰着大多数蜘蛛,移去那些使用框架的页面时不我待,无论代价多大。若绝对不能避免时,要知道到在设计网站时如何处理框架的技术,以减少这种问题。若非要用frames不可,那么要利用好<noframes>标签,并在其中包括:向网站地图的链接、或列出指向页面及其直接链接的内容页面(而非指向framesets的链接)。可以通过使用JavaScript,在浏览器中跟随链接时,迫使framesets出现,这是蜘蛛总忽视的。这需要做很多工作,但至少可以使之出现在了搜索引擎结果列表中。

1.4.4 页面代码的优化(代码减肥)

网页文件越小越好,这很难做到,但却很有效。代码优化对搜索引擎有效,对访客也有效。速度很重要。代码肥大或许与SEO无关。庞大的代码很不雅观,因此应审视网站,为网页减肥。代码肥大指那些标记多而内容少的页面,有些工具可以显示页面中内容的百分比。减少不必要的代码,下述是几个代码肥大的主要原因及其解决办法。

1.重用相同的css类导致代码肥大

<div id="menu">

<a href="foo.htm">Foo</a>

********

</div>

CSS: a.menu-item { color: red;}

许多人用"menu-item" class设置风格,而更好的方法是用"menu"属性设置:

<div id="menu">

<a href="foo.htm">Foo</a>

*********

</div>

CSS: #menu a { color: red; }

优化后外观几乎一样,而HTML更容易阅读,也没有代码肥大问题。

2. 无用的元标签

许多元标签其实没有什么作用,如关于语言、作者、版权、类型、主题等标签,需要消除。只需保留desc、keywords和robots标签。

3. 表格(table)肥大

可把表格转换成列表,如各种list。

4. CSS肥大

为CSS文件减肥,可减少25-50%,这可利用Clean CSS工具。

5. 所见即所得(WYSIWYG)肥大

WYSIWYG编辑器也是代码肥大的罪魁祸首。如它产生下述代码:

<span>This is bold text</span>

更好的方法如下:

<strong>This is bold text</strong> 或<b>This is bold text</b>

<strong>标签用于强调文本,而<b>标签用于使文本醒目。这在浏览器中没有差别,浏览者能辨认出这种差别,Google也不在乎用那种。

6. 注释肥大

注释有利于向其他开发人员解释代码的作用,也占用宝贵的带宽,而导致注释肥大,特别在Javascript、HTML和CSS文档中。消除Javascript中的注释,能减少页面大小25-50%,这很值得。同时也值得检查引用的javascript库文件。CSS很复杂,如注释价值就不大。HTML中的注释也需要消除。

7. Session ID肥大

这是很多人意识不到的问题。在PHP中,session ID是32个字符,并依附于页面中每个链接。session ID肥大:32字符x 50个链接=1.6kb。

除此外,session ID对SEO是危险的,因此无论如何应排除URLs中的ID。

总之,上述仅是为网页减肥的部分方法,Google偏爱洁净的代码,但不尽然。即使为了浏览者,也有必要为代码减肥,起码可以减少带宽占用。总之,在实施时要注意,利用外部Javascript和CSS 以减小页面下载时间,避免使用Frames,对于只含Flash的页面,要包括skip链接、title和元描述标签,在请求者是搜索引擎蜘蛛时,省略Session IDs。

1.4.5 网页级别测试工具简介

PaRaMeter,可以检查和监督Google大多数的网页级别,只要打开网页就可以轻易看到其网页级别。

M6.net PageRank Checker,检查Google大多数网页级别的简单软件工具。

Google工具栏下载:http://toolbar.google.com,检测PageRank值。

www.trafficzap.com/pagerank.php,检测PageRank值。

www.seochat.com/seo-tools/future-pagerank,查看PR值是否处于更新期间。

www.digitalpoint.com/tools/webrank,检测Yahoo的WebRank值。

4.5 关键词策略与技巧(论文题目:SEO及其关键词策略)

虽然关键词元标签是排名前列的金钥匙时代已经一去不复返,但关键词技术仍然是良好SEO的关键技术之一。只是它们的应用范畴发生了变化而已,SEO不再会把多个关键词堆砌在元标签中以获得高排名,而是去发现那些对业务最有意义的关键词,并用之于提高网站流量。关键词是用户在搜索相关页面时使用的单词或短语,也是搜索引擎在建立索引表要使用的单词。选择关键词是最重要的SEO任务之一,但往往缺乏讨论和研究。没有正确的关键词,SEO工作将事倍功半。

要了解消费者要通过搜索引擎寻找什么信息,有许多工具有助于找出那些关键词有利可图,以便你决定用那些术语优化网站。这是SEO的重要方面之一。大多数SEO公司将指导如何确定准确的关键词术语。最好的方法是调查浏览者,即“你们如何找到我们的网站?” 若他们说通过Google,然后询问他们向搜索引擎输入什么单词。 另一个方法是模仿用户向搜索引擎输入你们的产品或服务,并分析排名在前十名的网站。你还可以选择使用工具诸如,Google广告单词建议工具或Overture。

浏览者要搜索什么?重要的关键词要体现在Title 标签、元描述标签、Headline 标签 (H1, H2等)、HTML 文本内容和链接的锚文本中。

若网页没有包含要优化的关键词,搜索引擎怎么知道为查询返回那些关键词?关键词至关重要,搜索引擎根据术语出现的位置,赋予其相应的权重。关键词要出现在一些重要地方,如Title标签、软文、锚文本、靠近页面顶部的文本、Headings标签和被强调的文本内容;一些次要地方,如Alt text、描述标签、域名和URL中。

即使有一些来自于著名的、相关的权威网站的链接指向网站,若没有合适的猫文本,那么这些链接的意义有多大?能保证网站是按搜索引擎友好的方式设计和开发的?因此,关键词很重要,值得推敲,有必要研究如何找到最确切的关键词。

关键词策略主要包括关键词选择、布局和密度,目的在于提高页面相关性。SEO工作是围绕产品关键词进行的,因此关键词的选取事关整个SEO工作能否有效开展。

1.5.1 选择目标关键词的原则

关键词选择:为网站寻找和筛选合适的关键词的过程成为关键词选择。很简单,这需要认真的前期调研,以发现人们搜索什么术语,频率如何?有多少网站提供这些术语。

关键词选择是一个策略性行为,有利于决定与网站最相关的查询有哪些?可以为该查询设想一个可行的结果,然后相应地优化网站。

不难想出与网站相关的10-20个关键词。然而,网站管理员的有关业务的思维方式不同于普通客户的想法。财务机构或许称其产品为auto loan,用户在搜索时会用car loan,甚至是car loans。同样,想到的术语或许太泛或许太窄,而不适于SEO需求。

关键词工具对检查用户实际上在搜索什么很重要。这类工具一般储藏过去几个月甚至几年的搜索引擎查询相关的数据。这有助于了解那些术语被用于搜索,频率如何?一般还提供术语的相关术语,如,同义词、变体、复数形式、和错拼字等。

这些工具不仅提供搜索量信息,许多还给出每个术语的在搜索结果中的数目(即竞争水平)。关键词的竞争性越低,获得好排名的机会就越大。

因此,选择关键词的基本原则是:

?与网站很相关性:得到网站内容支持的术语;

?相对高的搜索量:人们实际上搜索的术语;

?相对低的竞争:搜索结果量小的术语;

当选择的关键词符合上述三个标准时,网站在SERP中领先的机会就会指数增长。若不符合上述标准,就会陷入如下境地:

?选择很流行或/和竞争的关键词。关键词太宽泛,很多网站都在使用,因此没有机会获得好排名。

?选择目标很窄或niche关键词。选择的关键词太具体,没有人用于搜索。再好的排名也无用,因没有人看到。

无论花费多少时间去选择关键词,从中获得的知识对SEO来说是无价之宝。

1.5.2 关键词选取策略及其方法

深入研究如何实施关键词选择?一个提出、选择和分析关键词的逐步方法,有助于选择关键词。

理解客户的信息需求

每个潜在用户都有其独特的搜索动机。在做出最后选择之前,很可能要经历一个决定过程。对低价产品这很容易,而对于大件产品相对要慎重的。

一个简化的决定过程包括,初始化调查、审视、评估、选择/够买。这个过程中的每个步骤都有其信息需求种类。

下面以房产开发商为例,要确定用户需要那种信息:

?初始化调查:我能够买多大的房子?我想要那种房子?我想在那个区域居住?

?审视:哪个开发商能按我能够买的价格提供我所需要的房子?哪个开发商在我向往的区域有社区?

?评估?哪个开发商有良好的声誉?我要等多长时间才能拿到钥匙?

?选择/够买:我如何购买房子?要抵押贷款多少?

找出初始化关键词列表

一旦知道了用户的搜索目的,就可以开始思考用户在搜索时会用到的关键词。

回答上述问题可到到一些样品关键词:

我想要那种房子?独院、半独院或楼房。

我想在那个区域居住?Toronto area homes, GTA homes或Homes in Toronto

要抵押贷款多少?Mortgage计算器、Mortgage数额或住房贷款利率。

开始形成关键词列表,这是你的潜在用户所感兴趣的。但其中不乏与网站不相关的关键词。可通过脑风暴和下述方法形成主题性列表:

?逐页扫描网页以寻找术语。

?审视分析结果,以决定哪些术语会被用于发现网站。

?询问同事特别是销售团队。

?访问客户。

实施这个过程,可以得到与业务有关的关键词列表。若从第一步开始,根据信息需求,这些列表应该是主题性的。把这些术语分组成更具体的主题。大致找出这些列表和网站各内容区域的对应关系有助于实施。

利用关键词工具

了解了搜索引擎用户在用什么关键词搜索之后,借助于在线关键词工具,找出人们实际上在用什么关键词搜索。

把列表中的关键词术语逐一拷贝和粘帖到关键词工具,每运行一次搜索,该工具将返回与该关键词相关的各种查询变体,如复数形式、错拼、相关术语和同义词等。其中,有些将适于你的业务,有些将不相关。

然后把这些结果输出到Excel电子表格中。

检查列表

对这个电子表格文件进行处理。逐项检查,使之缩小到最适合和最希望的术语。这需要一些手工劳动,利用Excel的排序和过滤功能有助于减轻工作量,下述建议有助于选择关键词:

?过滤结果只显示一次记录,消除了重复的关键词

?若使用工具给出了搜索量和竞争数据,则设置阈值以消除不满足条件的关键词。

?瞄准长尾术语(longer tail),而消除单个关键词。

?浏览列表,手工删除不合适的、与上下文不相关的术语。而要保持错拼的单词,你不希望失去潜在的客户,仅仅因为其不会拼写单词。

一旦这么做了,留下的就是相对适应各个内容域的列表。依赖于市场的流行度,在每个列表中应只留下10个左右的术语。

作出选择和布局

有必要决定将把那些关键词用于SEO。这意味着要为网站中的页面选择具体关键词。

每个页面应该有2~3个关键词。在电子表格中产生一个新栏目即"URL or Page"并输入适于每个关键词的潜在页面。然后按页面分类,检查每页面上候选的关键词,进一步编辑页面,直到满意。

1.5.3 提高关键词排名的SEO技巧

关键词应该出现在网页的如下地方:Title、meta、网页大标题、网页文本、图片alt注释、网页的超链接文本。不要刻意追求关键字堆积,否则会触发关键字堆砌过滤器(keyword stuffing filter),招致搜索引擎的处罚。

利用关键词丰富的元数据有助于获得较高的搜索引擎查询排名,要注意关键词研究旨在找出最有价值的关键词。这些是搜索引擎优化的基本概念,有助于提高搜索引擎排名。

提高关键词排名的技巧有:在URL中用关键词(英文);在页标题(title)中用关键词;在关键词标签中用关键词;在描述标签中用关键词;在软文中用关键词,特别在第一段;在H1,H2等权重性标签中用关键词;在出链接锚文本中用关键词,在锚文本周围要有关键词;在图片的文件名中用关键词,在其ALT属性中用关键词;把页面中核心关键词密度控制在6-8%之间;

1.5.4 关键词工具简介

如前所述,在做策略性研究和挖掘各种选择之前,不要选择关键词。有几款很好的付费定制工具,有助于关键词选择,如KeywordDiscovery和Wordtracker。然而网站管理员或SEO新手可用免费工具,如:Google的Adwords关键词工具提供相关术语的列表和基于five-point排名的搜索量。MSN在其adCenter Labs中提供了一套工具,这包括关键词预测。Wordtracker Academy提供Wordtracker工具。注意,这些免费工具一般不提供竞争性数据,这意味着你要手工搜索每个关键词以检查返回的搜索结果的数目、时间耗费等。

Good Keywords,为网页找到最好的关键词。功能:关键字建议,编撰或创建关键字或关键词短语,检查拼写错误,判断网站及链接的流行度等。

Golden Phrases,分析性实用程序。检查指定的日志文件,检索访客们在你网站上搜索过的关键词短语,找到你的网站。无论任何短语,只要被搜索过,就可以统计出其被使用的次数,判断出你网站的位置。它独特的透明值技术还有助于找出未被使用的关键词短语。

PPC Keyword Generator,强大的关键词短语的交换器/发生器.几秒内能发现100多个关键短语,自动删除重复的关键词短语,对每个关键词短语的付费点击/网址和输入及输出都做详细说明。

Hixus Keyword Inventor,搜索引擎优化的软件工具。为Overture关键字意见工具中的关键字流行度做前期分析,加快了寻找流行关键字的速度。

e3KWD Check,小型、快速的搜索引擎优化工具。分析文本文档里的关键字密度,通过固定的地址栏恢复和分析在线网络文档。

Get Keywords,找出存贮器中的关键字,并用找到的关键字优化网页。特点是自动搜索词条,增加或删除关键字,创建网页和网页预览。

Keyword Digger,为人们在Overture中搜索过的关键词而特别设计。它可以计算关键字被搜索的次数,显示同一个关键字的100种变化形态。

AnalogX Keyword Extractor,提取网页的关键词,然后根据用法和位置对其分类和索引。一旦被索引,就可以调整搜索引擎特定的权衡因素和关键词标准,使网站受到搜索引擎最好的评价。

1.6 恶意的搜索引擎优化技术(作弊Spamdexing)

随着Web信息规模和价值的增加,搜索引擎的作用日益提高。然而如今搜索引擎受到各种作弊手段的严峻威胁,它们企图破坏搜索引擎提供的公正搜索和排名服务。搜索引擎正在用各种私有专利技术抵制Web作弊。

SEO作弊(也称为SEO黑冒)就是采用搜索引擎禁止的方式优化网站,如群发留言增加外链等。通过这个方式增加外部链接,影响其他站点的利益,同时影响搜索引擎对网站排名的合理性和公正性。对应的“白冒”是采用SEO的思维,合理优化网站,提高用户体验,争取与其他网站互联,从而提高站点在搜索引擎结构中的排名。

Spamdexing是spamming(向用户发送unsolicited信息)和indexing的组合词。Spamdexing(也称为search spam或search engine spam)涉及很多方法,诸如重复无关的短语、用与搜索系统目的不一致的方式人为操纵被搜索引擎检索的资源的相关性或重要性。常见的搜索引擎优化作弊方法,包括关键字堆砌、隐藏关键字、镜像网站、门页、伪装、302重定向及链接欺骗、域名轰炸、弹出新窗口转向、Link Farm(链接养殖场)等。

许多搜索引擎会检查spamdexing,并从其索引中删除可疑页面。受用户对搜索结果中不当匹配的抱怨的警示。搜索引擎工程师能快速把那些用spamdexing的网站从搜索引擎结果列表中隔离出去。

Web作弊指为误导搜索引擎而在Web上创建的页面。Spamdexing技术通常分成两大类,即内容spam和链接spam。

1.6.1 内容spam

这些技术设计更改搜索引擎对页面内容的逻辑试图。它们都妄想篡改矢量空间模型,后者用于对文本集合进行检索。

关键词堆砌(Keyword stuffing):按计算在页面中放置关键词以提高关键词的次数、变体和密度。这有利于显得页面对蜘蛛是切题的,更容易被蜘蛛发现。旧版本搜索引擎只计算关键词出现的频率并用于确定相关性。而大多数现代搜索引擎有能力分析页面是否被实施关键词堆砌以吸引搜索引擎流量。九十年代中期蔓延的spamdexing曾一度使一流的搜索引擎显得苍白无力。Google通过著名的PageRank链接分析算法,产生了较好搜索结果,并成功地反击关键词作弊,成为九十年代后期主流的搜索引擎。虽然没有被spamdexing弄失效,Google也不得不采用更复杂的方法。Google也对PageRank进行了相应的调整来提高其对各类作弊方式的监测灵敏度,但这些调整没有从根本上解决SEO合法作弊的问题。

隐藏不相关的文本:通过使用与背景相同的颜色、微型字体或在HTML内隐藏(如no frame)、ALT属性、零宽度/高度而伪装关键词和短语。搜索引擎会因网站具有不可见文本临时或永久地阻止它。

元标签堆砌:在元标签中堆砌关键词,利用与内容无关的关键词。这个方法自2005年起已经失效。

门页Gateway或doorway pages:创建低质量web页面,内容很少,只是一味地堆砌很相似的关键词和短语。其目的是追求在搜索结果中排名,而不为搜索者提供信息。门页通常在页面上有"click here to enter"提示。

Scraper sites:也称为Made for AdSense网站,利用程序从搜索引擎结果页面或其它信息源提取内容,并用之于创建网站。这些网站表现内容的形式独特,仅仅是从其它网站剽窃的内容的融合。这种网站通常充斥着广告,或为把用户导向其它网站。这种网站甚至因其信息和组织名称而可能在排名上优于被剽窃的网站。

1.6.2 链接作弊

Google bombing是另外一种人为操作技术,通过放置链接而直接影响其它网站的排名。“页面之间的链接因故而非因美德merit而存在”。Google于2007年在算法上反击了Google bombing。

链接作弊利用基于链接的排名算法,诸如Google的PageRank算法,即被其它高排名网站连接得越多,网站的排名就越前。这些技术也会影响其它基于链接排名算法如HITS。

Link farms:相互链接页面以创建tightly-knit communities,也被诙谐地称为“相互羡慕的社区”。

隐藏的链接:把链接放在浏览者看不见的位置,以便增加链接流行度。而高亮度链接猫文本有助于提高相关关键词的页面排名。

垃圾博客Spam blogs(splogs),为作弊而创建的虚假blogs,基本上与link farms相似。

Page hijacking:通过创建流行网站的拷贝,对搜索引擎而言,这个拷贝的内容与原网站的相似,而把浏览者导向不相关甚至恶意的网站。这通常是间谍软件和广告软件采用的方法。

购买失效的域名:有些链接作弊者监视将要失效的DNS记录,在失效时购买这些域名,并链接到自己页面。

有些技术能用于创建Google bomb,即与其它用户合作提高页面针对某个查询的排名。

Cookie stuffing:This involves placing an affiliate tracking cookie on a website visitor's computer without their knowledge, which will then generate revenue for the person doing the cookie stuffing. This not only generates fraudulent affiliate sales, but also has the potential to overwrite other affiliates' cookies, essentially stealing their legitimately earned commissions.

1.6.3 利用可编辑的页面

用户可编辑的网站,诸如允许边界的Wikis和blogs等,若不采取反作弊措施,能被插入导向垃圾网站的链接。

在博客中的作弊:在其他网站上随意放置链接诱饵,在导入链接的猫文本中放置关键词。留言板、论坛、博客和接收访客评论的网站是被利用的目标,而成为作弊的牺牲品,代理软件能发无意义的帖子,并带有不相关的链接。

评论作弊:有些网站允许用户动态编辑诸如维基、博客和留言本,这可能导致问题,因代理软件能自动、随机地选择用户可编辑的网页而添加作弊性链接。

维基作弊:利用维基(wiki)系统的开放编辑功能在wiki网站放置到垃圾网站的链接。而被链接的垃圾网站的主题一般与wiki页面无关。在2005早期,Wikipedia实施了缺省'rel'='nofollow'。具有这种属性值的链接被Google PageRank算法忽略。论坛和Wiki管理员可利用这种技术去打击Wiki作弊行为。

Referrer log spamming:When someone accesses a web page, i.e. the referee, by following a link from another web page, i.e. the referrer, the referee is given the address of the referrer by the person's internet browser. Some websites have a referrer log which shows which pages link to that site. By having a robot randomly access many sites enough times, with a message or specific address given as the referrer, that message or internet address then appears in the referrer log of those sites that have referrer logs. Since some search engines base the importance of sites by the number of different sites linking to them, referrer-log spam may be used to increase the search engine rankings of the spammer's sites, by getting the referrer logs of many sites to link to them.

1.6.4 其它spamdexing

镜像网站:把内容相似的网站放在不同URL上。URL重定向:未经允许而把用户带到其它网页,如利用META refresh标签、Flash、JavaScript、Java或Server side redirects等

伪装Cloaking:指实施为蜘蛛提供的页面不同于为人类提供的页面的技术,企图在网站内容上误导搜索引擎。然而,Cloaking也能用于使残疾人访问网站,或为人类提供搜索引擎不能处理或解析的内容。它也用于基于用户的位置提供内容,Google也利用IP delivery(一种伪装)提供结果。另一种伪装是代码偷换,即把优化到排名前列的页面换成其它页面。

1.6.5 Alexa作弊

Alexa作弊指将Alexa Toolbar向Alexa网站发送的数据包拦截,然后由计算机编程人员模拟Alexa Toolbar制作一软件向Alexa网站发送虚假访问网站数据。因为Alexa本身排名要依赖于Alexa Toolbar返回的浏览数据。

1.8 Google搜索引擎优化新手指南(论文题目:Google搜索引擎优化策略)

新手指南适合于从事Google优化的团队,也适合于那些不熟悉搜索引擎优而又希望改进其网站与浏览者和搜索引擎交互的网站管理员。虽然没有透漏网站在Google查询的顶级排名秘密,但遵循下述指导有助于搜索引擎抓取和检索网站内容,希望能提供一些优化网站的新颖理念。

1.8.1 导航优化

1 充分利用robots.txt

"robots.txt"文件告诉搜索引擎是否该访问并抓取网站的某些部分。该文件的名称必须是"robots.txt",放置在网站根目录中。

或许你不想让某些网页被抓取,因出现在搜索引擎的搜索结果中对用户没有什么用处。若想阻止搜索引擎抓取某些页面,Google网站管理员工具有友好的robots.txt产生器,有助于创建该文件。

注意,若网站利用二级域,而不想让特定二级域中的某些页面被抓取,应为该二级域单独创建robots.txt。robots.txt的详细信息,可参见网站管理员帮助中心中的参考文件。

很多方法可用于阻止文件出现在搜索引擎结果中,诸如为 robots元标签添加"NOINDEX",利用htaccess口令保护目录,利用Google网站管理员工具把已经抓取的内容删除掉。

对敏感内容要使用更安全的方法。用robots.txt去阻止敏感或保密材料被抓取,你会感觉得不放心。原因之一是搜索引擎仍然会URLs引用你“阻止”的URLs(尽管只有UEL,而没有title或snippet),若在互联网某处(如referrer logs)有到这些URLs的链接。其次,一些简单搜索引擎不遵守Robots协议,不会理会robots.txt中的指令。再者,好奇的用户会探测robots.txt文件中的目录或子目录,猜测网站不想公开的内容的链接。加密内容或用htaccess设置口令保护文件是更安全的办法。

避免允许与搜索引擎结果类似的页面被抓取,避免让大量的自动生成的页面(内容相同或很相近)被抓取,避免允许抓取作为代理服务的结果而产生的URLs。

2 网站地图和网站导航优化

网站导航有助于浏览者快速找到目标内容,有助于搜索引擎理解网站管理员认为重要的内容。虽然搜索结果只提供页面层次的内容,Google也喜欢了解页面在整个网站中的角色。

网站有主页,这是网站中最被频繁访问的页面,是网站浏览者的始发地。网站页面多时,应该考虑浏览者如何轻易从通用页面到具体内容页面。若围绕某一具体主题的页面很多,那么做一个描述这些相关页面的页面是很有必要的,如:主页->主题列表->具体主题。若有数以百计的产品种类,那么分类甚至多层次分类页面也是有必要的。

sitemap(小写)文件是显示网站结构的简单页面,通常只包含网站页面的层次性列表,浏览者若在网站中找不到页面,则可通过该页面去查询;搜索引擎也访问该页面,以全面抓取网站页面。但它主要是为浏览者服务的。

XML Sitemap(大写)文件可通过Google网站管理员工具递交,以便Google容易找到网站中的页面。Google创建了一个开源Sitemap构造器脚本以便创建Sitemap文件。有关Sitemaps细节,可参见网站管理员帮助中心提供的指南。

创建自然流畅的层次结构,使之尽可能有助于浏览者从一般内容到具体内容。必要性创建导航页面,建立内部链接的结构。避免创建复杂的导航链接,如页面之间的全通链接。避免横向切面链接。

尽量利用文本导航,使之有利于搜索引擎遍历和抓取网站中的页面。大多浏览者也喜欢这种导航,因许多设备不支持Flash 或JavaScript文件。避免使用完全基于下拉菜单、图片或动画的导航。

利用“面包屑”导航,面包屑是位于页面顶部或底部的内部链接组成的行,允许浏览者能快速回溯到前面的页面或主页。许多面包屑以主页链接开始,逐步向具体页面过渡。
web搜索引擎优化技术 网络搜索引擎优化

在网站中要放置HTML sitemap页面,要利用XML Sitemap文件。简单的sitemap页面包含网站内所有或主要的内部链接,这很有用。为网站建立XML Sitemap文件有助于确保搜索引擎能找到网站中的页面。避免HTML sitemap过时,避免HTML sitemap只罗列页面而没有按主题组织。

要考虑浏览者用截取的URL访问网站的情形,有些用户会这样做,要为这些用户有所作为。要利用404页面。浏览者有时会因用部分链接地址或敲错了链接地址而访问网站中并不存在的页面。要有一个友好的404页面,以便指导浏览者返回可用的页面,这有助于提升用户的体验度。404页面应提供返回主页、流行页面或相关页面的链接。Google提供了一个404小工具(widget),可以嵌入在404页面中,以便自动提供有用功能。当然,也可以利用Google网站管理员工具找到那些导致“not found”错误的链接源。要避免让搜索引擎检索到404页面(这要配置服务器,以确保在浏览者请求不存在的页面时能给出404 HTTP状态码),避免只提供模糊的信息,如"Not found"、"404"或根本没有404页面,避免使用与网站不一致的404页面。

1.8.2链接优化

1 优化URLs的结构

为网站文档创建描述性分类和文件名有助于更好地组织网站、搜索引擎更好地抓取页面。创建容易的、友好的URLs有助于别人为网站创建外部链接。浏览者会困惑于繁长的、加密的、可识别字符很少的URLs;这类URLs容易引起混淆,也不友好;浏览者难以记忆,也不便于为它创建外部链接。用户还会认为部分链接是不必要的,特别包含许多不可识别的参数的URL,他们会只用部分URL地址。有些浏览者会利用页面的URL作为锚文本,与ID和稀奇古怪的命名参数相比,若URL包含相关单词将为浏览者和搜索引擎提供更好的页面信息。最后,切记文档的URL作为Google的搜索结果将被显示在文档title和snippet下面,如同title和snippet,若URL中的单词出现在用户查询中,则会被显示成黑色字体。

深层次页面具有能反映内容类型的URL,也出现在结果中。Google擅长于抓取各类URL结构,即使结构很复杂,但尽可能使URL简洁,这有利于浏览者和搜索引擎。有些网站管理员通过把动态URLs改写成静态URLs来实现,而Google能很好地处理动态URLs;静态化地址是一项高级的技术处理,若处理不当,会导致抓取页面时出问题。良好的URL结构设计,推荐参照网站管理员帮助中心关于对Google友好的URLs。

在URLs中使用单词,特别是要使用与网站内容和结构相关的单词,这有助于浏览者浏览网站、记住地址和导航网站,或许因此更愿意为网站做外部链接。避免使用带无谓参数、会话ID和繁长的URLs;避免使用通用的页面名称,如"page1.html";避免使用过多的单词,如"baseball-cards-baseballcards.htm"。

创建简单的目录结构,利用目录结构去组织内容,这有助于浏览者实时了解其在网站中的位置。要利用在URLs中找到的目录结构去猜测内容类型。避免使用子目录的深层次嵌套结构,如".../dir1/dir2/dir3/page.html",避免使用与其内容无关的目录名称。

到达页面的URL最好只有一个版本,要防止通过URL的多个版本访问页面,以免页面的信用度受损。要注意在导航和内部链接中都是用相同版本的URL。若发现人们使用多个URLs访问同一页面,那么设置从非首选的URLs 到首选的URLs 301重定向。

提供从根目录和子域同时能访问同一页面,如domain.com/page.htm"和 sub.domain.com/page.htm;避免在内部链接结构中混合使用URLs 的www和non-www版本;避免在URLs中使用大写字符,用户不喜欢这样。

2 书写良好的锚文本

锚文本是显示在链接上可点击的文字,旨在为用户和Google提供目标页面的信息。链接可以是网站内部的,指向网站内的其他页面;也可以是外部的,指向其他网站的页面。无论哪种链接,锚文本越好,用户越易于导航,Google也越易于理解目标页面的内容

选择描述性文本,锚文本应该至少提供目标页面的基本信息。避免用一般性词汇如“页面”、“文章”或“点击此处”等,避免使用与目标页面内如离题或不相关的文本,避免一味地使用链接地址作为锚文本

书写简短而具有描述性的文本,通常是几个单词或短语。避免使用繁长的锚文本,诸如长句子或短段落。格式化链接以便易于找到,要方便用户,使其易于区分文本和锚文本。若用户错过了链接或很少点击链接,则内容的价值就没有得到应有体现。避免使用CSS或文本样式,后者使链接看起来如同正常的文本。也要考虑内部链接的锚文本,这有助于用户和Google更好地导航网站。避免为搜索引擎提供关键词过多和繁长的锚文本;避免创建不必要的链接,这无助于用户导航网站。

3 注意链接的rel属性

把链接的锚标签中的"rel"属性值设置成"nofollow"将告诉Google不要抓取链接对应的页面或不把原页面的信誉度传递给该目标页面。

页面中的日志评论区域很容易造成评论垃圾。若网站有公众可评论的日志,则评论中的链接会把原页面的信誉度传递给你不情愿的页面。为浏览者评论中附带的链接设置rel="nofollow"可保证不把原页面辛苦得来的信誉度专递给垃圾页面。许多日志软件包会做这种屏蔽处理,否没有用这种软件包,最好人工处理。这种建议也适用于网站中的涉及动态交互的区域,如留言板、论坛、传呼版、提交清单等。若网站管理员情愿由第三方增加的链接,则没有必要这么做。然而,对那些被Google认为是垃圾网站的链接会影响源网站的信誉度。Webmaster Help Center有相关提示,以避免垃圾评论。

当书写页面软文时,想引用一个网站,但不想把信誉度传递给该网站,可利用Nofollow。

若想把整个页面中的链接都设置为不可抓去,则可以在<head> 标签中robots元标签中使用"nofollow"。Webmaster Central Blog提供了如何使用robots元标签的提示。其基本方法是:<meta name="robots" content="nofollow">。

4 优化图像使用方法

图像是网站的直接组件之一,但应该能优化其使用方法。图像有其唯一的文件名和alt属性,应该可加以利用。Alt属性用于指定在图像因故不能显示时的替代文本内容。为什么要用这个属性?若用户使用不支持图像的浏览器访问网站,或使用其它技术如屏幕阅读器,alt属性内容便提供了图像信息。图像因故不被显示时,至少alt文本内容会被显示。另一个原因是,若使用图像作为链接,该图像的alt文本将被如同文字链接的锚文本。然而不推荐使用过多的图像作为网站导航中的链接指示,文本链接足矣。再者,优化图像文件名和alt文本会使Google图像搜索更好地理解图像。

使用简洁而具有描述能力的文件名和alt文本。如同要优化的页面其它部分一样,文件名和alt文本最好既简短又具有描述性。尽可能避免使用太泛的文件名,如"image1.jpg", "pic.gif", "1.jpg",避免很长的文件名,避免在alt文本中堆砌关键词或粘帖整个句子。

若用图像作为链接,要提供alt文本,这有助于Google更好地理解目标页面,它如同文本链接的锚文本。避免使用繁长的alt文本,这会被视同为作弊;避免仅适用图像链接为网站导航。

把图像存储在单独目录中,而不要分散存储在多个目录或子目录中,这有助于管理和搜索。利用常见的文件类型,如大多数浏览器支持的JPEG, GIF, PNG和BMP等图像格式。文件的扩展名要与文件类型匹配。

1.8.3 页面优化

1 创建唯一、准确的网页 titles

Title标签为用户和搜索引擎提供具体页面的主题信息。网站的每个页面最好都有其唯一title。若出现在用户的搜索结果中,title中的单词被加黑显示,这有助于用户识别该页面是否与搜索相关。主页的title可以罗列网站或业务的名称,也可以包括其它重要信息如经营场所信息或几个主要聚焦点或服务等。网站中深层页面的title应精确描述该页面的关注点,也可包括网站或业务的名称。

精确描述页面的内容,选择能表达页面内容主题的title;切防使用与页面内容无关的title,切防使用缺省的或模糊的title,如"Untitled"或"New Page 1"。为每个页面创建唯一的title 标签,最好每个页面都具有唯一的title,这有助于Google了解该页面与其他页面的差别。要避免多个页面共用一个title。利用简洁的描述性title,title要短并具有信息性。若title太长,Google在搜索结果中只显示出其部分。避免使用很长的titles,这并无助于用户,也要避免在titles标签中堆砌无谓的关键词。

2 利用描述(description)元标签

页面的描述元标签为搜索引擎提供页面内容的摘要信息。页面的title可以是几个单词或一个短语,页面的描述元标签可以是一两个句子或一个段落。Google网站管理员工具提供了一个便利的内容分析部分,将检测描述元信息是否太长、太短或被复制多次(也可用于检测<title>标签)。主页的描述元标签应提供网站的简要综述。描述元标签之所以重要,是因为Google用之于页面的snippets。

准确地综述页面内容,书写既具有信息又使浏览者感兴趣的描述,用户把它视同为搜索结果的snippet。避免书写与页面内容无关的描述元标签,避免使用通用描述如“这是个页面”或“有关记分卡的页面”,避免只用关键词填充描述,避免把页面的整个内容复制到描述元标签中。

每个页面的描述应该是唯一和独特的,不同的页面有不同的描述,这有助于浏览者和Google,特别在搜索中,浏览者可以看到网站的多个页面(如利用“site:operator”搜索)。若网站页面很多,则手写描述元标签不可行;这时可以基于页面内容自动生成描述元标签。千万避免多个页面共用一个描述元标签。

3 正确地使用标题(heading)标签

标题标签可用于表示页面的层次结构,它依次有六个大小,从最重要的<h1>到最次要的<h6>。因标题标签使包含在其中文本比页面中正常文本显得大些,这为用户提供了线索,说明该行文字是重要的,有助于理解该标题之后的内容的类型。若用多个大小的标题,内容呈现层次结构,有利于浏览者导航。

如同为一篇文章写大纲,在页面上提炼出主要观点和及其子观点,确定标题的合适位置。避免把文本内容放在标题标签中,这无助于定义页面结构;避免张冠李戴,有时<em>和<strong>更合适;避免错误地使用标题标签的大小

在页面中使用稀疏的标题标签,在有意义时,方可使用标题标签。页面中过多的标题标签会使用户难以浏览内容和确定主题范围。避免过多地通篇使用标题标签;避免把通篇内容放在一个标题标签中;避免把标题标签只用于表示样式而不表示结构。

4 撰写高质量的页面内容

创建强势和有用的内容将比在此讨论的其它因素对网站更具有影响力。用户知道好内容后就推荐给其他用户,如通过日志、社会媒体服务、邮件、论坛等媒体。口碑有助于提升网站在用户和Google中的声誉;没有高质量内容,很难获得声誉。内容题材广泛。

书写易读的文本,用户喜欢那些书写良好和容易浏览的内容。避免书写拼写和语法错误连篇的劣质文本,避免把文本嵌入到图像中。

要紧紧围绕主题组织内容。组织内容以便浏览者掌握主题范围总是有益的。对内容进行逻辑分块有助于用户快速找到相关内容。避免不加分段、不加标题或不加布局分割地把涉及许多主题的内容放到一个页面上。

措辞要得当,考虑浏览者要使用那些词汇从网站查找信息。了解主题的浏览者在搜索时会使用一些同义词。因此,要留意浏览者的搜索行为差异,并做记录以便在编辑网站内容时混合使用同义词,这会产生出其不意的效果,Google AdWords提供了便利的关键词工具(Keyword Tool),这有助于发现关键词的变体及其大致的搜索量。Google网站管理员工具提供了浏览者对网站的流行查询搜索内容。

创建新颖内容,新内容不仅有利于留住现有浏览者,而且也有易于招揽新浏览者。避免在网站中使用或拷贝旧内容,这对浏览者没有任何价值;避免在网站内复制内容。提供独特的内容或服务,要创建其它网站没有的、全新而有用的服务。记录研究的原始信息,形成新内容页面,以提供浏览量。

主要为浏览者创建内容,而不是为搜索引擎。围绕浏览者的需求设计网站,同时兼顾使搜索引擎容易访问,这会有好结果。避免插入只针对搜索引擎而会惹恼或对浏览者无意义的莫须有的关键词;避免使用文本块如"frequent misspellings used to reach this page",这对用户没有价值;避免欺骗性地对浏览者隐藏文本,而只显示给搜索引擎。

1.8.4 优化工具

1 利用免费的网站管理员工具

大多数搜索引擎为网站管理员提供了免费工具。Google网站管理员工具有助于网站管理员更好地控制Google与其网站的交互方式,并从Google得到有关其网站的有意信息。利用Google网站管理员工具虽然无助于网站得到优惠待遇,但有助于网站管理员识别和解决相关问题,以便在搜索结果中得到良好表现。利用这个工具,网站管理员可以找出网站中那些不利于Googlebot抓取的部分页面,上传XML Sitemap文件,分析和创建robots.txt文件,删除已被Googlebot抓取的文件,指明偏好的区域,识别title 和description元标签中的问题,理解用于达到网站的关键搜索,了解Googlebot对页面的视角,得到的违规通知可用于网站优化。雅虎(Yahoo! Site Explorer) 和微软 (Live Search Webmaster Tools)也为网站管理员提供了免费工具。

2 利用web分析工具

若利用Google网站管理员工具或其它服务改进网站的抓取和检索性能,网站管理员可关注网站的流量。Web分析工具如Google 分析工具在这方面很有价值。可利用这些工具了解浏览者如何到达和浏览网站,找出网站中最流行的页面,测试各种优化对网站的影响。对于高级用户,结合服务器日志文件中的数据、一些分析软件包提供的数据,可以提供有关浏览者如何让与文档交互的全面信息。Google提供的另一个工具即Google网站优化器,可用于测试,以便找出页面上的哪些变化会产生最好的浏览者转化率。结合Google 分析工具和Google 网站管理员工具,该优化器是优化网站的有效工具。

1.8.5 全面推广网站

网站的大多数外部链接是逐步获得的,人们通过搜索引擎等方式发现有价值的网站时,会主动做链接。Google理解网站管理员想让别人知道其勤劳动的心情。有效地推广新内容有助于感兴趣者尽早发现网站。要把我适可而止的原则,过分推销网站会适得其反。

发布有关新内容或服务的博克。在本网站内发布博克,简单介绍新增加的内容和服务,这是有助于浏览者了解网站新内容的好方法。其他网站管理员会关注的。

别忘记离线推广手段。注重离线推广也是有效果的。如在名片、信签和海报上列出网站链接,也可通过电子邮件给客户发送信息,使他们知道网站上的新内容。了解社会媒体网站,围绕用户交互和共享而建设网站,容易为相关内容找到关注的人或组织。避免面面俱到,不可推广小内容,而应推广大而有趣的内容项,避免为会的关注而对网站实施人为做作。把业务信息添加到Google的本地业务中心上,这有助于客户在Google 地图和web 搜索中了解到你的业务。网站管理员帮助中心有关于推广业务的更多提示。联系与网站相关的团体,总有很多网站的主题与你的主题相似,与这些网站建立联系总是有意的。社团内的热点主题会有助于网站内容建设。避免与主题相关的所有网站建立链接,避免为获得PageRank而非流量而从其他网站购买链接。

1.7 SEO效果检测工具

搜索引擎优化工具覆盖了从设计、建设到优化网站的全过程。

1.7.1 SEO效果检测工具/排名工具

Rank Tracker,检查网站关键字排名的有效工具,使用的是Google、Yahoo和MSN的搜索引擎结果.可以用无限制的关键词创建和复制方案,并跟踪变化动态和发展。如果需要,还支持Google和Yahoo API登录系统.Java运行环境(JRE)。

WebCEO,功能全面的搜索引擎优化程序,比搜索引擎排名提供的信息还要多。

排名监测工具:网站以某一关键词在搜索引擎中的排名。

www.cleverstat.com/Google-monitor.htm,查Google排名。

www.trafficzap.com/keyrank.php,查Google、Yahoo排名。

1.7.2 SEO综合工具

SEO Surf,功能包括关键字分析,SEO网页分析,返回链接管理和搜索引擎分析功能.

Keyword Crawler,分析网站关键词的工具。报告网页使用频率高的关键字,词语密度,Google网页级别,内部和外部的返回链接及不健全的链接。可生成XML格式的网站地图文件。

SEO SpyGlass,调查竞争对手如何获得高的搜索引擎排名。可以显示外部(返回?)链接的数量,URL地址,网页级别,Alexa级别,外部链接的IP地址,网站历史,外部链接的来源,关键词密度等。使用该软件需要java运行环境支持和注册。

1.7.3 网站访问统计工具

查看ALEXA网站访问量全球排名(ALEXA 工具栏下载):

http://download.alexa.com/index.cgi?p=Dest_W_b_40_T1

www.trafficzap.com/sitepopularity.php

Google网站访问统计(Google 分析工具)帮助分析网站访问量:

http://www.google.com/分析工具/(英文版)

  

爱华网本文地址 » http://www.413yy.cn/a/25101011/96411.html

更多阅读

Web文本挖掘技术研究 文本挖掘技术及其应用

Web文本挖掘技术研究王继成 潘金贵 张福炎摘 要 作为从浩瀚的Web信息资源中发现潜在的、有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注.目前,Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多

中英文自动分词技术 中英文分词 python

搜索引擎技术?中英文自动分词技术研究与简单实现概述:本文介绍了在Web搜索引擎中,如何处理中文网页,从中切分关键词的技术。主要介绍了一种基于正/逆向减字最大匹配法,用于我的毕业设计《Web搜索引擎原理与实现》当中。关键词:搜索引擎

asp简介 asp技术简介

ASP(Active ServerPages)是由Microsoft公司推出的支持Internet的动态服务器网页技术,其功能强大,几乎可以支持所有浏览器,因而是目前WEB数据库开发的重要技术之一。本课程是软件技术类专业的必修课程,是Web开发的核心课程之一,也是学习ASP.

o2o平台上客源可靠吗 O2O平台之地图搜索

系列专题:o2o营销模式观察     互联网以及移动互联网的发展改变了很多行业上流客源的渠道分布。过去的消费可能是基于地面搜索以及口碑的传播,而现在消费者通过互联网的几大渠道或者媒介入口,更方便、更快捷、多个角度获得商家或

声明:《web搜索引擎优化技术 网络搜索引擎优化》为网友泪湿了巴黎分享!如侵犯到您的合法权益请联系我们删除