欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

SEO的艺术:文档剖析和语义联络

发布时间:2018-06-29 文章来源:本站  浏览次数:3028

2.3.1 文档剖析和语义联络

在文档剖析(document analysis)中,查找引擎重视于文档重要区域中是否找到查找词,这些区域包括标题、元数据、标题标记和正文。它们还企图依据文档剖析以及其他许多种要素主动衡量文件质量。

关于当今的查找引擎而言,仅仅依托文档剖析是不行的,所以它们还重视语义的联络性。语义联络(semantic connectivity)指的是常常彼此相关的单词或许短语。例如,假如你看到Aloha译注1一词,就会联想到夏威夷,而不是佛罗里达。查找引擎主动地构建自己的同义词库和词典,协助它们断定某些词和主题之间的相关。经过扫描自己的很多Web内容数据库,查找引擎可以运用含糊调集理论和某些公式将词语联络起来,开端像人类一样了解网页/网站。

专业的SEO人员不需求运用语义联络衡量东西来优化网站,可是高档的从业者会寻求每一个可供运用的要素,语义联络衡量对以下这几个方面可能有所协助。

衡量方针的要害短语。

衡量有关某个主题的页面上应该包括的要害短语。

衡量其他高排位网站/网页上文本之间的联络。

寻觅供给"相关"主题链接的页面。

这些材料来历的技能性很强,可是SEO专家只需求了解获取重要信息的原则。重要的是,尽管IR范畴包括数千个技能性用语,这些术语往往难以了解,可是即使是SEO新手也可以剖析和了解。

下面是IR范畴的常见查找类型。

附近查找

附近查找用查找短语的顺序寻觅相关的文档。例如,当查找"sweet German mustard"(德国甜芥末)时,你指定的只有一个精确的附近查找。假如去掉引号,查找词的附近性对查找引擎依然很重要,可是查找引擎回来的内容就不会精确匹配查找短语,例如,Sweet Mustard-German.

含糊逻辑

从技能上讲,含糊逻辑指的是无法仅用真/假来区分的逻辑,常见的比如之一是某天是不是晴天(例如,有50%的云,是否依然可以称为晴天)。含糊逻辑是查找引擎用于检测和处理拼写错误的手法之一。

布尔查找

布尔查找运用布尔运算符,如AND、OR和NOT.这类逻辑用于扩展或许限制查找中回来的文档。

查找词加权

查找词加权指的是特定查找词对查询的重要程度。原理是为特定的词语赋以比其他词更高的权重,以得到更好的查找成果。例如,在查询中的单词the得到的权重很小,由于它几乎在一切英语文档中都会呈现,没有什么独特性,对文档的挑选没有任何协助。

IR模型(查找引擎)运用含糊调集理论(Lotfi Zadeh博士于1969年创建的含糊逻辑分支)发现两个单词之间的语义联络。和用同义词库或许词典揣度两个词是否相关不同,IR体系可以运用巨大的内容数据库推测出词语之间的联络。

这一进程听上去好像很复杂,可是原理却很简单。查找引擎需求依靠机器逻辑(真/假,是/否等)。机器逻辑关于人有一些优势,可是不像人那样拿手处理某些类型的问题。对人来说很直观的工作,关于计算机来说却很难了解。例如,桔子和香蕉都是生果,可是两者不都是圆的,这一点对人来说很直观。

关于机器来说,要了解这一点以及其他类似的概念,语义联络是要害。Web上的很多人类知识可以在体系的索引中获得,并从中剖析人类现已树立的联络。因而,机器可以经过扫描索引中呈现的"香蕉"和"桔子",注意,"圆形"和"香蕉"不常常一同呈现,而"桔子"和"圆形"常常一同呈现,然后断定桔子是圆的,而香蕉不是圆的。

这就是含糊逻辑的用武之地。运用逻辑调集理论协助计算机经过衡量两个词一同呈现的频率和语境,就能了解两个词的相关性。

在此基础上扩展起来的相关概念之一是潜在语义剖析(Latent Semantic Analysis,LSA)。思路是经过对几十亿个各种网页(索引)的研讨,查找引擎可以"学习"到哪些词是相关的,哪些概念彼此之间有联络。

例如,运用LSA,查找引擎可以发现前往"zoo"(动物园)的"trips"(游览)往往包括"viewing wildlife"(观看野生动物)和"animals"(动物),这可能是"tour"(游览)的一部分。

在Google上测验查找"~zoo ~trips"(波涛号是一个查找运算符,本章后边将有更多的相关内容)。注意,回来成果中粗体的单词与上一段中说到的那些单词相符。Google识别出索引中常常一同呈现(一同呈现、在同一个网页中呈现或许方位挨近)的词语,并将"相关"的词语显现为粗体。

有些方式的LSA计算成本太高,无法在实践中运用。例如,现在的查找引擎无法像较新的MIT学习型计算机那样聪明地"学习".例如,它们无法经过索引学习到"斑马"和"山君"都是带有斑纹的动物,尽管它们可能发现"斑纹"和"斑马"比"斑纹"和"鸭子"在语义上有更多联络。

潜在语义索引(Latent Semantic Indexing ,LSI)更进一步,运用语义剖析来识别相关的网页。例如,查找引擎可能注意到某个网页谈及doctor(医师或许博士),另一个网页谈及physicians(医师),并且依据这些页面中常见的其他单词断定这些页面之间的联络。成果是,引证doctor的页面在查找physician时也可能呈现。

查找引擎在此类技能上的出资现已持续了很多年。

从SEO方面看,这些使用让我们认识到查找引擎是怎么发现网络上的单词、短语和概念之间的联络的。跟着语义联络越来越成为查找引擎算法的重要组成部分,可以预见,页面、网站和链接的主题将会越来越受到重视。我们应该认识到,未来查找引擎了解概念主题以及发现不适合网站结构的内容、链接和页面的才能将更为重要。

上一条:SEO的艺术:衡量内容质...

下一条:SEO的艺术:断定查找者...