我知道,谷歌的搜索算法主要是基于PageRank的。 但是,它也做分析和使用文档的结构H1
, H2
, title
和其它的HTML标签,以提高搜索结果。
这是什么技术“使用文档结构,以提高搜索结果”的名字?
以及是否有任何学术论文帮我研究这个领域?
,谷歌走的是HTML结构这一事实很好地覆盖在SEO的文章,但是我找不到它的学术论文。
我知道,谷歌的搜索算法主要是基于PageRank的。 但是,它也做分析和使用文档的结构H1
, H2
, title
和其它的HTML标签,以提高搜索结果。
这是什么技术“使用文档结构,以提高搜索结果”的名字?
以及是否有任何学术论文帮我研究这个领域?
,谷歌走的是HTML结构这一事实很好地覆盖在SEO的文章,但是我找不到它的学术论文。
我想,这就是所谓的“语义标记”
[...]语义标记是标记是足够的描述,让我们和我们的程序去识别它,并做出IT决策的机器。 换句话说,标记意味着什么时,我们可以用它识别出来并做有用的事情。 通过这种方式,语义标记比仅仅是描述多。 它成为一个辉煌的机制,允许人和机器“理解”相同的信息。 http://www.digital-web.com/articles/writing_semantic_markup/
这里的一个更实用的物品http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/
SEO已经几乎成了一种信仰对某些人来说,他们沉迷约细枝末节。 坦率地说,我不相信这一切努力是有道理的。
我的建议? 忽略什么所谓的专家说,只是跟随谷歌的指导方针 。
你可能会寻找一个学术的答案,但老实说,这是无法超越的网页索引是如何工作的最基础的一个学术问题。 一个现代化的网页索引和排名算法的现实情况要复杂得多。
你可能想看看前面的一个搜索引擎的作品 。 注意作者的名字。 你也可以阅读谷歌专利申请20050071741 。
这些一般原则之外, 谷歌的搜索算法是不断调整了基于实际的和预期的结果。 确切的运作是讳莫如深只是为了使其难以为人们游戏系统。 许多关于谷歌的搜索算法是如何工作的“意见”或说明的是纯粹的假设。
因此,除了有一个标题,并具有良好和有效的HTML,我不认为你会发现你在找什么。
谷歌很刻意不放弃有关其搜索算法的信息太多,所以它不太可能,你会发现一个definitve答案或学术文章,确认这一点。 如果你是从一个角度SEO角度感兴趣,只写你的网页,以便它们有利于人类和机器人也会喜欢这些。
为了让人类的网页好,你应该使用的标签,如H1,H2等来创建分层页面支出......有点像这样...
H1“联系我们” ...... H2“联系方式” ...... H3“电话号码” ...... H3“电子邮件地址” ...... H2“如何找到我们” ...... .h3“自驾车” ...... H3“火车”
你的问题的难点在于,如果你把东西在你的h1标签希望它会增加在谷歌你的位置,但它并没有与你的页面上的其他内容匹配,你可以看看像你发送垃圾邮件。 同样,如果你的页面是由过多的标题并没有足够的实际内容的,你可以看看像你发送垃圾邮件。 这不是那么简单,添加一个h1和h2标签,你会去了! 这就是为什么你需要编写人,不是机器人网站。
我发现这个文件:
在使用HTML结构,以提高检索新探
但它是一个古老的纸1999年,
还在寻找更近的论文。
退房http://jcmc.indiana.edu/vol12/issue3/pan.html http://www.springerlink.com/content/l22811484243r261/
花了一些时间scholar.google.com可能会帮助你找到你在找什么
您也可以尝试搜索的arXiv的“计算机科学”部分: http://arxiv.org的“搜索引擎”和其他人所说的各种术语。
它包含了许多学术论文,全部免费提供...希望他们中的一些将有关你的研究。 (当然,验证任何文件内容的原则同样适用。)
像克莱说,按照谷歌的指导方针。
我做了一些测试得出这样的标题,图片的alt和H标签的最重要的结论。 另外值得一提的是谷歌的AdSense。 我有一种感觉,如果你实现这些,你的网站增加的行列。
我相信你所感兴趣的东西被称为结构性指印,它经常被用来确定两个结构的相似性。 在谷歌的情况下,将权重应用于不同的标记,并应用到(可能)使用的指纹不同元素的频率秘密算法。 这深深路由信息理论-如果你正在寻找的信息理论的学术论文,我会开始“通信的数学理论”克劳德香农
我也建议看微格式和RDF的。 两者都是用来增强搜索。 这些大多是搜索引擎无关,但也有一些具体的事情为好。 对于HTML内容谷歌的具体指导方针读这个链接 。
简而言之; 非常小心。 在长:
从报价大规模超文本ERB搜索引擎的剖析:
[...]这给了我们一些短语的限制,只要有没有一个特定的词,很多锚搜索。 我们期待更新锚命中存储到允许在位置和docIDhash领域更高的分辨率的方式。 我们使用相对于文档的其余部分字体大小,因为搜索时,你不希望以不同的方式排列,否则相同的文件只是因为文件之一是用较大字体。 [...]
它接着说:
[...] 网络和传统很好的控制集合之间的另一个很大的不同是,有超过几乎什么人都可以把网络上的控制 。 夫妇这种灵活性发布与搜索引擎的流量路由和公司的巨大影响力,其故意操纵搜索引擎的利润成为一个严重的问题,任何东西。 这个问题已经不是传统的封闭的信息检索系统得到解决。 而且,有意思的是元数据的努力基本上都失败,网络搜索引擎,因为它不直接向用户呈现的页面上的任何文本被滥用,以操纵搜索引擎。 [...]
将在网络搜索引擎面临的挑战解决了一个更现代的方式处理这些问题:
[...]网页中的HTML掉入这个文件连续结构的中间,既不靠近自由文本也没有良好的结构化数据。 代替HTML标记提供了有限的结构信息,通常用于控制布局,但提供关于语义信息的线索。 在HTML布局信息似乎用处有限的,特别是相对于包含在像XML语言,可以用来标记内容的信息,但实际上它是元数据不可靠的语料的特别有价值的来源,如网页。 在布局信息的价值的事实,这是对用户可见茎[...]
并补充说:
[...] HTML标签可以分析什么语义信息可以推断出。 除了上面提到的标题标记,有控制字体面(粗体,斜体),大小和颜色的标签。 这些可以被分析,以确定哪些单词笔者认为在文档中尤为重要。 HTML,或非常接近映射到的显示内容有任何标记语言的一个优点是,有滥用的机会较小:这是很难用HTML标记以鼓励搜索引擎的方式来思考标记的文本是非常重要的,而用户似乎并不重要。 例如,标签的固定含义是指在HI方面的任何文本将突出显示在呈现的网页上,因此它是安全的搜索引擎,以高度衡量这个文本。 然而,HTML标记的可靠性是由级联其中标签名称从它们表示分离样式表下降。 已经有研究从什么结构HTML中提取信息确实possess.For例如,[查克拉巴蒂等人,2001; 查克拉巴蒂,2001]创建的HTML页面的DOM树,并利用此信息在折痕主题提取,基于链接分析技术的准确性。
有一个现代化的搜索引擎需要打击,例如网络垃圾邮件和黑客SEO方案会带来很多问题。
但即使是在一个完美的世界,例如,从指数消除害群之马后,网络仍然是一个完全混乱,因为没有人有相同的结构。 有地图,游戏,视频,照片(Flickr的),和很多很多的用户生成的内容。 换句话说,网络仍然是非常难以预测的。
为了保持它的痛苦简单。 让您的信息架构的逻辑。 如果用户理解的最重要的元素与标题突出和逻辑分组,然后将文档更容易使用的信息处理算法来解释。 奇妙的是,这也将是用户更容易理解。 还记得搜索引擎的算法被人们试图解释语言编写。
基本过程是:写的很好的结构HTM L -使用标题标签来表示页面上的最关键的要素。 使用基于您的信息结构的逻辑标签。 列出清单,标头主要议题。
供应相关ALT标记和名称的任何视觉元素,然后用简单的CSS来安排这些元素。
如果网站能够为用户和包含相关信息,你不要冒险做一个黑名单垃圾邮件发送者和搜索引擎的算法,将有利于你的页面。
我真的很喜欢这本书超越CSS的结构合理的HTML的干净的解释。
我建议尝试谷歌学者作为你的一条大街上寻找学术文章时
语义搜索
我发现有趣的是 - 没有meta关键字,也没有提供说明 - 在这样的scenatio:
<p>Some introduction</p>
<h1>headline 1</h1>
<p>text for section one</p>
始终把“为第一个文本”显示在搜索结果页面上。
使用名为CANONICAL新标签现在也可使用,从谷歌,请点击这里