May 9, 2020 Viewed: 2149 Tag: 谷歌seo

谷歌获取引擎索引防止爬网

领先的搜索引擎，例如Google，必应和Yahoo!。，请使用搜寻器查找其算法搜索结果的页面。从其他搜索引擎索引页面链接的页面无需提交，因为它们是自动找到的。在雅虎目录和DMOZ这两个主要目录分别于2014年和2017年关闭，都需要人工提交和人工编辑审查。Google提供了Google Search Console，为此提供了XML Sitemap可以免费创建和提交feed，以确保找到所有页面，尤其是除了URL提交控制台之外，还可以通过自动跟随链接来发现无法找到的页面。 Yahoo! 以前运营付费提交服务，保证爬网的每次点击费用 ;但是，这种做法在2009年停止了。

搜索引擎爬网程序在爬网网站时可能会考虑许多不同的因素。并非每个页面都被搜索引擎索引。页面与站点根目录的距离也可能是页面是否被爬网的因素。

今天，大多数人都在使用移动设备在Google上进行搜索。2016年11月，谷歌宣布对爬网网站的方式进行了重大更改，并开始将其索引设置为移动优先，这意味着给定网站的移动版本将成为Google纳入其索引的起点。在2019年5月，Google将其抓取工具的渲染引擎更新为最新版本的Chromium（发布时为74）。Google表示，他们会定期将Chromium渲染引擎更新为最新版本。在2019年12月，谷歌开始更新其爬虫的User-Agent字符串，以反映其渲染服务使用的最新Chrome版本。延迟是为了让网站管理员有时间更新响应特定漫游器用户代理字符串的代码。Google进行了评估，并感到影响很小。

为了避免搜索索引中出现不需要的内容，网站管理员可以指示蜘蛛不要通过域根目录中的标准robots.txt文件对某些文件或目录进行爬网。此外，通过使用特定于机器人的元标记（通常<meta name =“ robots” content =“ noindex”>），可以将页面从搜索引擎数据库中明确排除。当搜索引擎访问网站时，位于根目录中的robots.txt是第一个抓取的文件。然后，robots.txt文件将被解析，并将指示漫游器有关哪些网页将不被爬网。由于搜索引擎爬网程序可能会保留此文件的缓存副本，因此它有时可能会爬网，网站管理员不希望对其进行爬网。通常阻止爬网的页面包括登录特定页面（例如购物车）和用户特定内容（例如内部搜索的搜索结果）。2007年3月，Google警告网站管理员，他们应防止将内部搜索结果编入索引，因为这些页面被视为搜索垃圾邮件。

多种方法可以提高网页在搜索结果中的知名度。在同一网站的页面之间交叉链接以提供指向重要页面的更多链接可以提高其可见性。编写包含经常搜索的关键字词组的内容，以便与各种各样的搜索查询相关，这往往会增加流量。更新内容，以使搜索引擎经常向后爬，可能会给站点带来额外的负担。将相关的关键字添加到网页的元数据中，包括标题标签和元描述，将倾向于提高网站搜索列表的相关性，从而增加流量。URL规范化使用规范链接元素或301重定向通过多个URL访问的网页的数量，可以帮助确保指向不同版本URL的链接均计入该页面的链接流行度得分。

谷歌获取引擎索引 防止爬网

谷歌获取引擎索引防止爬网