845
845robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站收到过多请求;它并不是一种阻止 Google 抓取某个网页的机制。若想阻止 Google 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页。
如果您使用了 Wix 或 Blogger 等 CMS,则可能无需(或无法)直接修改 robots.txt 文件。您的 CMS 可能会通过显示搜索设置页面或借用其他某种方式,让您告知搜索引擎是否应抓取您的网页。
如果您想向搜索引擎隐藏/取消隐藏您的某个网页,请搜索以下说明:如何在 CMS 上修改网页在搜索引擎中的可见性(例如搜索“Wix 向搜索引擎隐藏网页”)。
robots.txt 文件主要用于管理流向您网站的抓取工具流量,通常用于阻止 Google 访问某个文件(具体取决于文件类型):
robots.txt 对不同文件类型的影响
网页
对于网页(包括 HTML、PDF,或其他 Google 能够读取的非媒体格式),您可在以下情况下使用 robots.txt 文件管理抓取流量:您认为来自 Google 抓取工具的请求会导致您的服务器超负荷;或者,您不想让 Google 抓取您网站上的不重要网页或相似网页。
警告:如果您不想让自己的网页(包括 PDF 和受 Google 支持的其他基于文本的格式)显示在 Google 搜索结果中,请不要将 robots.txt 文件用作隐藏网页的方法。
如果其他网页通过使用说明性文字指向您的网页,Google 在不访问您网页的情况下仍能将其网址编入索引。如果您想从搜索结果中屏蔽自己的网页,请改用其他方法,例如使用密码保护或 noindex。
如果您使用 robots.txt 文件阻止 Google 抓取您的网页,则其网址仍可能会显示在搜索结果中,但搜索结果不会包含对该网页的说明。 而且,内嵌在被屏蔽的网页中的图片文件、视频文件、PDF 文件和其他非 HTML 文件都会被排除在抓取范围之外,除非有其他允许抓取的网页引用了这些文件。如果您看到了这样一条与您网页对应的搜索结果并想修正它,请移除用于屏蔽该网页的 robots.txt 条目。如果您想从 Google 搜索结果中完全隐藏该网页,请改用其他方法。
媒体文件
您可以使用 robots.txt 文件管理抓取流量并阻止图片、视频和音频文件出现在 Google 搜索结果中。这不会阻止其他网页或用户链接到您的图片/视频/音频文件。
资源文件
如果您认为在加载网页时跳过诸如不重要的图片、脚本或样式文件之类的资源不会对网页造成太大影响,您可以使用 robots.txt 文件屏蔽此类资源。不过,如果缺少此类资源会导致 Google 抓取工具更难解读网页,请勿屏蔽此类资源,否则 Google 将无法有效分析有赖于此类资源的网页。
在创建或修改 robots.txt 文件之前,您应了解这种网址屏蔽方法的限制。根据您的目标和具体情况,您可能需要考虑采用其他机制来确保搜索引擎无法在网络上找到您的网址。
如果您确定需要一个 robots.txt 文件,请了解如何创建 robots.txt 文件。如果您已有 robots.txt 文件,请了解如何更新它。
robots.txt 简介由“聚企互联“为您提供!