如何查找网站上的所有子域名并检查内部链接
有几种不同的方法可以查找网站上的所有子域。
方法 1
使用 Screaming Frog 识别给定站点上的所 印度尼西亚数据 有子域,转到配置>蜘蛛并确保选择了抓取所有子域。与抓取整个网站一样,这将有助于抓取与网站抓有子域名并检查内部链接取相关的任何子域。但是,这不会找到未链接的子域。
方法 2
使用 Google(Scraper Chrome 浏览器扩展)识别所有已索引的子域,我们可以找到给定域的所有已索引的子域。
步骤1:
开始在搜索引擎中输入:site:Google 搜索运算 优惠文章的主要功能 符以有子域名并检查内部链接将结果限制到您的特定域。然后使用 -inurl 搜索运算符通过删除主域来缩小搜索结果。将出现已被 Google 索引的子域名列表,其中不包括主域名。
第2步:
使用扩展刮刀将所有结果提取到 Google Sheet 中。只需右键单有子域名并检查内部链接击搜索结果中的 URL,单击“Scrape Similar”并导出到 Google Doc。
步骤3:
在您的 Google Doc 中,使用以下函数将 UR有子域名并检查内部链接L 修剪为子域:
=LEFT(A2,搜索(“/”,A2,9))
基本上,上述公式应该有助于删除网站末尾的任何有子域名并检查内部链接子目录、页面或文件名。此公式可防止 Excel 导出最后一个斜杠左边的任何内容。起始数字 9 很重要,因为我们要求它在第 9 个字符后开始寻找斜线“/”。这构成了协议:https://,长度为 8 个字符。
复制列表并将其上传到列表模式中的 Screaming Frog – 您可以手动粘贴域列表,使用粘贴功能或上传 CSV。
方法 3
将根域名 URL 输入工具中,查找可能存在于同一 IP 地址上的站点。您还可以使用专门设计用于查找子域的搜索引擎,例如 FindSubdomains。创建一个免费帐户登录并导出您的子域名列表。然后使用列表模式将列表加载到 Screaming Frog 中。
一旦 SEO Spider 完成其工作,您将能够看到状态代码,以及 加拿大數據 子域主页上的任何链接、锚文本和重复的页面标题等。
如何扫描在线商店或其他大型网站
Screaming Frog 最初的设计目的并不是抓取数十万个页面,但随着几次更新,它的功能日益丰富。
Screaming Frog 的最新版本已更新,可以依靠数据库存储进行抓取。在 11.0 版本中,Screaming Frog 允许用户将所有数据保存到数据库的磁盘中,而不是仅仅将其存储在 RAM 中。这使得只需单击一下即可扫描非常大的站点成为可能。
在 12.0 版本中,扫描会自动将爬网保存到数据库。这样就可以通过顶级菜单中的文件 > 爬网来访问和打开它们(如果您想知道打开命令去了哪里?)
虽然使用数据库爬取可以帮助 Screaming Frog 更好地管理大量信息,但它肯定不是爬取大型网站的唯一方法。
首先,你可以增加内存分配在 SEO Screaming Frog 中。
其次,您可以按子目录细分扫描,或使用“包含/排除”设置仅扫描站点的某些部分。
第三,您可以选择不扫描图像,JavaScript,CSS和flash。通过在配置菜单中取消选择这些选项,您可以通过仅扫描 HTML 来节省内存。
提示:直到最近,Screaming Frog SEO Spider 在抓取大型网站时可能会暂停或冻结。现在数据库存储是默认设置,您可以恢复爬网以从上次中断的地方继续。此外,您还可以访问队列中的 URL。这可以让您了解在抓取大型网站时可能想要排除的任何其他参数或规则。