对于 WordPress 网站来说,一个良好的 robots.txt 文件应该能够保护用户数据和管理后台,同时允许搜索引擎爬取公开的内容。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author/
Disallow: /users/
Disallow: /xmlrpc.php
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Sitemap: https://socabc.com/sitemap.xml
代码解释:
User-agent: * 表示这些规则适用于所有搜索引擎爬虫。
Disallow: 指定了不允许爬取的目录和文件:
/wp-admin/: 管理后台
/wp-includes/: WordPress 核心文件
/wp-content/plugins/: 插件目录
/wp-content/themes/: 主题目录
/wp-login.php 和 /wp-register.php: 登录和注册页面
/author/ 和 /users/: 用户信息页面
/xmlrpc.php: XML-RPC 接口文件
Allow: 指定了允许爬取的内容:
/wp-admin/admin-ajax.php: 允许 AJAX 请求
这个文件主要用于处理 WordPress 的 AJAX 请求。
它通常不直接包含文章内容,而是用于动态加载数据或执行后台操作。
允许爬取这个文件主要是为了不影响某些依赖 AJAX 的网站功能。
/wp-content/uploads/: 允许爬取上传的媒体文件
这个目录通常存储上传到 WordPress 的媒体文件,如图片、视频、文档等。
虽然它不直接包含文章的文本内容,但可能包含文章中使用的图片或其他媒体文件。
允许爬取这个目录是为了让搜索引擎能够索引你的媒体内容,这对于图片搜索等功能很重要。
Sitemap: 指定了站点地图的位置,方便搜索引擎找到你的内容。
注意事项:
替换 https://socabc.com/sitemap.xml 为你的实际站点地图 URL。
如果你有特定的内容页面或分类不想被索引,也可以添加到 Disallow: 列表。
定期检查你的 robots.txt 文件,确保它反映了你网站的最新结构和需求。
robots.txt 只是一个建议性的文件,并不能完全阻止恶意爬虫。对于敏感数据,应该使用更强大的保护措施。
将这个文件保存为 robots.txt 并上传到你的 WordPress 网站的根目录。这应该能有效地保护用户数据,同时允许搜索引擎正常索引你的公开内容。