Table of Contents
博客已经建立十多年了,SEO优化还是头一次。事情起因是我想要禁止Google索引首页以外的分页内容,比如:index2.html、index3.html,所以我询问了 Gemini 如何在 robots.txt 里实现该功能,Gemini 确实给了我相应的解决方式
User-agent: * Allow: /index.html$ Disallow: /index*.html
但同时它也建议我不要这么做,⚠️ 重要SEO风险提示
虽然这样做能满足你“禁止索引分页”的技术需求,但在 SEO 策略上,直接在 robots.txt 禁止分页通常是不推荐的,原因如下:
导致孤岛页面(Orphan Pages): 如果爬虫无法访问
/index2.html,它就无法抓取第 2 页上列出的文章或商品链接。这意味着你网站第 2 页之后的所有内容可能都无法被搜索引擎发现和收录。权重无法传递: 分页通常用于传递网站权重。阻断爬虫会导致权重无法流动到深层页面。
更好的替代方案
如果你只是不希望分页出现在搜索结果中,但希望爬虫能抓取分页里的内容,建议使用
meta标签 而不是robots.txt:在
/index2.html,/index3.html等页面的head区域加入:<meta name="robots" content="noindex, follow">
其它需要添加的 meta 标签(以下内容基于Gemini的回答)
基础核心类 (Technical & SEO)
这些是网站正常运行和被收录的基础,缺一不可。
-
字符编码 (Charset): 防止网页出现乱码,确保浏览器正确识别中文。
<meta charset="UTF-8">
-
视口设置 (Viewport): 这是移动端 SEO 的核心。 它告诉浏览器如何调整页面的尺寸和缩放。如果不加,手机打开网页字体会非常小,Google 会判定为“移动端不友好”而降低排名。
<meta name="viewport" content="width=device-width, initial-scale=1.0">
-
页面描述 (Description): 这是搜索结果中标题下方的那段黑色小字。 要点: 包含品牌名、核心业务、优势,并带有号召性用语。长度控制在 150 字符(英文)或 80 字(中文)左右。
<meta name="description" content="[品牌名]是全球领先的在线教育平台,提供编程、设计、营销等实战课程。新用户注册立享7天免费试学,立即开启你的职业进阶之路!">
-
爬虫控制 (Robots):
<meta name="robots" content="index, follow">
-
index: 允许收录本页。 -
follow: 允许顺着本页链接爬取更多页面。
-
社交分享类 (Open Graph & Twitter)
当你的首页链接被分享到 微信、Facebook、Twitter、Discord 时,这些标签决定了显示的卡片样式(标题、简介、缩略图)。如果没有这些,分享出去可能只有一个光秃秃的链接。
-
Open Graph (通用协议)
<meta property="og:title" content="[品牌名] - 让学习更简单的在线课堂"> <meta property="og:description" content="加入超过100万学员的社区,探索500+门专业课程。"> <meta property="og:url" content="https://www.example.com/"> <meta property="og:image" content="https://www.example.com/images/share-cover.jpg"> <meta property="og:type" content="website">
-
Twitter Card (推特专用)
<meta name="twitter:card" content="summary_large_image"> <meta name="twitter:title" content="[品牌名] - 官方网站"> <meta name="twitter:description" content="这里填入简短的品牌介绍..."> <meta name="twitter:image" content="https://www.example.com/images/twitter-share.jpg">
极其重要的辅助标签
虽不是 meta,但必须放在 head 里
-
规范链接 (Canonical Link)
这是首页 SEO 的救命稻草。 首页通常有多个入口,比如:
-
example.com -
www.example.com -
www.example.com/index.html
如果不加
canonical标签,搜索引擎可能认为这是三个重复的网站,分散权重。<link rel="canonical" href="https://www.example.com/" />
注意:必须指向你希望作为唯一标准的那个 URL(通常带
https和www,且不带index.html)。 -
-
网站图标 (Favicon)
<link rel="icon" href="/favicon.ico" type="image/x-icon">
不需要添加的标签 (避坑指南)
<meta name="keywords" content="SEO, 优化, 排名...">
原因: Google 早在 10 多年前就宣布完全忽略这个标签。现在添加它不仅没用,还等于把你的关键词策略直接暴露给竞争对手看。
知识共享署名-非商业性使用-相同方式共享4.0国际许可协议