Home Feed Your MindSEOOn-Page SEO Xin chào, mình là Robots.txt và Meta Robot

Xin chào, mình là Robots.txt và Meta Robot

by Ngoc Anh

Phần 1: Robots.txt 

Hello, robots.txt  là một trong những thứ mình yêu thích nhất, vì nó vô cùng quyền năng. Cảm giác như kiểu bạn có thể hô mưa, gọi gió, điểu khiển tất cả các loại bots chỉ bằng 1 file txt nhỏ xinh ném lên host ý :d 

1. Robots.txt là gì

Robots.txt được viết bởi webmaster (hoặc những đứa làm SEO như mình), để ra lệnh cho bots được/không được phép crawl tài nguyên nào hoặc phải trì hoãn bao nhiêu thời gian trước khi tiến hành crawls. 

Thông thường, robots.txt để chặn các bots không crawl một số tài nguyên cần bảo mật thông tin cao. 

2. Cách tìm robots.txt 

Có 3 cách để tìm: 

  • Lên host và search file “robots.txt” và tài về máy 
  • Gõ thêm đuôi “/robots.txt” sau domain website trên thanh browsers. Ví dụ: https://vyngocanh.com/robots.txt 
  • Sử dụng tester của Search Console

Nếu bạn không thấy, tức là website của bạn chưa có file này. Nếu bạn tìm trên website đối thủ không thấy, hoặc hiện lên 1 trang với ndung “trang này cố tình được để trống” (this page is intentionally left blank) thì có thể họ đã giấu đi rồi. 

3. Hiểu cấu trúc và cách viết robots.txt 

3.1) Cấu trúc file 

Phần 1: User-agent: là nơi bạn gõ tên bots và lệnh sẽ chỉ áp dụng với những bots đó 

Phần 2: (Đoạn còn lại): nơi bạn gõ lệnh 

Phần 3: sitemap, thường thì mn hay paste thêm link sitemap vào cuối cùng để bot crawl 

3.2) Cấu trúc căn bản nhất 

User-agent: [user-agent name]

Disallow: [URL string not to be crawled]

Nếu có nhiều bots, thì viết tách ra. Khoảng trống sẽ tách các lệnh riêng rẽ với nhau 

3.3) File Robots.txt làm được những gì 

  • Allow: cho phép crawl
  • Disallow: chặn/chặn ngăn crawl 
  • Crawl-delay: dừng bao nhiêu thời gian trước khi crawl 

3.4) Một số ký tự, câu lệnh cần hiểu: 

Ký tự Ý nghĩa
User-agent: * tất cả các bot đều phải theo lệnh bên dưới
Disallow: không block, crawl trang nào cũng được
Disallow: / không crawl bất cứ trang nào, kể cả trang chủ
Disallow: /folder-name/ ngăn bot không crawl 1 folder cụ thể trên page.

Ví dụ: wordpress thường chặn folder /wp-admin/

User-agent: googlebot

Disallow: /directory1/

Disallow: /directory2/

Allow: /directory2/subdirectory1/

ngăn không cho google bot crawl các trang .com/directory1/example-1 và

.com/directory2/example-2 nhưng cho phép crawl .com/directory2/subdirectory1/expample2

User-agent: *

Disallow: /private_file.html

ngăn không crawl 1 trang cụ thể bằng cách liệt kê phần đuôi url của trang đó, sau dấu “/”
User-agent: *

Disallow: /images/dogs.jpg

ngăn không crawl 1 ảnh cụ thể
User-agent: Googlebot

Disallow: /*.gif$

ngăn không crawl các file thuộc 1 loại file cụ thể (trong ví dụ này là dạng file “gif”)
User-agent: Googlebot

Disallow: /*.xls$

ngăn không crawl các url có kết thúc bằng một nhóm ký tự cụ thể (trong ví dụ này là kết thúc bằng .xls)

Nhìn phức tạp, nhưng bạn chỉ cần hiểu cốt lõi như sau: 

* : nghĩa là tất cả
$: nghĩa là kết thúc 

=> Sau đó, tự sáng tác ra công thức để ra lệnh cho bots. See? Đó là lý do mình nói tại sao Robots.txt vô cùng quyền năng!!

Bạn có thể đánh sập seo của 1 website bằng cách: 

User-agent: *
Disallow: /

:)) Please, don’t do that

4. Fun-fact về robots.txt 

  • Để được tìm thấy, robots.txt cần được đặt ở đầu tiên trong directory và phải ở main directory (root directory) 
  • Phải được đặt tên chính xác là “robots.txt”, không phải Robots.txt hay robots.TXT
  • nhiều bots cố tình “bơ” robots.txt, chủ yếu là bọn bot đạo tặc, malware …
  • Nên paste thêm sitemap (tất cả sitemap cần thiết) vào cuối robots.txt để bots nhanh chóng biết được vị trí sitemap của bạn 

Phần 2: Meta Robot 

Meta Robot là gì?

Meta Robot cũng là file ra lệnh cho bots có index, follow 1 page nào đó không.

Phân biệt Meta Robot và Robots.txt 

  • Robots.txt: cấp độ server, tức là bạn có thể áp dụng lệnh này trên nhiều trang, nhiều thư mục hoặc toàn bộ website. Lệnh: Disallow (chặn không crawl)hoãn bao nhiêu giây trước khi crawl 
  • Meta Robot: cấp độ trang. Lệnh: follow-no follow (có/không cho phép  crawl) và index-noindex (có/không index 1 page) 

Khi bạn view source 1 page bất kỳ, bạn sẽ thấy Meta Robot thường nằm ngay phần đầu của <head> 

<meta name=”robotscontent=”index,follow“>

Quan trọng: 

Điều gì xảy ra  nếu bạn đồng thời: 

  • Robot.txt: disallow trang A 
  • Meta Robot (trang A): follow  no-index 

=> Trang A đó vẫn index trên trang kết quả tìm kiếm, và hiển thị dưới dạng không tên không tuổi (không tiêu đề, không meta …) do: 

Bots bị chặn không crawl trang A, nên nó không đọc được đoạn “no-index”
=)) funny nhỉ :d ai cẩn thận quá chặn cả 2 robots sẽ sôi hỏng bỏng không 😀 

Cách làm đúng để no-inde với Meta Robot 

  • Robots.txt: allow 
  • Meta robots: follow, no-index

You may also like

Leave a Comment