Robots.txt – Hướng dẫn cách tạo file robots.txt đơn giản

Bạn đã bao giờ nghe đến robots.txt và tự hỏi nó áp dụng như thế nào cho website của bạn chưa?

Robots.txt cực kỳ hữu ích cho chiến dịch SEO của bạn.

Tin tôi đi.

File robots.txt – Đây là cách mà tôi dùng để kiểm soát, “thao túng” các công cụ tìm kiếm xem, truy cập và lập chỉ mục trang web của tôi. 

Trong bài viết này, tôi sẽ giúp bạn biết được những kiến thức hữu ích về robots.txt. 

  • Robots.txt là gì?
  • Tại sao file robots.txt lại quan trọng?
  • Cách tạo file robots.txt đơn giản
  • Một số lưu ý cần biết
  • ….

Cùng khám phá nhé!

File robots.txt là gì?

Robots.txt là một file văn bản có hướng dẫn giúp cho trình thu thập dữ liệu của các công cụ tìm kiếm biết được có thể truy cập vào những url nào trên trang web của bạn. 

Mục đích cốt lõi của file robots.txt là ngăn chặn trình thu thập dữ liệu của các công cụ tìm kiếm thu thập thông tin và lập chỉ mục trang web. 

Bạn có thể xem file robots.txt của bất kỳ trang web nào bằng cách search trên Google với URL: 

https://[yourdomain]/robots.txt

Trong đó: yourdomain là url website mà bạn cần check file robot.txt.

Ví dụ: Đây là file robots.txt của Facebook

 Đây là file robots.txt của Facebook

File robots.txt thường được lưu trữ trong thư mục gốc ở cPanel của trang web. 

Ví dụ: File robots.txt cơ bản trông giống như sau:

1User-agent: [User-agent name]
2Disallow: [URL string not to be crawled]
3Allow: [URL string to be crawled]
4Allow: [URL string to be crawled]
5Sitemap: [URL of your XML Sitemap]

Kích thước của 1 file robots.txt nên nằm trong khoảng 500kb và John Mueller đã làm rõ vấn đề này. Anh ấy nói rằng:

Nếu bạn có một file robots.txt khổng lồ, hãy nhớ rằng Googlebot sẽ chỉ đọc 500kB đầu tiên. Nếu robots.txt của bạn lớn hơn, nó có thể dẫn đến việc một dòng bị cắt bớt theo cách không mong muốn. Giải pháp đơn giản là giới hạn file robots.txt của bạn ở kích thước hợp lý.

John Mueller

Tại sao file robots.txt lại quan trọng

Khi không có file robots.txt, trình thu thập dữ liệu của công cụ tìm kiếm sẽ cho rằng chúng có thể thu thập thông tin và lập chỉ mục bất kỳ trang nào mà chúng tìm thấy trên website của bạn.

Vì vậy, đây là những lý do chính mà bạn nên sử dụng robots.txt

Không cho trình thu thập dữ liệu lập chỉ mục các trang riêng tư

Bạn có các trang trên website của mình và bạn không muốn các trang đó được lập chỉ mục. Và robots.txt sẽ giúp bạn chặn bot thu thập dữ liệu các trang đó.

Ví dụ:

Các trang đăng nhập, những trang này cần phải tồn tại. Nhưng bạn không muốn những người không có quyền đăng nhập vào website của mình. Đây là trường hợp bạn sử dụng robots.txt để chặn các trang này khỏi trình thu thập thông tin của công cụ tìm kiếm.

Cải thiện tốc độ thu thập dữ liệu trang web

Tôi tin chắc rằng, các bạn sẽ không quan tâm đến tốc độ thu thập dữ liệu trang web của trình thu thập dữ liệu.

Tuy nhiên, đối với những trang web lớn, có quá nhiều dữ liệu. Thì đây là vấn đề bạn nên lưu tâm. Và các bot của công cụ tìm kiếm có giới hạn thu thập dữ liệu cho mỗi trang web.

Điều này có nghĩa là trình thu thập dữ liệu sẽ thu thập thông tin một số trang nhất định trong một phiên thu thập. Nếu nó không hoàn thành việc thu thập thông tin tất cả các trang trên trang web của bạn, thì nó sẽ quay lại và tiếp tục thu thập thông tin trong phiên tiếp theo.

Điều này có thể làm chậm tốc độ lập chỉ mục trang web của bạn.

Bạn có thể khắc phục điều này bằng cách không cho phép bot tìm kiếm cố gắng thu thập dữ liệu các trang không cần thiết trên trang web của bạn. 

Bằng cách không cho phép các trang không cần thiết, bạn tiết kiệm được thời hạn thu thập thông tin của mình. Điều này giúp các công cụ tìm kiếm thu thập thông tin nhiều trang hơn trên trang web của bạn và lập chỉ mục chúng nhanh nhất có thể.

Gửi sitemap XML cho Google

Đây là một điểm khá quan trọng, điều này sẽ giúp cho các trình thu thập dữ liệu biết sitemap xml của bạn để các công cụ tìm kiếm tìm, thu thập thông tin và lập chỉ mục tất cả nội dung trang web của bạn nhanh chóng.

Ngăn chặn bot thu thập các trang trùng lặp

Nếu trên trang web của bạn có các trang trùng lặp, bạn có thể sử dụng lệnh “Disallow” để ngăn chặn việc thu thập dữ liệu, lập chỉ mục và xếp hạng trang đó.

Lưu ý rằng mặc dù Google thường không lập chỉ mục các trang web bị chặn trong robots.txt, nhưng không đảm bảo rằng nó sẽ bị loại trừ khỏi kết quả tìm kiếm.

Nếu trang đó nhận được liên kết trỏ đến, ngay cả khi nó bị chặn bởi robots.txt, vẫn có thể được lập chỉ mục. 😂

Bạn có thể kiểm tra xem bạn đã lập chỉ mục bao nhiêu trang trong Google Search Console.

em bạn đã lập chỉ mục bao nhiêu trang trong Google Search Console.

Nếu bạn thấy các url đã được lập chỉ mục, lẽ ra không nên được lập chỉ mục thì bạn nên chỉnh sửa lại file robots.txt cho trang web.

Hướng dẫn cách tạo file robots.txt

Các thành phần trong file robots.txt

Đây là phần cơ bản của file robots.txt:

Tác nhân người dùng: [Mã nhận dạng bot]

[chỉ thị 1]

[chỉ thị 2]

[chỉ thị ...]

Tác nhân người dùng: [Một mã định danh bot khác]

[chỉ thị 1]

[chỉ thị 2]

[chỉ thị ...]

Sơ đồ trang web: [Vị trí URL của sơ đồ trang web]

User-agent (Tác nhân người dùng)

Mỗi công cụ tìm kiếm xác định chính nó với một tác nhân người dùng khác nhau. Bạn có thể đặt tùy chỉnh cho từng hướng dẫn này trong file robots.txt của mình. Có hàng trăm tác nhân người dùng, và dưới đây là một số tác nhân hữu ích cho SEO:

  • Google: Googlebot
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • Duck Duck Go: DuckDuckBot
  • …..

Danh sách các tác nhân người dùng của Google bạn có thể xem qua nhé!

Cú pháp:

User-agent: [Mã tác nhân người dùng]

Lưu ý: Tất cả các tác nhân người dùng đều phân biệt chữ hoa chữ thường trong file robots.txt. 

Sử dụng ký tự đại diện dấu sao (*) để gán chỉ thị cho tất cả tác nhân người dùng.

Chỉ thị

Chỉ thị là các quy tắc mà bạn muốn các tác nhân người dùng đã khai báo phải tuân theo.

Dưới đây là các chỉ thị mà Google hiện đang hỗ trợ:

Disallow (Không cho phép)

Sử dụng chỉ thị này để thông báo cho các công cụ tìm kiếm không truy cập vào các file và trang nằm trong đường dẫn đã khai báo.

Disallow: [Nhập url mà bạn không muốn công cụ tìm kiếm thu thập thông tin]

Ví dụ: Bạn muốn chặn tất cả các công cụ tìm kiếm truy cập vào admin trong trang web của mình, thì cú pháp chỉ thị của bạn như sau:

  • User-agent: *
  • Disallow: /wp-admin
Allow (Cho phép)

Sử dụng chỉ thị này cho phép các công cụ tìm kiếm thu thập thông tin và lập chỉ mục.

Allow: [Nhập url mà bạn muốn công cụ tìm kiếm thu thập thông tin]

Ví dụ: Nếu bạn muốn ngăn các công cụ tìm kiếm truy cập vào tất cả các trang trên blog của mình ngoại trừ 1 trang, thì file robots.txt sẽ như sau:

  • User-agent: *
  • Disallow: /blog
  • Allow: /blog/allow-post

Lưu ý về các quy tắc xung đột

Các chỉ thị disallow và allow có thể dễ dàng xung đột với nhau. 

Ví dụ: Không cho phép truy cập /blog/ và cho phép truy cập vào /blog

  • User-agent: *
  • Disallow: /blog/
  • Allow: /blog

Trong trường hợp này, url “/blog” đang vừa chịu sự tác động của disallow và allow. Vậy cái nào thắng?

Quy tắc là chỉ thị có nhiều ký tự nhất sẽ thắng. Đó là chỉ thị disallow.

  • Disallow: /blog/ (6 ký tự)
  • Allow: /blog (5 ký tự)

Nếu các lệnh allow và disallow có độ dài bằng nhau, thì lệnh ít hạn chế nhất sẽ thắng. Trong trường hợp này, đó sẽ là chỉ thị allow vì tại đây /blog (không có dấu gạch chéo ) vẫn có thể truy cập và thu thập thông tin được. 

Sitemap

Sử dụng chỉ thị này để chỉ định vị trí của sitemap XML cho các công cụ tìm kiếm. Sitemap XML hay còn gọi là “Sơ đồ trang web” là một file giúp các công cụ tìm kiếm tìm, thu thập thông tin và lập chỉ mục tất cả nội dung trang web của bạn.

Sitemap: [Nhập url sitemap]

Bạn không cần lặp lại chỉ thị sitemap nhiều lần cho mỗi tác nhân người dùng. Chỉ nên hiển thị nó 1 lần ở đầu hoặc cuối file robots.txt.

Cách tạo file robots.txt

Có 4 bước để tạo file robots.txt:

Bước 1: Tạo một file có tên robots.txt

Bạn có thể sử dụng hầu hết mọi trình chỉnh sửa văn bản để tạo file robots.txt. 

Ví dụ: Notepad, Notepad ++, TextEdit, Emacs,… đều có thể tạo các file robots.txt hợp lệ. 

Lưu ý khi tạo file robots.txt:

  • Phải đặt tên file là robots.txt.
  • Trang web của bạn chỉ có thể có một file robots.txt.
  • File robots.txt phải nằm tại thư mục gốc trên máy chủ của trang web, tương ứng với phạm vi áp dụng của file. 
  • File robots.txt chỉ áp dụng cho các đường dẫn trong giao thức, máy chủ nơi file này được đặt. Nói cách khác, các quy tắc trong https://example.com/robots.txt chỉ áp dụng cho các file trong https://example.com/, chứ không áp dụng cho các subdomain như https://m.example.com/ hoặc http://example.com/ (bạn hiểu chứ 🙂)
  • File robots.txt phải là file văn bản được mã hoá UTF-8

Ngoài ra, bạn cũng có thể tạo trên cPanel. Bạn chỉ cần thực hiện các bước sau:

  1. Đăng nhập vào tài khoản cPanel của bạn.
  2. Vào File Manager.
  3. Sau đó tạo file mới có tên là robots.txt.
  4. Sau khi tạo file với tên robots.txt xong bạn có thể tự do chỉnh sửa file này.  

Bước 2: Thêm quy tắc vào file robots.txt

Các quy tắc có tác dụng hướng dẫn trình thu thập thông tin về những phần có thể thu thập dữ liệu trên trang web của bạn. Khi bạn thêm quy tắc vào file robots.txt, hãy tuân theo những nguyên tắc sau:

  • Một file robots.txt bao gồm ít nhất một nhóm.
  • Mỗi nhóm bao gồm nhiều quy tắc hoặc lệnh (hướng dẫn), mỗi lệnh nằm trên một dòng. Mỗi nhóm bắt đầu bằng một dòng user-agent nêu rõ mục đích của nhóm đó.
  • Một nhóm cung cấp những thông tin sau:
    • Đối tượng mà nhóm áp dụng (tác nhân người dùng).
    • Những thư mục hoặc file mà tác nhân đó được phép truy cập.
    • Những thư mục hoặc file mà tác nhân đó không được phép truy cập.
  • Trình thu thập dữ liệu xử lý các nhóm từ trên xuống dưới. Một tác nhân người dùng chỉ có thể khớp với một tập hợp quy tắc – chính là nhóm đầu tiên và cụ thể nhất khớp được với một tác nhân người dùng nhất định.
  • Các quy tắc có phân biệt chữ hoa chữ thường. Ví dụ: disallow: /blog áp dụng cho https://www.example.com/blog nhưng không áp dụng cho https://www.example.com/BLOG

Đầu tiên trong cách tạo file robots.txt là đặt tác nhân người dùng. Tác nhân người dùng liên quan đến trình thu thập thông tin và các công cụ tìm kiếm mà bạn muốn cho phép hoặc chặn. 

1. Tạo tác nhân người dùng

Tạo một tác nhân người dùng

Cú pháp:

User-agent: Googlebot

Tạo nhiều hơn một tác nhân người dùng

Cú pháp:

User-agent: Googlebot
User-agent: Bingbot

Đặt tất cả trình thu thập thông tin làm tác nhân người dùng

Để chặn tất cả bot hoặc trình thu thập thông tin, hãy thay thế tên của bot bằng dấu hoa thị (*).

Cú pháp:

User-agent: *
2. Thêm các quy tắc

Các cú pháp như sau: 

  • Không cho phép: Disallow: 
  • Cho phép: Allow: 
  • Sitemap xml: Sitemap: 

Ví dụ: 

  • User-agent: *
  • Disallow: /images/
  • Allow: /images/background-images/
  • Allow: /images/logo.png
  • Sitemap: http://www.yourwebsite.com/sitemap_index.xml

Sitemap xml bạn có thể đặt ở đầu hoặc cuối file robots.txt đều được.

Bước 3: Tải file robots.txt lên trang web.

Lưu file robots.txt. Sau đó tải file robots.txt lên trang web.

WordPress có các plugin hỗ trợ. Ở đây tôi dùng Rank Math

Tải file robots.txt lên trang web

Bạn có thể để mặc định Rank Math có hỗ trợ tạo. Hoặc bạn pass file robots.txt bạn mới tạo vào phần Edit robots.txt 

Vào WordPress Dashboard -> Rank Math -> General Settings -> Edit robots.txt

add file robots.txt

Sau đó lưu các thay đổi của bạn. 

Bước 4: Kiểm tra file robots.txt

Để kiểm tra xem file robots.txt mới tải lên có thể truy cập công khai hay không, hãy mở một cửa sổ duyệt ẩn danh. Và nhập vào box tìm kiếm.

Ví dụ: https://example.com/robots.txt. Nếu thấy nội dung của file robots.txt thì việc gửi file đã hoàn thành.

Các lỗi trong file robots.txt có thể ảnh hưởng đến SEO của bạn, vì vậy bạn phải chú ý kiểm tra file robots.txt của mình nhé.

Để thực hiện việc này, hãy vào Google Search Console.

Dưới đây là một số lỗi bạn có thể gặp phải: 

Dán 1 url bạn cần kiểm tra vào box kiểm tra mọi url trong Google Search Console. 

Dán 1 url bạn cần kiểm tra vào box kiểm tra mọi url trong Google Search Console. 

Nếu nó bị chặn bởi robots.txt, bạn sẽ thấy giống hình.

Nếu nó bị chặn bởi robots.txt, bạn sẽ thấy giống hìn
URL đã gửi bị chặn bởi robots.txt
URL đã gửi bị chặn bởi robots.txt

Điều này có nghĩa là ít nhất một trong các URL trong (các) sơ đồ trang web đã gửi của bạn bị robots.txt chặn.

Nếu bạn đã tạo và gửi sitemap XML của mình một cách chính xác và loại trừ các trang không cần thiết ra thì không có trang nào mà gửi sẽ bị robots.txt chặn. 

Vì vậy, bạn hãy kiểm tra lại xem trang nào bị ảnh hưởng, sau đó điều chỉnh file robots.txt của bạn cho phù hợp.

Bạn có thể sử dụng trình kiểm tra robots.txt của Google để xem chỉ thị nào đang chặn trang của bạn. Cần cẩn thận khi làm điều này. Rất dễ mắc lỗi và ảnh hưởng đến các trang trên website.

sử dụng trình kiểm tra robots.txt của Google

Điều này có nghĩa là bạn có nội dung bị chặn bởi robots.txt hiện không được lập chỉ mục trong Google.

Nếu nội dung này quan trọng và cần được lập chỉ mục, hãy xóa nó khỏi file robots.txt của bạn.

Đã lập chỉ mục, mặc dù bị chặn bởi robots.txt

Điều này có nghĩa là một số nội dung bị robots.txt chặn vẫn được lập chỉ mục trong Google.

Đã lập chỉ mục

Một lần nữa, nếu bạn đang cố gắng loại trừ nội dung này khỏi kết quả tìm kiếm của Google, thì robots.txt không phải là giải pháp để có thể làm được điều này. 

Bạn có thể dùng sử dụng robots meta tag để ngăn lập chỉ mục. Tôi sẽ có những bài hướng dẫn về nội dung này sau.

Ngoài ra, trong quá trình thu thập dữ liệu tự động, trình thu thập dữ liệu của Google phát hiện các thay đổi bạn đã thực hiện đối với file robots.txt và cập nhật phiên bản đã lưu vào bộ nhớ đệm sau mỗi 24 giờ. 

Nếu bạn cần cập nhập nhanh hơn, hãy dùng chức năng Gửi của Trình kiểm tra file robots.txt.

  1. Nhấp vào Xem thuộc tính đã xác minh để đảm bảo rằng file robots.txt đang hoạt động là phiên bản mà bạn muốn Google thu thập dữ liệu.
  2. Nhấp vào Gửi để thông báo cho Google rằng file robots.txt của bạn đã thay đổi và yêu cầu Google thu thập dữ liệu trong file đó.
  3. Ở mục số 3 Yêu cầu Google cập nhập -> Gửi.
Yêu cầu Google cập nhập

Một số lưu ý về file robots.txt

File robots.txt là một file ảo do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc dù nó vẫn hoạt động). Vị trí file robots.txt wordpress chuẩn được đặt trong thư mục gốc là public_html

Để tạo file robots.txt cho riêng bạn thì bạn cần tạo một file mới để thay thế file cũ đặt trong thư mục gốc đó.

Để sử dụng file robots.txt của bạn đúng cách:

  • Trong cấu hình file robots.txt của bạn, hãy đảm bảo rằng chỉ những trang không có giá trị mới bị chặn.
  • Đảm bảo rằng bạn không chặn các file JavaScript và CSS của trang web của mình.
  • Luôn thực hiện kiểm tra sau khi thiết lập file robots.txt của bạn để đảm bảo rằng bạn không vô tình chặn bất kỳ thứ gì.
  • Luôn đặt file robots.txt trong thư mục gốc của trang web của bạn.
  • Đảm bảo bạn đặt tên file của mình là “robots.txt”.

Đừng dùng file robots.txt như một cách để ẩn các trang web của bạn khỏi kết quả tìm kiếm trên Google.

Kết luận

Vâng, file robots.txt là một công cụ thú vị cho SEO. Bằng cách thiết lập file robots.txt đúng cách bạn sẽ giúp cải thiện SEO hiệu quả.

Các công cụ tìm kiếm vẫn có thể lập chỉ mục một URL bị chặn nếu các trang web khác liên kết đến trang đó. Matt Cutts giải thích cách điều này có thể xảy ra trong video dưới đây:

Hy vọng hướng dẫn về cách tạo file robots.txt cho trang web của bạn sẽ hữu ích. Tôi khuyên bạn nên tạo file robots.txt cho trang web của riêng bạn và kiểm tra kết quả thông qua trình phân tích để giúp bạn biết cách hoạt động của nó. Thực hành và làm cho hoàn hảo 😊

Bạn có gặp khó khăn gì khi tạo file robots.txt không? Comment bên dưới, chúng tôi sẽ giải đáp nhé!

Tài liệu tham khảo

Robots.txt and SEO: Everything You Need to Know

https://ahrefs.com/blog/robots-txt/

A Beginners Guide to Robots.txt: Everything You Need To Know

https://www.semrush.com/blog/beginners-guide-robots-txt/
Photo of author

Bài viết của

Trang Đoàn

Tôi là ĐOÀN TRANG, tôi ở đây giúp bạn học và tự trải nghiệm. Với một con người có đam mê mãnh liệt với Marketing, thích thử thách và mạo hiểm. Những kiến thức mà tôi chia sẻ là những đúc kết đầy tâm huyết của tôi. Cùng đồng hành và phát triển nhé!

Bạn đã sẵn sàng để tăng trưởng chưa?

Hãy bắt đầu bằng việc yêu cầu một bản kế hoạch dành riêng cho bạn.

Viết một bình luận