Trong bài viết này GCO ADS sẽ đi vào chi tiết hơn về tệp robots.txt và cách nó có thể được sử dụng để hướng dẫn trình thu thập thông tin web của công cụ tìm kiếm. Tệp này đặc biệt hữu ích để quản lý ngân sách thu thập thông tin và đảm bảo các công cụ tìm kiếm đang dành thời gian trên trang web của bạn một cách hiệu quả và chỉ thu thập thông tin các trang quan trọng.
Mục lục
File robots.txt là gì?
Tệp robots.txt là một tập hợp các hướng dẫn dành cho bot. Tệp này được bao gồm trong các tệp nguồn của hầu hết các trang web. Tệp Robots.txt chủ yếu nhằm mục đích quản lý hoạt động của các bot tốt như trình thu thập dữ liệu web, vì các bot xấu không có khả năng làm theo hướng dẫn.
Bot là một chương trình máy tính tự động tương tác với các trang web và ứng dụng. Có bot tốt và bot xấu, và một loại bot tốt được gọi là bot trình thu thập thông tin web. Các bot này “thu thập thông tin” các trang web và lập chỉ mục nội dung để nó có thể hiển thị trong kết quả của công cụ tìm kiếm. Tệp robots.txt giúp quản lý hoạt động của các trình thu thập dữ liệu web này để chúng không đánh thuế quá máy chủ web lưu trữ trang web hoặc lập chỉ mục các trang không dành cho chế độ xem công khai.
Các thuật ngữ/cú pháp dùng trong robots.txt
User-Agent
Đối với người dùng là con người, điều này bao gồm thông tin như loại trình duyệt và phiên bản hệ điều hành nhưng không có thông tin cá nhân; lệnh User-agent giúp các trang web hiển thị nội dung tương thích với hệ thống của người dùng. Đối với bot, tác nhân người dùng (về mặt lý thuyết) giúp quản trị viên trang web biết loại bot nào đang thu thập dữ liệu trang web.
Một số User-agent của công cụ tìm kiếm phổ biến bao gồm:
- Googlebot
- Googlebot – Image (dành cho hình ảnh)
- Googlebot – News (dành cho tin tức)
- Googlebot – Video (dành cho video)
Disallow
Lệnh Disallow là lệnh phổ biến nhất trong giao thức loại trừ rô bốt. Nó yêu cầu các bot không được truy cập vào trang web hoặc tập hợp các trang web xuất hiện sau lệnh. Tuy nhiên, người dùng trên trang web vẫn có thể điều hướng đến các trang này nếu họ biết tìm chúng ở đâu.
Allow
Lệnh Allow cho các bot biết rằng chúng được phép truy cập vào một trang web hoặc thư mục nhất định. Lệnh này có thể cho phép bot truy cập vào một trang web cụ thể, trong khi không cho phép các trang web còn lại trong tệp. Không phải tất cả các công cụ tìm kiếm đều nhận ra lệnh này.
Sitemap
Tạo sitemap cho website giúp bạn dễ dàng chỉ ra cho các công cụ tìm kiếm các trang trên trang web của bạn để thu thập thông tin. Sơ đồ trang web là một tệp XML liệt kê các URL của một trang web cũng như siêu dữ liệu bổ sung trên mỗi URL để cho phép các công cụ tìm kiếm khám phá trang web một cách thông minh hơn.
Crawl Delay
Lệnh Crawl Delay (trì hoãn thu thập thông tin) sẽ ngăn các bot trình thu thập thông tin của công cụ tìm kiếm vượt qua máy chủ. Nó cho phép quản trị viên chỉ định thời gian bot sẽ đợi giữa mỗi yêu cầu, tính bằng mili giây.
Tại sao bạn cần tạo file robots.txt?
Có một tệp robots.txt không quan trọng đối với nhiều trang web, đặc biệt là những trang web nhỏ.
Điều đó nói rằng, không có lý do chính đáng để không có một cái. Nó cung cấp cho bạn nhiều quyền kiểm soát hơn đối với những nơi mà các công cụ tìm kiếm có thể và không thể truy cập vào trang web của bạn và điều đó có thể giúp ích cho những việc như:
- Tránh thu thập nội dung trùng lặp.
- Ngăn chặn việc thu thập thông tin của một công cụ tìm kiếm nội bộ.
- Ngăn các công cụ tìm kiếm lập chỉ mục các hình ảnh nhất định trên trang web của bạn.
- Xác định vị trí của sitemap.
- Chỉ định độ trễ quét để ngăn máy chủ của bạn bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung đồng thời.
Nếu trang web của bạn không chứa bất kỳ khu vực nào bạn muốn kiểm soát quyền truy cập của người dùng, bạn có thể không cần tệp robots.txt.
File robots.txt hoạt động như thế nào?
Tùy chọn đầu tiên bạn sẽ thấy là cho phép hoặc không cho phép tất cả các trình thu thập thông tin web truy cập vào trang web của bạn. Menu này cho phép bạn quyết định xem bạn có muốn thu thập thông tin trang web của mình hay không; tuy nhiên, có thể có những lý do khiến bạn chọn không lập chỉ mục trang web của mình bởi Google.
Tùy chọn thứ hai mà bạn sẽ thấy là có thêm tệp sơ đồ trang xml của bạn hay không. Chỉ cần nhập vị trí của nó trong trường này.
Cuối cùng, bạn được cung cấp tùy chọn để chặn các trang hoặc thư mục nhất định không được lập chỉ mục bởi các công cụ tìm kiếm. Điều này thường được thực hiện đối với các trang không cung cấp bất kỳ thông tin hữu ích nào cho Google và người dùng, chẳng hạn như trang đăng nhập, giỏ hàng và thông số.
Khi hoàn tất, bạn có thể tải xuống tệp văn bản.
Sau khi bạn đã tạo tệp robots.txt của mình, hãy đảm bảo tải tệp đó lên thư mục gốc trong miền của bạn. Ví dụ: tệp robots.txt của bạn sẽ xuất hiện tại: www.yourdomain.com/robots.txt
File robots.txt nằm ở đâu trên một website?
Tệp robots.txt phải luôn tồn tại trên thư mục gốc của miền, ví dụ:
Tệp này dành riêng cho giao thức và miền đầy đủ, vì vậy tệp robots.txt trên https://www.example.com không ảnh hưởng đến việc thu thập thông tin của https://www.example.com hoặc https: //subdomain.example.com; chúng phải có tệp robots.txt của riêng chúng.
3 Cách tạo file robots.txt WordPress đơn giản
Sử dụng Yoast SEO
Để giúp bạn tối ưu hóa trang web WordPress của mình, bạn có thể sử dụng các plugin SEO. Hầu hết các plugin này đều đi kèm với trình tạo tệp robots.txt của riêng chúng.
Trong phần này, chúng tôi sẽ tạo một cái bằng plugin Yoast SEO. Sử dụng plugin, bạn có thể dễ dàng tạo tệp robots.txt từ bảng điều khiển WordPress của mình.
Bước 1. Cài đặt Plugin
Đi tới Plugins> Add New. Sau đó tìm kiếm, cài đặt Yoast SEO và kích hoạt plugin nếu bạn chưa có.
Bước 2. Tạo tệp robots.txt
Khi plugin được kích hoạt, hãy chuyển đến Yoast SEO> Công cụ và nhấp vào Trình chỉnh sửa tệp.
Hãy nhấp vào Tạo tệp robots.txt. Tạo tệp txt cho rô bốt bằng Yoast.
Bạn sẽ nhận thấy tệp được tạo bằng một số chỉ thị mặc định.
Theo mặc định, trình tạo tệp robots.txt của Yoast SEO sẽ thêm các lệnh sau:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Bạn có thể thêm các lệnh khác vào tệp robots.txt nếu muốn. Khi bạn hoàn tất, hãy nhấp vào Lưu thay đổi đối với tệp robots.txt.
Hãy tiếp tục và nhập tên miền của bạn theo sau là ‘ /robots.txt .’ Nếu bạn tìm thấy các lệnh mặc định được hiển thị trên trình duyệt, như được hiển thị trong hình ảnh bên dưới, bạn đã tạo thành công tệp robots.txt của mình.
Chúng tôi cũng khuyên bạn nên thêm URL sơ đồ trang web vào tệp robots.txt của mình.
Ví dụ: nếu URL sơ đồ trang web của bạn là https://yourdomain.com/sitemap.xml, thì hãy xem xét đưa Sơ đồ trang: https://yourdomain.com/sitemap.xml vào tệp robots.txt của bạn.
Qua bộ Plugin All in One SEO
All in One SEO còn được gọi là AIOSEO là plugin SEO WordPress tốt nhất trên thị trường được hơn 2 triệu trang web sử dụng. Nó dễ sử dụng và đi kèm với trình tạo tệp robots.txt.
Nếu bạn chưa cài đặt plugin AIOSEO, bạn có thể xem hướng dẫn từng bước của chúng tôi về cách cài đặt plugin WordPress.
Lưu ý: Phiên bản miễn phí của AIOSEO cũng có sẵn và có tính năng này.
Sau khi cài đặt và kích hoạt plugin, bạn có thể sử dụng plugin này để tạo và chỉnh sửa tệp robots.txt của mình trực tiếp từ khu vực quản trị viên WordPress của bạn.
Chỉ cần đi tới All in one SEO » “Tool” để chỉnh sửa tệp robots.txt của bạn.
=> Tham khảo: Các công cụ hỗ trợ SEO
Trước tiên, bạn cần bật tùy chọn chỉnh sửa bằng cách nhấp vào nút chuyển đổi “Enable Custom Robots.txt” sang màu xanh lam.
Khi bật nút này, bạn có thể tạo tệp robots.txt tùy chỉnh trong WordPress.
Tất cả trong một SEO sẽ hiển thị tệp robots.txt hiện có của bạn trong phần “Robots.txt Preview” ở cuối màn hình của bạn.
Phiên bản này sẽ hiển thị các quy tắc mặc định đã được WordPress thêm vào.
Các quy tắc mặc định này yêu cầu các công cụ tìm kiếm không thu thập dữ liệu các tệp WordPress cốt lõi của bạn, cho phép các bot lập chỉ mục tất cả nội dung và cung cấp cho chúng liên kết đến sơ đồ trang XML của trang web của bạn.
Bây giờ, bạn có thể thêm các quy tắc tùy chỉnh của riêng mình để cải thiện robots.txt của bạn cho SEO.
Để thêm quy tắc, hãy nhập tác nhân người dùng vào trường User-Agent. Sử dụng dấu * sẽ áp dụng quy tắc cho tất cả các tác nhân người dùng.
Sau đó, chọn xem bạn muốn “Allow” hay “Disallow” các công cụ tìm kiếm thu thập thông tin.
Tiếp theo, nhập tên tệp hoặc đường dẫn thư mục vào trường “Directory Path”.
Quy tắc sẽ tự động được áp dụng cho robots.txt của bạn. Để thêm một quy tắc khác, hãy nhấp vào nút “Add Rule”.
Chúng tôi khuyên bạn nên thêm các quy tắc cho đến khi bạn tạo được định dạng robots.txt lý tưởng mà chúng tôi đã chia sẻ ở trên.
Các quy tắc tùy chỉnh của bạn sẽ giống như thế này.
Sau khi hoàn tất, đừng quên nhấp vào nút “Save Changes” để lưu trữ các thay đổi của bạn.
Tạo rồi upload file robots.txt qua FTP
Phương pháp tiếp theo là tạo tệp robots.txt trên máy tính cục bộ của bạn và tải nó lên thư mục gốc của trang web WordPress của bạn.
Bạn cũng sẽ yêu cầu quyền truy cập vào dịch vụ lưu trữ WordPress của mình bằng ứng dụng FTP, chẳng hạn như Filezilla. Các thông tin xác thực cần thiết để đăng nhập sẽ có sẵn trong bảng điều khiển lưu trữ của bạn nếu bạn chưa có.
Hãy nhớ rằng, tệp robots.txt phải được tải lên thư mục gốc của trang web của bạn. Có nghĩa là, nó không nên nằm trong bất kỳ thư mục con nào.
Vì vậy, khi bạn đã đăng nhập bằng ứng dụng FTP của mình, bạn sẽ có thể xem liệu tệp robots.txt có tồn tại trong thư mục gốc của trang web của bạn hay không.
Nếu tệp tồn tại, chỉ cần nhấp chuột phải vào tệp và chọn tùy chọn chỉnh sửa.
Thực hiện các thay đổi và nhấp vào lưu.
Nếu tệp không tồn tại, bạn cần tạo một tệp. Bạn có thể tạo một tệp bằng cách sử dụng một trình soạn thảo văn bản đơn giản như Notepad và thêm các lệnh vào tệp.
Một số lưu ý khi sử dụng file robots.txt
Có một số vấn đề và cân nhắc chính đối với tệp robots.txt và tác động của nó đối với hiệu suất của trang web.
Có khối quy tắc dự phòng cho tất cả các bot: Sử dụng các khối quy tắc cho các chuỗi tác nhân người dùng cụ thể mà không có khối quy tắc dự phòng cho mọi bot khác có nghĩa là cuối cùng trang web của bạn sẽ gặp phải một bot không có bất kỳ bộ quy tắc nào để tuân theo.
Điều quan trọng là robots.txt phải được cập nhật: Một vấn đề tương đối phổ biến xảy ra khi robots.txt được đặt trong giai đoạn phát triển ban đầu của một trang web, nhưng không được cập nhật khi trang web phát triển, có nghĩa là các trang có thể hữu ích không được phép.
Lưu ý về việc chuyển hướng các công cụ tìm kiếm thông qua các URL không được phép – Ví dụ: / product > / disallowed > / category
Phân biệt chữ hoa chữ thường có thể gây ra nhiều vấn đề: Quản trị viên web có thể mong đợi một phần của trang web không được thu thập thông tin, nhưng các trang đó có thể được thu thập thông tin do có các cách viết hoa thay thế, tức là “Disallow: / admin” tồn tại, nhưng các công cụ tìm kiếm lại thu thập thông tin “ / ADMIN ”.
Không cho phép các URL được liên kết ngược: Điều này ngăn Xếp hạng Trang từ những người khác đang liên kết đến bạn chuyển đến trang web của bạn.
Trễ thu thập thông tin có thể gây ra các vấn đề tìm kiếm: Lệnh “Crawl delay” buộc trình thu thập thông tin truy cập trang web của bạn chậm hơn mức họ muốn, có nghĩa là các trang quan trọng của bạn có thể được thu thập thông tin ít thường xuyên hơn mức tối ưu.
Đảm bảo rằng robots.txt chỉ trả về mã trạng thái 5xx nếu toàn bộ trang web không hoạt động: Việc trả lại mã trạng thái 5xx cho /robots.txt cho các công cụ tìm kiếm biết rằng trang web đang ngừng hoạt động để bảo trì. Điều này thường có nghĩa là họ sẽ cố gắng thu thập dữ liệu lại trang web sau đó.
Robots.txt không cho phép ghi đè công cụ xóa tham số: Hãy lưu ý rằng các quy tắc robots.txt của bạn có thể ghi đè việc xử lý tham số và bất kỳ gợi ý lập chỉ mục nào khác mà bạn có thể đã cung cấp cho các công cụ tìm kiếm.
Đánh dấu Hộp Tìm kiếm Liên kết trang web sẽ hoạt động với các trang tìm kiếm nội bộ bị chặn: Các trang tìm kiếm nội bộ trên một trang web không cần phải thu thập thông tin để đánh dấu Hộp Tìm kiếm Liên kết trang hoạt động.
Việc không cho phép miền đã di chuyển sẽ ảnh hưởng đến sự thành công của quá trình di chuyển: Nếu bạn không cho phép miền đã di chuyển, các công cụ tìm kiếm sẽ không thể theo dõi bất kỳ chuyển hướng nào từ trang cũ sang trang mới, vì vậy việc di chuyển khó có thể thành công.
Tạm kết
Robots.txt cho phép bạn cấm rô bốt truy cập vào các phần của trang web của bạn, đặc biệt nếu một khu vực trên trang của bạn là riêng tư hoặc nếu nội dung không cần thiết cho các công cụ tìm kiếm. Do đó, robots.txt là một công cụ cần thiết để kiểm soát việc lập chỉ mục các trang của bạn.
=>> Dịch vụ SEO web
Tôi là Nguyễn Hồng Kỳ, hiện đang là Founder của SEO PLUS. Mong rằng những kiến thức SEO và kinh nghiệm trên 10 năm trong lĩnh vực Digital Marketing mà tôi đúc kết trên đây có thể giải đáp những thắc mắc, cải thiện quá trình SEO và giúp bạn gặt hái được những kết quả SEO mong muốn. Hotline: 08288 22226