Nhện & Trình thu thập thông tin web: Những điều bạn cần biết để bảo vệ dữ liệu trang web
Nhện, cũng được gọi là 'trình thu thập dữ liệu web' tìm kiếm trên Web và không phải tất cả đều thân thiện với mục đích của chúng.
Những kẻ gửi thư rác trang web nhện để thu thập thông tin
Google, Yahoo!
và các công cụ tìm kiếm khác không phải là những người duy nhất quan tâm đến việc thu thập thông tin các trang web - vì vậy những kẻ lừa đảo và kẻ gửi spam.
Nhện và các công cụ tự động khác được sử dụng bởi những kẻ gửi thư rác để tìm địa chỉ email (trên internet thực hành này thường được gọi là 'thu hoạch') trên các trang web và sau đó sử dụng chúng để tạo danh sách spam.
Nhện cũng là công cụ được công cụ tìm kiếm sử dụng để tìm hiểu thêm thông tin về trang web của bạn nhưng không được kiểm tra, trang web không có hướng dẫn (hoặc 'quyền') về cách thu thập dữ liệu trang web của bạn có thể gây ra những rủi ro bảo mật thông tin lớn. Nhện đi theo các liên kết, và họ rất giỏi trong việc tìm kiếm liên kết đến cơ sở dữ liệu, tệp chương trình và các thông tin khác mà bạn có thể không muốn họ có quyền truy cập.
Quản trị viên web có thể xem nhật ký để xem những gì nhện và robot khác đã truy cập trang web của họ. Thông tin này giúp quản trị viên web biết ai đang lập chỉ mục trang web của họ và tần suất.
Thông tin này hữu ích vì nó cho phép quản trị viên web tinh chỉnh SEO của họ và cập nhật tệp robots.txt để cấm một số rô bốt nhất định thu thập dữ liệu trang web của họ trong tương lai.
Mẹo về bảo vệ trang web của bạn từ trình thu thập dữ liệu không mong muốn trên rô bốt
Có một cách khá đơn giản để giữ cho trình thu thập không mong muốn ra khỏi trang web của bạn. Ngay cả khi bạn không lo ngại về những con nhện độc hại đang thu thập dữ liệu trang web của bạn (địa chỉ email bị xáo trộn sẽ không bảo vệ bạn khỏi hầu hết các trình thu thập thông tin), bạn vẫn cần phải cung cấp các công cụ tìm kiếm với các hướng dẫn quan trọng.
Tất cả các trang web nên có tệp nằm trong thư mục gốc được gọi là tệp robots.txt. Tệp này cho phép bạn hướng dẫn các trình thu thập dữ liệu web nơi bạn muốn họ xem các trang chỉ mục (trừ khi được nêu khác trong dữ liệu meta của trang cụ thể để không được lập chỉ mục) nếu chúng là công cụ tìm kiếm.
Cũng giống như bạn có thể nói trình thu thập dữ liệu mong muốn nơi bạn muốn chúng duyệt, bạn cũng có thể cho biết chúng có thể không đi đến đâu và thậm chí chặn trình thu thập thông tin cụ thể từ toàn bộ trang web của bạn.
Điều quan trọng cần lưu ý là tập tin robots.txt được tập hợp tốt sẽ có giá trị to lớn cho công cụ tìm kiếm và thậm chí có thể là yếu tố quan trọng trong việc cải thiện hiệu suất trang web của bạn, nhưng một số trình thu thập thông tin rô bốt sẽ vẫn bỏ qua hướng dẫn của bạn. Vì lý do này, điều quan trọng là luôn cập nhật tất cả phần mềm, plugin và ứng dụng của bạn.
Bài viết và thông tin liên quan
Do sự phổ biến của việc thu thập thông tin được sử dụng cho các mục đích bất chính (spam), luật pháp đã được thông qua vào năm 2003 để thực hiện một số hành vi bất hợp pháp. Những luật bảo vệ người tiêu dùng này thuộc Đạo luật CAN-SPAM năm 2003.
Điều quan trọng là bạn dành thời gian để đọc về Đạo luật CAN-SPAM nếu doanh nghiệp của bạn tham gia vào bất kỳ việc gửi thư hàng loạt hoặc thu thập thông tin nào.
Bạn có thể tìm hiểu thêm về luật chống spam và cách đối phó với những người gửi spam và những gì bạn làm chủ sở hữu doanh nghiệp có thể không làm, bằng cách đọc các bài viết sau:
- Đạo luật CAN-SPAM 2003
- Quy tắc hành động CAN-SPAM cho tổ chức phi lợi nhuận
- 5 quy tắc CAN-SPAM Các chủ doanh nghiệp nhỏ cần hiểu