July 25, 2008...9:08 am

Bộ thu thập thông tin – Robot

Jump to Comments

Chương 2 tiêp theo chương 1 “Tổng quan về hệ thống Search Engine” của loạt bài viết về máy tìm kiếm “Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt“.

  1. Ứng dụng của Robot
    1. Phân tích, thống kê – Statistical Analysis
    2. Duy trì siêu liên kế – Maintenance
    3. Ánh xạ địa chỉ web – Mirroring
    4. Phát hiện tài nguyên – Resource Discovery
    5. Kết hợp các công dụng trên- Combined uses
  2. Robot chỉ mục – Robot Indexing
  3. Các chiến thuật thu thập dữ liệu
    1. Chiến thuật tìm kiếm theo chiều sâu
    2. Chiến thuật tìm kiếm theo chiều rộng
    3. Chiến thuật tìm kiếm theo ngẫu nhiên
  4. Những vấn đề cần lưu ý của web robot
    1. Chi phí và hiểm hoạ
      1. Quá tải mạng và server – Network resource and server load
      2. Sự cập nhật quá mức- Updating overhead
      3. Những tình huống không mong đợi – Bad implementations
    2. Tiêu chuẩn loại trừ robot
      1. File robot.txt
      2. Thẻ META dành cho robot – Robot META tag
      3. Nhược điểm của file robot.txt

Xem tiếp : Bộ thu thập thông tin – Robot

Leave a Reply