Trên trang hỗ trợ của #Apple vừa xuất hiện một diễn giải đơn giản về Applebot, một công cụ thu thập thông tin trên các website của hãng (web crawler). Web crawler/web spider là một công cụ tự động đọc nội dung của một trang web nào đó, nó sẽ bóc tách các nội dung trang web và tạo chỉ mục tìm kiếm cho trang web, kể cả những trang con bên trong. Có thể bạn sẽ quen thuộc hơn với tên gọi tiếng Việt là con bọ tìm kiếm, #Google gọi web crawler của họ là Googlebot. Việc tạo ra web crawler là bước đầu tiên và rất quan trọng cho một công cụ tìm kiếm.
Thông tin từ Apple cho biết họ dùng dữ liệu từ web crawler để cung cấp thêm thông tin cho Spotlight và Siri. Hiện tại thì chúng ta thấy dữ liệu từ hai chương trình này thường đến từ Bing của #Microsoft và Google nhưng với sự tồn tại của Applebot thì chưa biết điều gì sẽ xảy ra trong tương lai. Được biết Applebot cũng sẽ hoạt động theo kiểu Googlebot, tức đọc tập tin robots.txt của website để biết phần nào nên nạp vào chỉ mục và phần nào không. Trong trường hợp trang web đó không có hướng dẫn dành riêng cho Applebot thì nó sẽ dùng tập tin của Googlebot.
Lưu ý: trên đây chỉ là những định nghĩa đơn giản và cơ bản nhất của Web Crawler để các bạn nào chưa hiểu dễ hình dung hơn, những thứ liên quan đến web crawler phức tạp hơn khá nhiều.
Theo Tinhte