Một số kỹ thuật tìm kiếm & xử lý thông tin trong quá trình nghiên cứu

19 853 5
Một số kỹ thuật tìm kiếm & xử lý thông tin trong quá trình nghiên cứu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Một số kỹ thuật Một số kỹ thuật tìm kiếm tìm kiếm & & xử thông tin xử thông tin trong quá trình nghiên cứu trong quá trình nghiên cứu TR N HOÀI NAMẦ E-mail: namdhtm@yahoo.com E-mail: namdhtm@yahoo.com Web: http://namdhtm.co.nr Web: http://namdhtm.co.nr • Tìm kiếm và thu thập thông tin Tìm kiếm và thu thập thông tinKỹ thuật thao tác với dữ liệu Kỹ thuật thao tác với dữ liệu Các mối quan hệ Các nguồn thông tin truyền thống (Thư viện, báo chí, tài liệu tham khảo…) Mạng Internet Mạng Internet Thông tin đến từ đâu ? Các công cụ tìm kiếm thông thường Các công cụ tìm kiếm thông thường  Yahoo!  Lycos  MSN  Excite  AltaVista  AOL/Netscape  InfoSpace/MetaCrawler  Google  Vinaseek  Netnam  … Làm th nào đ tìm đ c các thông tin c n thi t ?ế ể ượ ầ ế Làm th nào đ tìm đ c các thông tin c n thi t ?ế ể ượ ầ ế Website nước ngoài Website trong nước Các kỹ thuật tìm kiếm Các kỹ thuật tìm kiếmTìm kiếm thông dụng nhất Tìm kiếm thông dụng nhất : : Thí dụ: Thí dụ: www.google.com www.google.com  Các kỹ thuật tìm kiếm nâng cao Các kỹ thuật tìm kiếm nâng cao  Sử dụng dấu ngoặc kép “…” để tìm chính xác Sử dụng dấu ngoặc kép “…” để tìm chính xác  Sử dụng dấu (+) hoặc (–) Sử dụng dấu (+) hoặc (–) - Sử dụng dấu (+) trước các từ trong cụm từ tìm kiếm đã trở nên quá thông dụng mà Google có xu hướng bỏ qua. Thí dụ: Godfather+I thay cho Godfather I - Sử dụng dấu (-) khi muốn loại đi một từ nào đó trong mục tìm kiếm. Thí dụ: love-apple cho các kết quả liên quan đến tình yêu thay vì liên quan đến cà chua. (Nhớ loại bỏ các khoảng trống trước và sau dấu +,-)  Các kỹ thuật tìm kiếm với Các kỹ thuật tìm kiếm với  Tìm kiếm theo phân loại Tìm kiếm theo phân loại : : Kích chuột vào phím Thư mục trên trang chủ của Google để mở thư mục của Google. Sau đó chọn phân loại cần quan tâm.  Tìm kiếm các website liên quan Tìm kiếm các website liên quan: Dùng câu lệnh related trước URL của một website, để tìm các website có nội dung tương tự website này, thí dụ related related:ebusiness.mit.edu → nx website liên quan kinh doanh điện tử.  Tìm các website có liên kết tới website mình quan tâm Tìm các website có liên kết tới website mình quan tâm: Dùng câu lệnh link trước một website, thí dụ link link:ecommerce.mit.edu/forum/ -> các website có liên kết trỏ tới Website ecommerce.mit.edu/forum/.  Tìm theo một chủ đề nhất định Tìm theo một chủ đề nhất định: Dùng lệnh allinurl allinurl:e-commerce để nhận được danh sách website có cụm từ “e-commerce” trên địa chỉ URL  Các kỹ thuật với Các kỹ thuật với  Tìm kiếm trên một website cụ thể Tìm kiếm trên một website cụ thể: Gõ e-commerce site:www.stanford.edu để tìm các thông tin về TMĐT trên webpage của Trường Đại học Tổng hợp Stanford.  Khôi phục các webpage chết Khôi phục các webpage chết : : Đối với các trang web chết (thông báo lỗi 404 – không tìm thấy trang web). Bấm Cached tại phía cuối của mỗi phần mô tả một địa chỉ Google để khôi phục những nội dung đã từng tồn tại.  Tìm kiếm Ảnh hoặc tìm kiếm các Nhóm tin tức Tìm kiếm Ảnh hoặc tìm kiếm các Nhóm tin tức (nhóm thảo luận Usenet): Bấm phím Hình ảnh hoặc phím Nhóm tin trên trang chủ Google.  Thông tin đưa ra càng nhiều, kết quả càng chính xác Thông tin đưa ra càng nhiều, kết quả càng chính xác: Thí dụ: “e-commerce management” “syllabus” “university program”  Cá nhân hoá Google Cá nhân hoá Google: www.google.com/preferences → đặt các lựa chọn cho riêng mình.  Tìm kiếm dưới tầng sâu của Web (Deep Web) Tìm kiếm dưới tầng sâu của Web (Deep Web)  Những vấn đề trong tìm kiếm thông tin Những vấn đề trong tìm kiếm thông tin: • Theo Công ty nghiên cứu thị trường trực tuyến NPD (www.npd.com) 85% số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần. • Hiện có hai nguyên tắc tìm kiếm thông tin: 1. Công cụ tìm kiếm xuất phát từ trang thông tin có chứa từ khoá theo yêu cầu của người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá. Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm điểm duy nhất → Cách này chỉ tìm được các thông tin có trên “bề mặt của Web”. Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn bản/ngày (Nguồn: www.Inktomi.com; www.cyveillance.com). → Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu. 2. Google đưa ra kỹ thuật tìm kiếm theo “tính phổ biến của thông tin”. Các trang được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm → Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới. • Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn. → Giải quyết vấn đề này như thế nào?  Tìm kiếm dưới tầng sâu của Web (Deep Web) Tìm kiếm dưới tầng sâu của Web (Deep Web)  Sự ra đời của Deep Web Sự ra đời của Deep Web: • Năm 1994, TS. Jill Ellsworth (Mỹ) là người đầu tiên đưa ra khái niệm “Web vô hình” (Invisible Web) để chỉ những nội dung thông tin không thể bị phát hiện thông qua các công cụ tìm kiếm thông thường. Một thời gian sau Invisible Web được đổi thành Deep Web  Thông tin của Deep Web gồm những gì Thông tin của Deep Web gồm những gì: 12 hình thức 1. Các cơ sở dữ liệu phân loại theo chủ đề (54%) 2. Website nội bộ: Cơ sở dữ liệu dưới dạng “tìm kiếm được” (13%) 3. Kho lưu trữ văn bản (11%) 4. Thông tin lưu trữ trong quá trình kinh doanh trực tuyến của các công ty (5%) 5. Tài liệu mật (5%) 6. Cổng dịch vụ: CSDL, nơi lưu trữ danh mục hàng hoá (3%) 7. Thư viện: CSDL ở thư viện của các trường đại học trên TG (2%) 8. Trang trắng, Trang vàng: thông điệp của các cá nhân, tập thể (2%) 9. Website thống kê, tính toán, phiên dịch (2%) 10. Các kiểu biểu mẫu, đơn từ… (1%) 11. CSDL chứa thông điệp và chat trực tuyến (1%) 12. Thông tin tìm kiếm qua các công cụ tìm kiếm thông thường (1%) Một số thống kê về Deep Web [...]... cụ tìm kiếm dành cho các học giả”: tập hợp các tạp chí, ấn phẩm điện tử, các công trình khoa học, các đề tài nghiên của… Lycos Directory: http://dir.lycos.com/Reference/Searchable_Databases/ Directory Librarians' Index to the Internet: http://lii.org Internet Giới thiệu công cụ tìm kiếm mới • Tìm kiếm tài liệu trên máy tính • Tìm kiếm thông tin trên Internet • Tìm kiếm và thu thập thông tinKỹ thuật. .. Tìm kiếm dưới tầng sâu của Web (Deep Web)  Deep Web chứa các thông tin gì: gì • Thông tin về các hoạt động khoa học nhân văn (13,5%) • Nội dung tin tức và truyền thông (12,2%) • Mạng, máy tính (6,9%) • Nghệ thuật (6,6%) • Kinh doanh (5,9%) • Y tế, sức khoẻ (5,5%) • Thông tin cá nhân – doanh nghiệp (4,9%) • Giáo dục (4,3%) • Thông tin tuyển dụng (4,1%) • Thông tin chính phủ (3,9%)... website lớn nhất trong Deep Web  Tìm kiếm dưới tầng sâu của Web (Deep Web)  Công cụ tìm kiếm trong Deep Web: Web •  LexiBot là một trong những công cụ hoàn hảo nhất: http://www.lexibot.com Các công cụ tìm kiếm khác: khác • • • CompletePlanet.com: http://www.completeplanet.com/ ProFusion http://www.profusion.com/ WebData.com: http://www.webdata.com WebData.com cổng dữ liệu, chuyên tìm kiếm, sắp xếp,... khác  Tìm kiếm dưới tầng sâu của Web (Deep Web)  Các đặc tính của Deep Web: (Nguồn: BrightPLanet, Inktomi) Web • Kích cỡ một văn bản thuộc Deep Web có dung lượng TB: 13,7-19,7 KB, nhỏ hơn 27% so với dung lượng một tài liệu trên bề mặt • Chất lượng thông tin phong phú gấp hàng triệu lần • Càng ở sâu, hàm lượng thông tin càng lớn - Một website ở bề mặt chứa một vài hoặc vài chục hồ dữ liệu - Một website... 4.950 hồ - Một website ở lớp sâu nhất trung bình chứa 5,43 triệu hồ Số siêu liên kết của 1 trang web ở lớp sâu nhiều gấp đôi siêu liên kết của 1 trang web trên bề mặt (6.2000 : 3.700) Nhưng ở bề mặt lại lớn hơn lớp giữa (83 : 66) • Tốc độ phát triển về số lượng của website Deep web nhanh hơn nhiều so với các website trên mặt Web • Tuy nhiên, vì Deep Web quá rộng lớn nên tìm kiếm thông tin ở Deep... thông tin trên Internet • Tìm kiếm và thu thập thông tinKỹ thuật thao tác với dữ liệu Thông tin thường ở những dạng nào ? Tài liệu viết tay Số hoá (văn bản, tài liệu trên máy tính) Văn bản in ấn (trên giấy) Xử văn bản in ấn trên giấy   Mục đích chung: Chuyển các văn bản trên giấy thành văn bản trên máy tính (số hoá) Cách thức:  Đánh máy trực tiếp:   Ưu điểm: Phương pháp truyền thống, đơn giản... thống, đơn giản điểm Nhược điểm: Mất thời gian, công sức và sai lỗi chính tả điểm “Time is Gold, Money is Silver” → Nên áp dụng kỹ thuật để tiết kiệm thời gian ?  Sử dụng phương pháp quét và nhận dạng văn bản:  Ưu điểm: Nhanh, không tốn nhiều công, có thể phối hợp các kỹ thuật điểm khác để tăng độ chính xác của tài liệu đích  Nhược điểm: Phải đầu tư thiết bị, phụ thuộc vào thiết bị và phải nắm điểm... cài đặt máy quét) Nếu là tiếng Anh, có thể dịch Anh – Việt bằng phần mềm phiên dịch Anh – Việt → chuyển sang bước 5 Thao tác với tài liệu tiếng Việt Đặt tên và lưu văn bản Word Kết thúc  3 4 5 6  Một số lưu ý:     Tài liệu Scan phải rõ ràng, giấy trắng, mực đen Giữ sạch, không gạch xoá Tốt nhất là Font chữ không chân VnDoc cũng có thể “học” nhận dạng các lỗi VnDoc có nhiều tiện ích khác để hỗ . Một số kỹ thuật Một số kỹ thuật tìm kiếm tìm kiếm & & xử lý thông tin xử lý thông tin trong quá trình nghiên cứu trong quá trình nghiên cứu. kiếm mới • Tìm kiếm tài liệu trên máy tính • Tìm kiếm thông tin trên Internet • Tìm kiếm và thu thập thông tin Tìm kiếm và thu thập thông tin • Kỹ thuật thao

Ngày đăng: 18/12/2013, 15:33

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan