Tìm hiểu các phần tử siêu dữ liệu Dublin core như một phương thức xác định tài liệu điện tử trên World Wide Web

16 308 0
Tìm hiểu các phần tử siêu dữ liệu Dublin core như một phương thức xác định tài liệu điện tử trên World Wide Web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TIM HIEU CAC PHAN TU SIEU DU LIEU DUBLIN CORE NHU MOT PHUONG THUC XAC DINH TAI LIEU DIEN TU TREN WORLD WIDE WEB (WWW) Tran Thi Hoang Hanh K43 - B6 m6én Thong tin - Thu vién GVHD: ThS Cao Minh Kiém I- PHAN MO DAU Tính cấp thiết đề tài Cuộc cách mạng công nghệ thông tin vài chục năm cuối kỷ XX tác động vô mạnh mẽ đến nhiều lĩnh vực đời sống xã hội, đồng thời tạo sở cho việc hình thành số yếu tố xã hội thông tin kinh tế tri thức Đặc biệt phát triển Internet, mạnh bùng nổ dịch vụ WWVW thời gian gần tác động to lớn đến hoạt động quan thông tin - thư viện Nhiều quan thông tin - thư viện bước xây dựng hoàn thiện thư viện hiện: đại, vốn tài liệu thiếu nguồn tài liệu điện tử ngày 245 gia tăng đóng vai trị quan trọng Tài liệu điện tử ngày phổ biến phát triển mạnh người dùng tin hưởng ứng đón nhận Tuy nhiên vấn đề đặt cần phải mô tả, biên mục để quản lý chúng nhằm phát huy hết ưu điểm chúng, đảm bảo việc truy cập tìm kiếm có hiệu quả, góp phần nâng cao chất lượng phục vụ người dùng tin Xuất phát từ xu xây dựng thư viện điện tử cho hiểu biết Dublin Core Việt Nam chưa nhiều mạnh dạn chọn đề tài “Từm hiểu phần tử siêu liệu Dublin Core phương thức xác định tài liệu điện tử Worid Wide Web” làm báo cáo khoa học Mục tiêu nghiên cứu Khổ mẫu tiêu chuẩn siêu liệu cho tài liệu điện tử, có khổ mẫu Dublin Core đời gần đây, vấn đề Việt Nam Bản báo cáo nhằm tìm hiểu vấn để Dublin Core, đề xuất suy nghĩ ứng dụng Dublin Core mô tả siêu liệu Đối tượng, phạm vi Do phạm vi đề tài báo cáo, nên tài liệu điện tử WWW giới hạn dạng HTML, xin tập trung tìm hiểu, giới thiệu nét Dublin Core như: 246 - Cấu trúc thành phần Dublin Core - Đối tượng ứng dụng Dublin Core - Vấn đề đặt với Việt Nam Phương pháp nghiên cứu Phương pháp nghiên cứu chủ yếu sử dụng báo cáo phương pháp phân tích tổng hợp tài liệu, kết hợp hỏi ý kiến chuyên gia Kết cấu báo cáo Ngồi bảng giải thích từ viết tắt, mục lục, tài liệu tham khảo, phụ lục, báo cáo có phần sau: e Phần mở đều: nội dung phần trình bày e Phần nội dung: phần có chương: + Chương 1: Nêu đặc điểm tài liệu điện tử, từ nảy sinh uấn đề xử lý thông tin tài liệu điện tử uò tạo siêu liệu + Chương 2: Chương có mục trình bày khói niệm, đặc điểm, uà cấu trúc Dublin Core + Chương 8: Nêu đối tượng sử dụng Dublin Core, uà cách thức ứng dụng DublÌin Core e Phần kết luận: Đề xuất suy nghĩ tác giả uề uiệc ứng dụng Dublin Core Việt Nam II- PHẦN TÓM TẮT NỘI DUNG BÁO CÁO Cùng với phát triển vô mạnh mẽ WWVW, nguồn tin điện tử Internet gia tăng 247 cách nhanh chóng, người dùng tin hưởng ứng ưu điểm nhanh chóng, thuận tiện, vơ biên giới Tuy nhiên, khác với tài liệu giấy nhà xuất phát hành, tài liệu điện tử có đặc điểm khác biệt làm cho việc xử lý thơng tin chúng gặp nhiều khó khăn Có thể nêu số đặc điểm sau: e Sự không tuân thủ chuẩn mực xuất bản: Tài liệu điện tử nhiều người tham gia biên soạn tự phát hành WWW nên thường không tuân thủ chuẩn mực xuất xác lập cho tài liệu giấy khổ mẫu, cách thức trình bày, e Chất lượng thơng tin khơng đảm bảo: Việc kiểm soát chất lượng nội dung tài liệu điện tử WWW thường không thực hiện, phần cá nhân tự xuất tài liệu Web đưa chúng lên Internet, nên chất lượng thơng tin phải đặt để xem xét e Tính khơng ổn định: Tài liệu giấy xử lý nhập vào thư viện tổn lâu dài, tài liệu điện tử tạo nhanh chóng, dễ dàng bị sửa đổi biến lúc e Tính phân tán, khó xử lý chun gia: Tài liệu điện tử bị phân tán toàn mạng Internet, khơng tập trung, khó sử dụng chun gia để tìm kiếm xử lý thơng tin đưa vào CSDL chương trình tự động 248 mà phải dùng + Những đặc điểm làm cho việc quản lý thông tin tài liệu điện tử trở nên khó khăn phải quan tâm Đối uới tài liệu truyền thống ấn phẩm, băng đĩa, để xây dựng hệ tuống thơng tin chúng địi hỏi phải có tham gia chuyên gia thơng tin, xử lý tin qua q trình: biên mục mơ tả, định từ khố, làm tóm tắt giải, lập phiếu thư mục, lập biểu ghi CSDL mục thư mục Trong đó, q trình biên mơ tả tài liệu truyền thống tiến hành dựa số tiêu chuẩn phổ biến như: AACRI, AACR2, ISBD, TCVN 4743-89, gần việc ứng dụng chuẩn MARC q trình tin học hố thư viện Tuy tiêu chuẩn có đặc điểm khác nhau, song chúng dựa yếu tố thông thường tài liệu truyền thống, ví dụ tiêu đề, tác giả, nhà xuất Các thông tin mô tả gần với khái niệm "siêu liệu" (metadata) coi dạng siêu liệu nghĩa rộng Siêu liệu (metadata), hiểu cách đơn giản nhất, "Dữ liệu có cấu trúc liệu" Nó liệu mơ tả nội dung đặc trưng tài liệu điện tử Vì liệu tài liệu điện tử coi siêu liệu, hay liệu liệu Ở chừng mực đó, coi siêu liệu tài liệu điện tử tương tự biểu ghi thư mục mô tả thư mục cho tài 249 liệu thơng thường Nó có ý nghĩa quan trọng việc định vị nguồn tài nguyên điện tử nhằm quản lý khai thác chúng dễ dàng Đối với ấn phẩm, biểu ghi thư mục phiếu mục lục thư viện tách hoàn toàn Phiếu mục lục thư viện hộp phiếu mục lục, biểu ghi thư mục nằm sở liệu, tài liệu kho Với tài liệu điện tử, siêu liệu tài nguyên mơ tả có hai dạng liên hệ: e Các phần tử thể biểu ghi riêng biệt hẳn với tài liệu, chẳng hạn trường hợp biểu ghi thư mục e Siêu liệu nhúng trực tiếp thân tài nguyên Việc tra cứu thông tin WWW không đơn giản tra cứu thông tin thư viện/ kho tư liệu truyền thống, hầu hết tài liệu trực tuyến siêu liệu mơ tả (metadata) cách đủ chuẩn Các tài liệu trực tuyến WWW tồn phổ biến dạng thức HTML (kể sở liệu website tương tác có hình thức thể trang HTML) Một trang tài liệu HTML điển hình bao gồm tập thẻ (tag) nhằm hỗ trợ trình duyệt máy client hiển thị đầy đủ nội dung Có nhiều loại thẻ 250 khác phục vụ mục đích khác nhau, song tài liệu HTML thường bắt đầu bang mét thé mo kết thúc thẻ đóng Bên cặp thẻ , đoạn, đoạn tài liệu đầu HTML dược bao chia thành hai cặp thẻ đoạn thân tài liệu cặp thẻ Đoạn đầu gồm thẻ phản ánh thông tin tiêu đề tài liệu (title), phiên ngôn ngữ HTML Trong sử dụng, công cụ xuất tài liệu đó, thẻ , loại thẻ khơng có thẻ đóng, thường dùng để phản ánh thuộc tính tài liệu Đây siêu liệu cho tài liệu điện tử Tuy nhiên, tất người tạo nguồn tin điện tử Internet thiết kế loại thẻ này, mặt khác loại thẻ sinh không đầy đủ, tuân theo chuẩn định Điều gây khai khó khăn thác nguồn việc thu thập, quản tài liệu điện tử phong lý, phú [nternet Hiện nay, để tra cứu thông tin Internet thường dùng máy tìm kiếm (hay cịn gọi Search Engine) như: tìm kiếm Việt Nam Google, Altavista, Yahoo máy Vinaseek, PanVietnam Việc thực tìm kiếm thơng tin Internet cơng cụ hồn tồn dựa sở liệu trang 251 Web chương trình đặc biệt máy tìm tin tạo siêu liệu tài liệu điện tử (trang Web) văn trang Web Công việc thực hoàn toàn tự động nhờ phần mềm dùng để đánh mục tài liệu kỹ thuật thường gọi spider robo¿s Nếu khơng có quy định thống cho khổ mẫu siêu liệu việc tạo thơng tin xác để đưa vào CSDL máy tìm tin khơng đảm bảo chất lượng, ảnh hưởng đến chất lượng tìm tin Chính lý này, với mong xuất WWW muốn tài liệu biên mục tự động cách nhanh chóng thuận tiện người ta kiến nghị đưa chuẩn khổ mẫu siêu liệu Tháng 3/1995 thành phố Dublin, bang Ohio Mỹ, hội thảo nhằm thiết lập khung cốt lõi ngữ nghĩa, giúp ích cho việc biên mục nguồn tài ngun WWW Đó yếu tố siêu liệu Dublin Core Khổ mẫu tiêu chuẩn Dublin Core tập hợp phần tử siêu liệu uới mục đích mơ tả nội dung nguồn tài nguyên điện tử (trên mạng) Những sáng kiến ban đầu mô tả tài nguyên điện tử thu hút quan tâm nhiều nhóm chuyên gia mô tả tài nguyên lĩnh vực khác bảo tàng, thư viện, quan phủ tổ chức thương mại 252 Các đặc điểm Dublin Core + Tạo lập trì dế dàng Tập hợp yếu tố Dublin Core giữ lại ahỏ đơn giản được, cho phép người khơng có chun mơn dễ dàng tạo lập ghi mô tả nguồn tài nguyên thông tin, curg cấp đầy đủ thông tin thu thập từ nguồn tài nguyên mơi trường mạng Dublin Core có 15 yếu tố Ứng dụng chuẩn mô tả siêu liệu Dublin Co*e cho phép tiết kiệm khoảng thời gian cần có kh sử dụng kỹ thuật mô td thư mục truyền thống đọc, nghe hay xem toàn tài hiệu + Ngữ nghĩa dễ hiểu Việc khai thác thông tin tài nguyên điện tử gặ› nhiều khó khăn khác biệt thuật ngữ kỹ năag mô tả lĩnh vực tri thức cụ thể Dublin Core có th hỗ trợ "người du lịch số " ('digital tourist') - ngiời tìm kiếm khơng có chun mơn, tìm "đường" bằ›g cách cung cấp tập hợp yếu tố phổ biến ma ngi nghĩa chúng dễ hiểu hỗ trợ nơ Ví dụ, nhà khoa học quan tâm đến lĩnh vực họ theo tác giả cụ thể, nhà nghiên cứu ngié thuật lại quan tâm đến cơng việc theo mét nghệ sĩ cụ thể, họ đồng thuận với ý rghĩa quan trọng yếu tố "creator" 253 + Phạm vi sử dụng quốc tế rộng lớn Tập hợp yếu tố Dublin Core khởi đầu phát triển tiếng Anh, phiên tạo lập nhiều ngôn ngữ: Phần Lan, Na Uy, Thái, Nhật Bản, Pháp, Bồ Đào Nha, Đức, Huy Lạp, Indonesia, Tây Ban Nha Mặc dù thách thức mặt kỹ thuật việc quốc tế hố World Wide Web khơng trực tiếp liên quan đến phát triển Dublin Core, song phát triển áp dụng tiêu chuẩn có ý nghĩa đến chất đa dạng ngơn ngữ đa dạng văn hố thơng tin điện tử toàn nhân loại + Khả mở rộng thuận lợi Khi cân nhu cầu đơn giản hoá việc mô tả tài nguyên điện tử với nhu cầu thu thập xác thơng tin, người phát triển Dublin Core ghi nhận tầm quan trọng việc cung cấp chế mở rộng tập hợp yếu tố Dublin Core đế bổ sung thêm yêu cầu khai phá liệu Điều trông đợi vào việc nhóm chuyên gia siêu liệu tạo lập quản lý tập siêu liệu bổ sung Các yếu tố siêu liệu từ tập liên kết với siêu liệu Dublin Core, để thoả mãn khả mở rộng III- CẤU TRÚC VÀ CÁC YẾU TỐ CỦA DUBLIN CORE Dublin Core bao gồm 15 yếu tố (được liệt kê 254 bang 1), trường hợp cụ thể, yếu khơng thiết bắt buộc phải có đầy đủ lặp Bảng So sánh tương ứng yếu tố thư mục Dublin Core số trường MARC 21 Tác giã 100, 110, 700 Creator Nhan đề 245 Title Chu dé 600, 610, 650, 651, 653 | Subject Mô tả 520 Description Nhà xuất 260 Publisher Người cộng tác 720 Contributor Thời gian xuất | 260 Date Kiểu 655 Type 856 Format 024 Identifier 786 Source Khổ mẫu Định danh | Nguồn Ngôn ngữ 546 | Liên quan 787 Relation | Bao quát 500 Coverage 540 Rights Quyền * DUBLIN CORE VÀ MARC 21 Khổ mẫu MARC 21 - khổ mẫu thư mục kỷ XXI có nhiều ưu điểm dùng phổ biến (tại Hội 255 thảo Quốc gia MARC Việt Nam tổ chức vào cuối năm 2001 Trung tâm Công nghệ, MARC Thông tin - Tư liệu Khoa học 21 khuyến nghị sử dụng), nhiên, khơng đáp ứng u cầu đặt nguồn tài liệu điện tử Có thể thấy rằng, liệu mơ tả nội dung đặc trưng nguồn tài liệu điện tử khơng đầy đủ, hồn tồn khơng giống đặc trưng tài liệu thông thường Do gần 300 trường MARC 21 trở nên thừa, phức tạp tài liệu điện tử (xem bảng 1) Trong đó, Dublin Core, có cấu trúc đơn giản, lại phù hợp, chuẩn xác với đặc trưng tài liệu điện tử, nhằm tạo siêu liệu đáp ứng yêu cầu đặt việc thu thập khai thác nguồn tài liệu điện tử WWW Đối tượng sử dụng Dublin Core: Ai sử dụng siêu liệu Dublin Core để mô tả nguồn tài nguyên điện tử để phục vụ hệ thống thông tin, từ cán thư viện, chuyên gia siêu liệu, chuyên gia biên mục đến tất người tạo tài nguyên Các trang Web dạng tài nguyên phổ biến ứng dụng mô tả Dublin Core, tẰong thẻ meta đầu tài liệu HTML thêm số thông tin mơ tả để sử dụng cho Dublin Core Siêu liệu Dublin Core đóng vai trị tảng 256 hệ thống mô tả cho nhiều nhóm lĩnh vực khác nhau: tơ chức giáo dục, thư viện, quan phủ, lĩnh vực nghiên cứu khoa học, xuất Web, công việc yéu cầu nhiều đến hoạt động tìm kiếm định vị, cơng ty với hệ thống quản trị trì thức rộng Ứng dụng Dublin Core ? Siêu liệu Dublin Core tạo hai cách: - Ngay từ tài nguyên tạo lập trình cập nhật tài nguyên, theo nguyên tắc, cú pháp định - Được bổ sung vào tài nguyên nhờ chương trình phần mềm tự động Một số dịch vụ DG (http://www.ukoln ac.uk/metadata/dcdot/) "thu" trang Web tự động tạo siêu liệu Dublin Core tương ứng cho trang Web đó, hình thức thẻ ngôn ngữ HTML, RDF/XML, thích hợp để nhúng vào đoạn đầu trang Web (ứng với cặp thẻ ) Quá trình sử dụng dịch vụ sau: se Bước 1: Nhập vào địa trang chủ dịch vụ (chẳng han http://www.ukoln.ac.uk/metadata/dcdot/) eBudc 2: Gui thập thông tin mô URL tài nguyên cần thu tả cho máy chủ dịch vụ (ví dụ http://www.vnu.edu.vn/dhkhxhnv/) 257 e Bước 3: Trên hình xuất siêu liệu Dublin Core máy chủ dịch vụ xử lý trả kết e Bước 4: Tình chỉnh nội dung siêu liệu Dublin Core dịch vụ cho phép chỉnh sửa đưa vào sở liệu nhúng vào tài ngun (nếu có đủ thẩm quyền) Ví dụ: Khổ mẫu tiêu chuẩn mô tả siêu liệu Dublin Core tương ứng với số trang Web cụ thể (chưa thực bước 4) e Trang chủ website Đại học Khoa học Xã hội Nhân văn content="10339 bytes"> content="http://www.vnu.edu.vn/"> PHAN KET LUAN Đối chiếu với kết thu ứng dụng Dublin Core để mô tả trang Web Trường Đại học Khoa học Xã hội Nhân văn, ta thấy yếu tố thu dạng tiếng Việt Bên cạnh lý trang Web cịn sử dụng phơng TCVN - ABC, lý chủ yếu chưa có phiên tiếng Việt cho Dublin 259 Core Mặt khác, thông tin mơ tả trên, khơng hồn tồn đầy đủ, chắng hạn thiếu thông tin ngôn ngữ, thông tin nhà xuất khơng cụ thể Điều chứng tỏ, áp dụng Dublin Core cần có tinh chỉnh chuyên gia thông tin thư viện, Dublin Core phải bổ sung hoàn thiện Tuy nhiên, cơng cụ đắc lực nhằm hỗ trợ người cán thông tin - thư viện trình xử lý tài liệu điện tử Một câu hỏi đặt ra, thực đầy đủ yếu tố khổ mẫu tiêu chuẩn siêu liệu Dublin Core, bắt đầu nào? Câu trả lời là: phụ thuộc vào hạ tầng sở công nghệ thông tin mục tiêu 260 ... đề tài “Từm hiểu phần tử siêu liệu Dublin Core phương thức xác định tài liệu điện tử Worid Wide Web? ?? làm báo cáo khoa học Mục tiêu nghiên cứu Khổ mẫu tiêu chuẩn siêu liệu cho tài liệu điện tử, ... nhất, "Dữ liệu có cấu trúc uê liệu" Nó liệu mô tả nội dung đặc trưng tài liệu điện tử Vì liệu tài liệu điện tử coi siêu liệu, hay liệu liệu Ở chừng mực đó, coi siêu liệu tài liệu điện tử tương... sở liệu, tài liệu kho Với tài liệu điện tử, siêu liệu tài ngun mơ tả có hai dạng liên hệ: e Các phần tử thể biểu ghi riêng biệt hẳn với tài liệu, chẳng hạn trường hợp biểu ghi thư mục e Siêu liệu

Ngày đăng: 17/03/2015, 09:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan