Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx

24 681 2
Sử dụng các định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer potx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Sử dụng định nghĩa quy tắc dựng sẵn với IBM InfoSphere Information Analyzer Tìm hiểu cách sử dụng gói dựng sẵn quy tắc phân tích chất lượng liệu IBM® InfoSphere® Information Analyzer (Trình phân tích thông tin InfoSphere IBM) Chúng cho bạn thấy cách hiểu nội dung có sẵn, cách sử dụng thơng tin để giải điều kiện chất lượng liệu chung sau cách nhập vào mơi trường Information Analyzer bạn để đẩy nhanh việc phát triển đánh giá quy tắc Tổng quan Với InfoSphere Information Analyzer IBM, bạn tạo quy tắc chất lượng liệu để giám sát tự động vấn đề chất lượng liệu tiềm dựa vào yêu cầu kinh doanh định dựa vấn đề xác định việc phân tích hiệu liệu Các quy tắc thời gian để phát triển thử nghiệm để tìm hàng loạt liệu bảng, hệ thống môi trường cụ thể Mục tiêu cho bạn thấy cách để đẩy nhanh phát triển thông qua việc nhập sử dụng định nghĩa quy tắc dựng sẵn Information Analyzer, có kèm theo Bằng cách sử dụng định nghĩa quy tắc chất lượng liệu dựng sẵn, bạn đẩy nhanh việc phát triển xác nhận hợp lệ chất lượng liệu doanh nghiệp bạn Bài tập trung vào nhiệm vụ sau:     Hiểu biết định nghĩa quy tắc có sẵn gói dựng sẵn Sử dụng định nghĩa quy tắc dựng sẵn để giải điều kiện chất lượng liệu chung Rà soát lại cấu trúc nội dung tệp XML định nghĩa quy tắc Information Analyzer Nhập định nghĩa quy tắc liệu dựng sẵn cách sử dụng API HTTP/CLI — tính giới thiệu phiên V8.5 phiên nâng cao V8.7 InfoSphere Information Analyzer Các quy tắc chất lượng liệu dựng sẵn kèm theo nhằm mục đích:    Giảm nỗ lực xác định vấn đề chất lượng liệu nhiều miền thông tin phổ biến (các khóa, mã định danh quốc gia, ngày tháng, mã quốc gia, địa email, v.v ) điều kiện (các kiểm tra tính tồn vẹn, giá trị hợp lệ, kiểm tra phạm vi, tổng số gộp chung, phương trình, v.v ) Dùng làm mơ hình, khn mẫu ví dụ dùng cho việc thiết kế quy tắc bổ sung riêng bạn Được sử dụng công việc Information Analyzer (hoặc V8.5 V8.7) thơng qua Rule Stage (Giai đoạn quy tắc) có sẵn Phiên V8.7 Information Server (Máy chủ thông tin) Về đầu trang Giải miền liệu điều kiện chất lượng chung Hầu mảnh liệu lưu sở liệu hay tệp hay xử lý thông qua công việc hay dịch vụ web có số điều kiện liên quan cho biết liệu liệu có đáp ứng quy tắc xác nhận hợp lệ thiết lập không Những điều kiện đơn giản cho biết phải có liệu trường (tức là, có đầy đủ khơng) có liệu cần tuân theo số định dạng giá trị quy định (tức là, giá trị hợp lệ) Hoặc điều kiện liệu phải khớp với ghi nguồn tham khảo quy định, ví dụ mã bưu điện cho biết phương trình cụ thể tính tốn Phạm vi tiềm liệu đánh giá số lượng tiềm điều kiện chất lượng xác định phong phú (và định nghĩa quy tắc dựng sẵn kèm theo) khơng thể giải tình Thay vào đó, tập trung vào việc cung cấp tài nguyên cho tập miền điều kiện liệu tìm thấy phổ biến nhiều nguồn liệu Information Analyzer cung cấp khả để xác định logic quy tắc cho miền liệu điều kiện tách rời khỏi nguồn liệu vật lý nào, logic ln áp dụng qn từ nguồn liệu sang nguồn liệu khác (tức là, định nghĩa quy tắc liệu áp dụng sử dụng với nhiều nguồn liệu) Được kết hợp với khả nhập định nghĩa quy tắc theo định dạng XML định nghĩa, bạn lấy định nghĩa quy tắc dựng sẵn nạp chúng vào Information Analyzer bắt đầu áp dụng chúng cho nguồn liệu riêng bạn Các định nghĩa quy tắc Các định nghĩa quy tắc cú pháp mà biến, đơn giản từ thuật ngữ, đánh giá dựa điều kiện kiểu kiểm tra quy định Các điều kiện kiểm tra quy định khơng thể yêu cầu số giá trị tham khảo bổ sung, ví dụ biến khác, danh sách giá trị, định dạng cụ thể, v.v Hơn nữa, số điều kiện kết nối với mệnh đề IF, THEN, AND OR Ví dụ, định nghĩa quy tắc đơn giản sau: DateOfBirth IS_DATE Điều kiện biến gọi DateOfBirth phải có định dạng ngày công nhận Trong trường hợp phức tạp chút, bạn có định nghĩa quy tắc Liệt kê Liệt kê Định nghĩa quy tắc mẫu IF DateOfBirth EXISTS AND DateOfBirth > datevalue('1900-01-01') AND DateOfBirth < date() THEN CustomerType = 'P' Ở đây, có câu lệnh có điều kiện để kiểm tra xem biến DateOfBirth có tồn nằm phạm vi thiết lập không điều kiện đáp ứng, biến khác gọi CustomerType kiểm tra để xem liệu có với giá trị quy định không Thông tin thêm việc tạo sử dụng định nghĩa quy tắc có sẵn tài liệu hướng dẫn người dùng Information Analyzer (xem Các định nghĩa Quy tắc liệu) Các ví dụ miền liệu Các định nghĩa quy tắc kiểm tra để tìm đầy đủ trường định dạng chữ số tiêu chuẩn Các quy tắc dựng sẵn gồm ví dụ điều kiện Hình Các quy tắc kiểu liệu tính đầy đủ phổ biến Ví dụ, định nghĩa quy tắc AlphanumFieldExists đánh giá điều kiện sau: Field1 EXISTS AND len(trim(Field1)) Ví dụ bao gồm số khả Information Analyzer:   Việc sử dụng tên biến chung — trường hợp này, cần gọi Field1 o LƯU Ý: Biến kết nối để (kết buộc) tới cột trường liệu Đây tính linh hoạt cho phép định nghĩa quy tắc cung cấp sở cho nhiều quy tắc liệu thực thực tế Kiểm tra để tìm nhiều điều kiện — Sự tồn liệu điều kiện không () o LƯU Ý: Khơng có giới hạn cụ thể số lượng điều kiện đưa vào định nghĩa quy tắc, thực tế để giữ cho định nghĩa quy tắc dễ hiểu có ích Trong việc tạo định nghĩa quy tắc, tìm kiếm khối xây dựng lợi dụng khả quy tắc  Information Analyzer để kết hợp điều kiện thay xây dựng tất chúng thành quy tắc (xem Các kỹ thuật phân tích quy tắc liệu Trung tâm Thơng tin IBM] Việc đưa vào chức — Trong trường hợp len trim o LƯU Ý: Hãy tham khảo Hướng dẫn người dùng Information Analyzer để biết Các loại chức có sẵn Thường sử dụng chức để tạo điều kiện dễ giải Trong trường hợp này, chức sử dụng để kiểm tra khoảng trống trường Trước tiên chức trim (cắt tỉa) loại bỏ số lượng giá trị để trống (khoảng trống) từ bên trái bên phải văn thực tế Chức len xác định độ dài tất ký tự chữ số lại với hy vọng trường có giá trị ký tự (có nghĩa là, chiều dài khác 0) Các miền liệu theo phân loại liệu Ở mức bản, ngồi ví dụ chung chung trên, bạn phân loại liệu vào tập miền liệu chung thấy thông tin chi tiết Column Analysis (Phân tích Cột) Information Analyzer:       Mã định danh — Một trường phổ biến nhận biết liệu liên quan (ví dụ, Customer ID - mã định danh khách hàng, National identifier - mã định danh quốc gia) Bộ thị — Một trường, thường gọi Cờ, có điều kiện nhị phân (ví dụ, True - Đúng hay False - Sai, Yes - Có No - Không, Female - Nữ hay Male - Nam) Mã (Code) — Một trường, có giá trị riêng biệt xác định, thường viết tắt (ví dụ, Mã trạng thái, Trạng thái khách hàng) Ngày — Một trường có chứa số giá trị ngày Số lượng — Một trường có chứa giá trị số không phân loại Mã định danh Mã (ví dụ như, Price - Giá, Amount - Số tiền, Asset Value - Giá trị tài sản) Văn — Một trường có chứa giá trị chữ số, văn dài khơng phân loại Mã định danh Mã (ví dụ, Name - Tên, Address - Địa chỉ, Description - Mơ tả) Ngồi ra, có phân loại quy tắc bản: Valid Value Combination (Kết hợp giá trị hợp lệ), trường thường giá trị định, trường thứ hai phải có số giá trị cụ thể Một tập định nghĩa quy tắc dựng sẵn tiếp sau việc phân nhóm chung yêu cầu xác nhận hợp lệ điển hình Ví dụ, Hình nêu bật định nghĩa quy tắc dựng sẵn cho trường Code Hình Các định nghĩa quy tắc dựa phân loại phổ biến cho mã số Các định nghĩa quy tắc dựa phân loại liệu phổ biến thường đánh giá định dạng cấu trúc hay yêu cầu xác nhận hợp lệ (ví dụ, Mã định danh phải nằm phạm vi giới hạn giá trị thấp giá trị cao, khơng quy định giá trị xác nào) Ví dụ, bạn có trường Code cho phép giá trị chữ số 0-9, bạn có lẽ cần áp dụng định nghĩa quy tắc Code1DigitNumeric (xem Hình 2) để kiểm tra xem trường có chứa giá trị số chữ số không Định nghĩa quy tắc sau: Code MATCHES_FORMAT '9' Ví dụ cho thấy điều kiện đơn giản:    Sử dụng biến chung gọi Code Một việc kiểm tra để tìm điều kiện định dạng nhất: MATCHES_FORMAT o LƯU Ý: Information Analyzer có hai bước kiểm tra riêng biệt định dạng liệu: MATCHES_FORMAT, hiển thị MATCHES_REGEX, đánh giá dựa vào loạt điều kiện biểu thức quy (có thể tìm thấy nhiều ví dụ thơng qua tìm kiếm Google đơn giản theo thuật ngữ "regular expression" - biểu thức quy) Điều kiện MATCHES_FORMAT địi hỏi giá trị tham khảo; trường hợp này, dự kiến giá trị số (tất chữ số số biểu diễn số 9) Các miền liệu phổ biến Như lưu ý, có nhiều miền liệu tiềm kết hợp vào gói định nghĩa quy tắc liệu dựng sẵn Các ví dụ miền phổ biến cho gói có sẵn gồm có:   Thơng tin nhân học o Tuổi o Ngày sinh o Ngày o Mã định danh quốc gia (ví dụ, Số an sinh xã hội Hoa Kỳ, số SIN Canada, số hộ chiếu, Mã tài Ý, v.v ) Thơng tin địa Internet o Địa email Địa IP URL Thông tin đặt hàng/bán hàng/chính sách o Số tiền số lượng đặt hàng o Số tiền bán hàng (ví dụ, có khơng có thuế bán hàng, có khơng có giảm giá) o Thời điểm đến hạn tốn o Mã sản phẩm (ví dụ: mã ISBN, mã UPC) Thông tin việc làm o Ngày bắt đầu o Số tiền phải trả Thông tin Điện thoại (chỉ cho vùng Bắc Mỹ) o Định dạng điện thoại o Mã vùng o o    Các miền phổ biến mở rộng phạm vi lớp liệu, cung cấp nhiều trường hợp cụ thể cho việc sử dụng bạn, điều kiện quy tắc phức tạp Hãy xem xét định nghĩa quy tắc dựng sẵn sau SalesamtWDiscountPlusTaxValid, để đánh giá trường số tiền bán hàng dựa vài biến, bao gồm biến giảm giá (discount) biến thuế (tax): (qtyValue1 * price) - (qtyValue1 * discount) + (((qtyValue1 * price) (qtyValue1 * discount)) * salesTax) = totalAmount Ví dụ nhấn mạnh thông tin nguồn (trong trường hợp này) thông tin tham khảo sử dụng việc xác nhận hợp lệ kết hợp số tiêu chí:    Có năm biến dùng logic này: o qtyValue1 — Số lượng mục đơn đặt hàng bán hàng o price — Giá mục đơn đặt hàng bán hàng o discount — Một phần tiền giảm giá áp dụng cho mục đơn đặt hàng bán hàng o salesTax — Thuế doanh thu áp dụng đơn đặt hàng bán hàng o totalAmount — Tổng số tiền đơn đặt hàng bán hàng o LƯU Ý: Khơng có đặc tả định nghĩa quy tắc nơi lưu trữ liệu thực vào đó; chứa tất biến sở liệu hay tệp đến từ nguồn khác Thơng tin bắt buộc biến kết buộc tạo quy tắc liệu thực Một bước kiểm tra để tìm điều kiện = (bằng) o LƯU Ý: Quy tắc viết ngược lại, totalAmount biến nguồn (ở bên trái), với liệu tham khảo (phương trình đặt bên phải) Một phương trình sử dụng loạt hàm (các toán tử số tiêu chuẩn +, -, * /) dấu ngoặc đơn có liên quan Các miền liệu tiêu chuẩn hóa (của Mỹ) Một gói quy tắc dựng sẵn kèm theo nhắm vào việc xác nhận hợp lệ đầu trình tiêu chuẩn hóa với tên, địa đường phố vùng bưu Mỹ từ IBM InfoSphere QualityStage® Giai đoạn Tiêu chuẩn hóa QualityStage nhận liệu đến tên địa Mỹ khơng rõ, phân tích liệu tạo dạng tiêu chuẩn hóa Ví dụ, xem xét hai địa sau: One hundred West Main Street apt 10 100 W Main St #10 Rất có thể, hai địa biểu thị vị trí Nhưng khác biệt định dạng mô tả thường ngăn khơng cho thơng tin kết nối Kết đầu giai đoạn Tiêu chuẩn hoá sử dụng quy tắc dùng cho địa Mỹ cho hai địa tạo ra: Street# 100 100 Pre-direction Street St Type Unit W Main St W Main St Unit# Apt 10 Apt 10 Nói chung, quy tắc tiêu chuẩn hóa tạo kết quán, có trường hợp ngoại lệ, ví dụ liệu mới, điều kiện bất ngờ, liệu kiểm tra liệu mặc định định dạng bất thường Các định nghĩa quy tắc dựng sẵn nhắm vào kết đầu này, chúng áp dụng cho tên, địa thơng tin vùng bưu cú pháp Ví dụ, định nghĩa quy tắc RuralRouteTypeIfExistsThenValidValues kiểm tra xem kiểu tuyến đường nông thôn có hợp lệ khơng IF RuralRouteType EXISTS AND len(trim(RuralRouteType)) THEN rtrim(RuralRouteType) IN_REFERENCE_LIST {'RR','RTE','HC','CONTRACT'} Ví dụ làm bật số tiêu chí dùng điều kiện IF…THEN:    IF…AND… giống ví dụ đầy đủ AlphanumFieldExists hiển thị Khi biểu diễn điều kiện IF, ghi mà trường chúng có giá trị đánh giá điều kiện THEN Các ghi khơng có giá trị khơng đánh giá không tạo trường hợp ngoại lệ Điều kiện THEN sở để đáp ứng không đáp ứng định nghĩa quy tắc Trong điều kiện đó, chức rtrim loại bỏ khoảng trống bên phải RuralRouteType giá trị kết đánh giá dựa vào có giá trị hợp lệ cụ thể danh sách LƯU Ý: Kiểu định nghĩa quy tắc IF…THEN làm việc tốt với phần quy tắc lớn Về chất, chúng mô tả loạt trường hợp, trường hợp có tiêu chí riêng Nhờ xác định định nghĩa quy tắc riêng biệt tạo nhóm thành quy tắc, cho phép hiểu sâu ghi có vấn đề, có ghi vi phạm quy tắc cụ thể Về đầu trang Sử dụng định nghĩa quy tắc dựng sẵn Các định nghĩa quy tắc dựng sẵn kèm theo xem xét từ quan điểm thiết kế quan điểm triển khai Bộ tăng tốc thời gian thiết kế, khn mẫu mơ hình Theo quan điểm thiết kế, bạn sử dụng định nghĩa quy tắc dựng sẵn vốn có, chép/sửa đổi để đáp ứng nhu cầu bạn sử dụng chúng làm mơ hình thiết kế Các phần "Nhập định nghĩa quy tắc dựng sẵn" mô tả bước để đưa gói dựng sẵn vào dự án hay dự án bạn Tệp IARuleDefs-BaseSet1-General-v8x.xml gồm có 130 định nghĩa quy tắc chung miền phổ biến mô tả Tệp IARuleDefs-BaseSet1 USStan-v8x.xml gồm có gần 60 định nghĩa để xác nhận hợp lệ thơng tin tiêu chuẩn hóa tên, địa vùng bưu Mỹ mơ tả Trước tiên, nhập vào dự án bạn, bạn sử dụng định nghĩa quy tắc để kiểm tra đánh giá nguồn liệu bạn, tạo quy tắc liệu mô tả Hướng dẫn người dùng Information Analyzer (xem Tạo quy tắc liệu từ định nghĩa quy tắc) Theo khả này, định nghĩa quy tắc đẩy nhanh khả bắt đầu đánh giá chất lượng liệu chi tiết bạn Thứ hai, bạn sử dụng định nghĩa quy tắc làm khuôn mẫu để tùy chỉnh cho điều kiện liệu cụ thể riêng bạn Hãy xem xét trường hợp ví dụ nơi bạn có trường có tên Region (Vùng) biểu thị phân vùng cụ thể giới Vùng định nghĩa trường văn có chiều dài năm ký tự hai ký tự ký tự chữ phải nằm danh sách sau đây: AM (châu Phi Trung Đơng), AP (châu Á-Thái Bình Dương), EU (Châu Âu), NA (Bắc Mỹ) SA (Nam Mỹ) Các định nghĩa quy tắc dựng sẵn khơng có định nghĩa quy tắc xác Tuy nhiên, định nghĩa quy tắc TextSubstrInRefList mô tả "giá trị văn chuỗi bắt đầu vị trí với chiều dài danh sách tham khảo" Việc tương tự định nghĩa quy tắc mà bạn cần: đánh giá chuỗi để đưa vào danh sách tham khảo Trong trường hợp này, bạn làm sau: Đăng nhập vào Information Analyzer Mở dự án bạn chuyển hướng đến trình đơn Develop mục trình đơn Data Quality 3 Chọn định nghĩa quy tắc muốn có dự án bạn (trong trường hợp TextSubstrInRefList) Chọn Create a Copy (Tạo sao), Hình Hình Tạo Trong hộp thoại Create a Copy (Tạo sao), chọn OK Việc tạo quy tắc ban đầu gọi (trong trường hợp Copy_of_TextSubstrInRefList) Mở định nghĩa quy tắc để chỉnh sửa cần thiết: o Thay đổi tên định nghĩa-quy tắc: Region_SubstrInRefList o Thay đổi chức chuỗi từ:  Trước: substring(TextField, 3, 3)  Sau: substring(Region, 1, 2)  LƯU Ý: Trong trường hợp này, bạn muốn bắt đầu chức chuỗi ký tự với chiều dài o Thay đổi liệu danh sách tham khảo từ:  Trước: {'AAA','AAB','BAA','CCC'}  Sau: {'AM','AP','EU','NA','SA'} Lưu định nghĩa quy tắc cập nhật bạn Thứ ba, bạn sử dụng định nghĩa quy tắc mơ hình tham khảo — ví dụ chức điều kiện cụ thể sử dụng hướng dẫn bạn bạn thiết kế phát triển quy tắc cho mơi trường Triển khai cách tiếp cận để xác nhận hợp lệ giám sát chất lượng Như với tất định nghĩa quy tắc, gói dựng sẵn có thể:   Được sử dụng để tạo quy tắc liệu thực để xác nhận hợp lệ chất lượng Được bao gồm định nghĩa bộ-quy tắc quy tắc thực để xác nhận hợp lệ nhiều điều kiện với o Dù thảo luận chi tiết Hướng dẫn phương pháp luận hướng dẫn thực hành tốt Information Analyzer (xem Tài nguyên), quy tắc có số lợi triển khai riêng:  Chúng cung cấp hỗ trợ để đánh giá liệu dựa nhiều điều kiện quy tắc liệu Với định nghĩa quy tắc dựng sẵn, bạn kết hợp nhiều định nghĩa quy tắc dựng sẵn cần thiết để đánh giá tất trường ghi cụ thể, gồm nhiều cá thể định nghĩa quy tắc, ví dụ FieldExists  Chúng cho điểm tất quy tắc kiểm tra với ghi tập cho xem kết theo nhiều chiều (Ví dụ, bạn thấy   tất ghi thiếu quy tắc cụ thể, thấy tất quy tắc có ghi cụ thể bị lỗi, xem phần giao quy tắc cụ thể)  Chúng tối ưu hóa việc đánh giá quy tắc để thực xử lý o LƯU Ý: Bất kỳ định nghĩa bộ-quy tắc mà bạn tạo chứa định nghĩa quy tắc dựng sẵn và/hoặc định nghĩa quy tắc riêng bạn theo cách kết hợp Được xuất cho người dùng dự án khác để tận dụng: — Khi bạn nhập định nghĩa quy tắc dựng sẵn, chúng nhập vào dự án bạn Đối với người dùng khác không thuộc phần dự án bạn, định nghĩa quy tắc phải xuất nhập vào dự án họ Được xuất để triển khai môi trường Information Analyzer khác: — Ví dụ, bạn làm việc mơi trường phát triển với liệu kiểm tra để đảm bảo quy tắc liệu bạn làm việc đúng, bạn cần xuất quy tắc liệu tới môi trường sản xuất để giám sát chất lượng diễn Với giới thiệu Phiên Information Analyzer V8.7, định nghĩa quy tắc xây dựng Information Analyzer tăng thêm Rule Stage (Giai đoạn quy tắc) công việc InfoSphere DataStage QualityStage IBM Khả cho phép sử dụng định nghĩa quy tắc xuất để xác nhận hợp lệ liệu phần tích hợp liệu hay q trình xóa-dữ liệu, bao gồm định nghĩa quy tắc tăng thêm thơng qua gói định nghĩa quy tắc dựng sẵn kèm theo Ví dụ, hàng ngày bạn nhận tệp từ nguồn bên thứ ba Chất lượng nguồn liệu thường thấp, dẫn đến vấn đề hệ thống thông tin khác, gồm việc tạo báo cáo kinh doanh bạn Tệp hàng ngày chạy thông qua công việc QualityStage để tiêu chuẩn hóa tệp tải nguồn liệu có Bạn cần kiểm tra liệu đến có đầy đủ khơng cách sử dụng định nghĩa quy tắc xác nhận hợp lệ kết đầu tiêu chuẩn hóa QualityStage Hình cho thấy việc thêm vào Rule Stage mới, CustomerValidityCheck, cơng việc mẫu Rule Stage có nhiều định nghĩa quy tắc, tùy thuộc vào số trường liệu cần xác nhận hợp lệ Các kết đầu giai đoạn gồm có liệu hợp lệ, liệu không hợp lệ thông tin chi tiết vi phạm cụ thể Hình Xác nhận hợp lệ liệu thực DataStage QualityStage Xem Sử dụng Data Rule Stage để biết thêm thông tin chi tiết khả Bằng cách lợi dụng định nghĩa quy tắc dựng sẵn, bạn có thể:     Giảm nỗ lực để giải nhiều miền điều kiện thông tin chung Cung cấp mơ hình xuất định nghĩa quy tắc cho người dùng khác để làm việc với Đẩy nhanh trình đánh giá, thử nghiệm triển khai quy tắc liệu Information Analyzer Triển khai định nghĩa quy tắc để giám sát chất lượng diễn xác nhận liệu hoạt động Về đầu trang Tìm hiểu gói định nghĩa quy tắc dựng sẵn Các định nghĩa quy tắc dựng sẵn Information Analyzer kèm theo nhập thông qua API Information Analyzer Cấu trúc nội dung Các định nghĩa dựng sẵn cấu trúc cách sử dụng lược đồ XML xác định Để biết thông tin chi tiết đầy đủ cấu trúc này, tham khảo Các phần tử tệp Lược đồ cho Các định nghĩa quy tắc Ở mức rút gọn, tệp định nghĩa trông giống Liệt kê Liệt kê Lược đồ XML định nghĩa quy tắc "" Field Exists; null check only Field1 EXISTS Alphanumeric Field Exists; null & \ blank value check Field1 EXISTS AND len(trim(Field1)) 0 Example Alphabetic Format; excludes null values IF Field1 EXISTS THEN Field1 MATCHES_FORMAT 'AAAA' Example Alphanumeric Format 1; as with \ Vehicle plate #; excludes null values IF Field1 EXISTS THEN Field1 MATCHES_FORMAT '999AAA' Nội dung bao gồm:   Một tiêu đề XML chung: , không cần thay đổi Một tiêu đề XML cụ thể cho Information Analyzer: Bạn cần phải sửa đổi tên dự án-của bạn (your-project) thành tên    dự án Information Analyzer mà bạn sử dụng Các thích XML gắn kèm Mở đầu phần định nghĩa quy tắc: Các khối nội dung cho định nghĩa quy tắc, gồm có: o Tên định nghĩa quy tắc o o o Chỉ với tệp phiên V8.7, thư mục Mô tả định nghĩa-quy tắc Biểu thức (logic quy tắc) Ví dụ: Field Exists; null check only Field1 EXISTS  Sau tất khối định nghĩa-quy tắc, kết thúc phần định nghĩa-quy tắc kết thúc nội dung XML:  Các gói định nghĩa-quy tắc dựng sẵn có sẵn Có sẵn hai gói định nghĩa-quy tắc (xem phần Tải về) Một gói để sử dụng với phiên Information Analyzer V8.5, cịn gói khác để sử dụng với phiên V8.7 Nội dung định nghĩaquy tắc giống cho hai gói Sự khác biệt phiên V8.7 gồm tham khảo thư mục thêm định nghĩa quy tắc vào thư mục cụ thể lúc nhập Tùy chọn khơng có sẵn lúc nhập phiên V8.5 Đối với phiên InfoSphere Information Analyzer V8.5 IBM:  IARuleDefs-BaseSet1-v85.zip o Các định nghĩa quy tắc miền điều kiện chung: IARuleDefs-BaseSet1-General-v85.xml o Các định nghĩa quy tắc điều kiện xác nhận hợp lệ tiêu chuẩn hóa Mỹ: IARuleDefs-BaseSet1-USStan-v85.xml  LƯU Ý: Gói sử dụng Information Analyzer V8.5 V8.7 Đối với phiên InfoSphere Information Analyzer V8.7 IBM:  IARuleDefs-BaseSet1-v87.zip o Các định nghĩa quy tắc miền điều kiện chung: IARuleDefs-BaseSet1-General-v87.xml o Các định nghĩa quy tắc điều kiện xác nhận hợp lệ tiêu chuẩn hóa Mỹ: IARuleDefs-BaseSet1-USStan-v87.xml  LƯU Ý: Gói sử dụng Information Analyzer V8.7 có tùy chọn Folder (Thư mục) mà trước khơng có sẵn API CLI Bạn cần: Chọn gói phần mềm với phiên Information Analyzer bạn tải từ tệp kèm theo Lưu tệp vào vị trí máy tính bạn Giải nén gói trích xuất hai tệp XML tới vị trí máy tính bạn Về đầu trang Nhập định nghĩa quy tắc dựng sẵn Có hai tùy chọn để nhập tải định nghĩa dựng sẵn: Giao diện dòng lệnh (CLI) API REST (HTTP), truy cập thông qua trình duyệt Giao diện dịng lệnh (CLI)     Lệnh IAAdmin Nó có sẵn máy khách máy chủ Information Analyzer Các ưu điểm: o Khơng có chương trình phụ trợ (add-on) POST (Gửi thơng báo) cần thiết cho trình duyệt bạn o Nhiều người làm kỹ thuật thích tiện ích dòng lệnh Các nhược điểm: o Mặc dù tương đối ngắn, số người thấy cú pháp dịng lệnh khó hiểu o Một số mơi trường vơ hiệu hóa tiện ích dịng lệnh Giao diện API REST (trình duyệt)    Nó sử dụng tiện ích HTTP POST Các ưu điểm: o GUI (Giao diện người dùng đồ họa) dựa Web Các nhược điểm: o Nó địi hỏi chương trình phụ trợ POST (một số mơi trường khơng cho phép chương trình phụ trợ trình duyệt) Bài mơ tả hai phương pháp nhập Các bước nhập tiếp sau giả định bạn: Tải về, giải nén (trích xuất) lưu tệp Rule Definition XML (XML Định nghĩa quy tắc) đến nơi máy khách máy chủ Information Analyzer lưu trú (điều đến máy chủ từ xa, hình ảnh máy khách từ xa máy tính riêng bạn) o LƯU Ý: Những hướng dẫn giả định bạn tải máy tính riêng nhập từ môi trường cục bạn Mở tệp XML mà bạn muốn sử dụng Notepad (hoặc trình soạn thảo tệp khác nào) 3 Thay đổi tên dự án (được liệt kê "your-project" lưu ý trên) theo tên lựa chọn bạn, tồn môi trường Information Analyzer bạn mà bạn truy cập vào o Lưu ý: chưa có dự án Information Analyzer nào, bạn (hoặc người quản trị dự án IA bạn) cần tạo dự án o LƯU Ý: Nếu bạn không thay đổi tên dự án tệp XML, dự án có tên your-project (dự án-của bạn) tạo tất định nghĩa quy tắc chuyển vào Lưu (các) tệp XML Nhập Dòng-lệnh (CLI) Để thực nhập định nghĩa quy tắc Information Analyzer qua CLI: Mở dấu nhắc lệnh (DOS) máy khách Ví dụ, Windows® XP, bạn sử dụng Start > All Programs > Accessories > Command Prompt Chuyển hướng đến C:\IBM\InformationServer\ASBNode\bin Chạy lệnh sau: IAAdmin -user xxxxx -password xxxxx -host your-server -port 9080 -create -projectContent C:\Temp\IARuleDefs-BaseSet1-General-v87.xml Sử dụng thơng tin cấu hình Information Analyzer lệnh liên quan với môi trường bạn: o –user (ID người dùng Information Analyzer bạn) o –password (mật Information Analyzer bạn) o –host (máy chủ Information Analyzer bạn — khớp với thông tin đăng nhập bạn) o –port (luôn 9080 — khớp với thông tin đăng nhập bạn) o Sau –projectContent, gồm vị trí bạn lưu tệp XML Ví dụ cho thấy tệp lưu C:\Temp\, vị trí tên tệp bạn khác với vị trí tên tệp hiển thị Sử dụng v85 v87 tên tệp cho phù hợp với phiên cài đặt bạn CÁC LƯU Ý: Nếu bạn nhập gói định nghĩa quy tắc BaseSet1-General BaseSet1-USStan, bạn cần thay đổi tên tệp chạy lệnh lần thứ hai để nhập lần thứ hai o Bạn nhận lỗi bạn chạy lệnh hai lần với tên tệp Lỗi cho bạn biết quy tắc tồn Nếu điều xảy ra, ban hành lại lệnh với -update thay cho -create o Nếu bạn cố gắng để nhập tệp v87 vào phiên Information Analyzer 8.5, bạn nhận thông báo lỗi sau: o >The XML request passed as parameter could not be parsed for the following reason: Feature 'folder' not found o Lệnh chạy khoảng 4-5 phút Nếu nhập thành cơng, bạn đăng nhập vào Information Analyzer, mở dự án bạn (giống rõ tệp XML lúc nhập khẩu) xem xét lại định nghĩa quy tắc nhập Bạn thấy danh sách định nghĩa quy tắc tương tự Hình Hình Các định nghĩa quy tắc nhập Nhập trình duyệt web (REST API) Ví dụ việc nhập trình duyệt sau sử dụng chương trình phụ trợ Firefox Poster có liên quan Nếu bạn có trình duyệt khác, bạn cần tìm tiện ích cho phép bạn thực chức POST để nhập định nghĩa quy tắc Information Analyzer dựng sẵn với phương pháp Trước thực nhập theo phương pháp này, bạn cần tiện ích Firefox phép chức POST Thực bước sau (có thể khác tùy thuộc vào phiên trình duyệt bạn): Mở Firefox chuyển hướng đến https://addons.mozilla.org/en-US/firefox/addon/poster/ Chọn Add to Firefox Chọn Install Now nhắc Đóng khởi động lại Firefox Sau khởi động lại Firefox, kích hoạt Add-on sau (vẫn phụ thuộc vào phiên bản) o Firefox > Options > Add-on Bar hay o Firefox > Tools > Add-ons Tùy thuộc vào phiên bản, bạn thấy add-on này: o Một chữ P tô màu vàng phía bên phải trình duyệt bạn o Một tùy chọn trình đơn Firefox > Tools > Poster Để thực nhập định nghĩa quy tắc Information Analyzer thơng qua trình duyệt: Mở Firefox chuyển hướng đến add-on Chọn add-on Poster Bạn thấy dạng trình duyệt hiển thị Hình Hình Dạng Poster Firefox Điền vào biểu mẫu: URL: http://\ :9080/InformationAnalyzer/create?projectContent Người dùng: Mã định danh người dùng Information Analyzer bạn Mật khẩu: Mật Information Analyzer bạn Thời gian chờ: Thay đổi đến 300 Tệp: Nhập tên tệp chọn nút Browse để chọn tệp XML từ thư mục thích hợp Lưu ý tên tệp bạn khác với tên tệp hiển thị Sử dụng v85 v87 cho phù hợp với cài đặt bạn POST (Gửi thông báo): Chọn POST để chạy trình tải Quá trình POST chút thời gian (3-5 phút) bạn thấy thông báo cho biết trạng thái OK LƯU Ý: Có thể bạn nhận đáp ứng thời gian chờ Timeout (thời gian chờ) không thay đổi Điều đơn giản ảnh hưởng đến đáp ứng trạng thái cho máy khách, không ảnh hưởng đến chức post máy chủ Nếu nhập thành cơng, bạn đăng nhập vào Information Analyzer, mở dự án bạn (giống rõ tệp XML lúc nhập khẩu) xem xét lại định nghĩa quy tắc nhập Bạn thấy danh sách định nghĩa quy tắc tương tự Hình Bây bạn sẵn sàng bắt đầu sử dụng định nghĩa quy tắc Information Analyzer dựng sẵn bạn Về đầu trang Kết luận Bây bạn sử dụng định nghĩa quy tắc dựng sẵn kèm theo dự án IBM InfoSphere Information Analyzer bạn Bài xem xét cụ thể cách thực nhiệm vụ sau:     Hiểu định nghĩa quy tắc có sẵn gói dựng sẵn kèm theo Sử dụng định nghĩa quy tắc dựng sẵn để giải điều kiện chất lượng liệu chung Xem xét lại cấu trúc nội dung tệp XML định nghĩa-quy tắc Nhập định nghĩa quy tắc liệu dựng sẵn cách sử dụng API HTTP/CLI với Information Analyzer V8.5 V8.7 Một nhập khẩu, bạn sử dụng định nghĩa quy tắc dựng sẵn để thiết lập quy tắc chất lượng liệu, sau kiểm tra theo dõi vấn đề chất lượng-dữ liệu tiềm Và, cách sử dụng định nghĩa quy tắc dựng sẵn, bạn rút ngắn thời gian cần thiết để đưa vào kiểm tra chất lượng liệu chỗ cho loạt liệu bảng, hệ thống môi trường cụ thể Về đầu trang Phụ lục: Các tên mô tả định nghĩa quy tắc dựng sẵn Các định nghĩa quy tắc dựng sẵn cung cấp để sử dụng với IBM InfoSphere Information Server (Máy chủ Thông tin InfoSphere IBM) Các định nghĩa quy tắc sau có tệp IARuleDefs-BaseSet1-General-v8x.xml Bảng Các định nghĩa quy tắc IARuleDefs-BaseSet1-General-v8x.xml Tên quy tắc Mơ tả tóm tắt quy tắc FieldExists Trường tồn AlphanumFieldExists Trường chữ số tồn AlphaFormatValid Định dạng chữ mẫu AlphanumFormatValid Định dạng chữ số mẫu AlphanumFormatValid_2 Định dạng chữ số mẫu FieldIsNumeric Trường số FieldExistsAndNumeric Trường tồn số FieldExistsAndNumeric_2 Trường tồn số FieldIsDate Trường giá trị ngày FieldExistsAndDate Trường tồn giá trị ngày FieldExistsAndDate_2 Trường tồn giá trị ngày IndicatorY_NValid Trường thị 'Y' (Có) 'N' (Khơng) IndicatorUpperCaseY_NValid IndicatorT_FValid IndicatorUpperCaseT_FValid IndicatorString0_1Valid IndicatorNum0_1Valid Code1DigitUpperCase Code1DigitLowerCase Code1DigitNumeric Code1DigitAlphanum Code1DigitAlphabetic -Code1DigitNumeric_2 Code1DigitAlphanum_2 CodeInRefMaster CodeNotInDefaultValueList TextSubstrIsValueX TextSubstrInRefList Date1NumLessThanDate2 Date1StringLessThanDate2 Date1NumLessThanSysdate Date1StringLessThanSysdate DateNumWithinLastYear DateStringWithinLastYear Date1NumWithin60DaysDate2 Date1StringWithin60DaysDate2 YearNumNotFuture YearStringNotFuture YearNumIsCurrentYear YearStringIsCurrentYear IdentifierUnique CompoundIdentifierUnique Id1StXCharactersAlphabetic IdLast4To5CharactersMatchId2 IdOccursLtXTimes IdInValidRange Trường thị trường hợp 'Y' 'N' Trường thị 'T' (Đúng) 'F' (Sai) Trường thị trường hợp 'T' (Đúng) 'F' (Sai) Trường thị '1' '0' Trường thị số '1' '0' Mã hàng chữ viết hoa Mã hàng chữ viết thường Mã số chữ số Mã hàng chữ số, viết hoa hay viết thường Mã hàng chữ -Mã số có chữ số Mã hàng chữ số Mã nguồn tham khảo Mã khơng tồn số Giá trị văn chuỗi bắt đầu vị trí với chiều dài 'X' Giá trị văn chuỗi bắt đầu vị trí với chiều dài danh sách tham khảo Ngày = 18 < 125 Trẻ em liệu chuỗi : Tuổi >= < 18 Tuổi dẫn xuất: Tuổi >= < 125 Người lớn tuổi dẫn xuất: Tuổi >= 18 < 125 Trẻ em tuổi dẫn xuất: Tuổi >= < 18 Nếu trẻ em (dạng số) Trạng thái nhân = 'N' Nếu trẻ em (chuỗi) Trạng thái nhân = 'N' Nếu trẻ em (có dẫn xuất) Trạng thái nhân = 'N' Ngày sinh >= 1900-01-01 = 1900-01-01 = Ngày sinh ngày tương lai Ngày để trống, tồn tại, phải >= Ngày sinh khơng phải ngày tương lai Ngày bắt đầu ngày tuần Ngày bắt đầu ngày tuần Ngày trưởng thành tồn nơi mà điều kiện hợp lệ SSN số có chữ số SSN phù hợp với định dạng số SSN phù hợp với định dạng số với dấu gạch ngang TIN phù hợp với định dạng số với dấu gạch ngang SSN phù hợp với định dạng regex (biểu thức quy) SIN phù hợp với định dạng regex INSEE phù hợp với định dạng regex FiscalCode phù hợp với định dạng regex NIF phù hợp với định dạng regex NINO phù hợp với định dạng regex PassportNumber phù hợp với định dạng regex CreditCard phù hợp với định dạng regex Tính tốn số tiền tốn hợp lệ (phép nhân) Tính tốn số tiền tốn hợp lệ (phép nhân) Tính tốn định giá * hợp lệ (phép nhân) Tính tốn định giá * hợp lệ (có salesTax – thuế doanh thu) Tính tốn định giá * hợp lệ (có giảm giá) Tính tốn định giá * hợp lệ (có giảm giá trước salesTax) Tính tốn định giá * hợp lệ (phép nhân) – có tra cứu Tính tốn định giá * hợp lệ (có salesTax) — có tra cứu Tính tốn định giá * hợp lệ (có giảm giá) – có tra cứu — có tra cứu Tính tốn định giá * hợp lệ (có giảm giá trước salesTax) — có tra cứu Mơ tả sản phẩm có ký tự hợp lệ Địa Email có định dạng hợp lệ Địa email kiểu ghi chú, có định dạng hợp NotesEmailAddrValidFormat lệ InternalEmailValidDomain Email nội có tên miền hợp lệ HostNameValidFormat Tên máy chủ có định dạng hợp lệ UrlValidFormat URL có định dạng hợp lệ IpaddressValidFormat IPAddress có định dạng hợp lệ ValidNAmerAreaCode Mã vùng hợp lệ ValidNAmerAreaCode_2 Mã vùng hợp lệ ValidUsPhoneFormat Định dạng điện thoại Mỹ hợp lệ ValidIsbnFormat Định dạng ISBN hợp lệ ValidUpc_AFormat Định dạng UPC-A hợp lệ ValidCountryOfOperation Quốc gia hoạt động hợp lệ ValidCountryOfIssue Quốc gia ban hành hợp lệ Cùng Mã định danh thuế (Taxid), tên — SameTaxid_Name_1 v1 Tất ghi, có số sách giống SamePolicy_CodeValue nhau, cần có mã cụ thể cho giá trị Tổng tất mục dòng = tổng số lượng SumLineItemsEqTotalQty cho đơn đặt hàng Tổng tất giá trị mục dòng = SumLineItemsEqTotalValue tổng giá trị cho đơn đặt hàng So sánh giá trị thị trường danh mục đầu tư cho ngày kinh doanh ngày kinh MrktValueChgCurr_Prior doanh trước với thay đổi giá trị lớn 10% CountryCodeExists Mã quốc gia có IsoCountryCode2DigitAlphaIsValid số alpha Mã quốc gia ISO hợp lệ IsoCountryCode3DigitAlphaIsValid số alpha Mã quốc gia ISO hợp lệ số Mã quốc gia ISO hợp lệ người dùng IsoCountryCode3DigitNumericIsValid định (900-999) số Mã quốc gia ISO khơng có lỗi tiêu chuẩn IsoCountryCodeDidNotHaveStandardizationError hóa ProductDescriptionValidCharacters EmailAddrValidFormat Các định nghĩa quy tắc sau có tệp IARuleDefs-BaseSet1-USStan-v8x.xml Bảng Các định nghĩa quy tắc IARuleDefs-BaseSet1-USStan-v8x.xml Tên quy tắc Mô tả tóm tắt quy tắc NameExists Tên tồn NameTypeIsIndividualOrOrganization Kiểu tên Cá nhân Tổ chức GenderCodeDerivedValid Mã giới tính có nguồn gốc hợp lệ NamePrefixIfExistsThenValid Tiền tố tên có hợp lệ Tên hợp lệ Tên đệm hợp lệ Tên ban đầu hợp lệ Tên hệ danh sách tham khảo Hậu tố tên có hợp lệ Tên bổ sung có hợp lệ Mẫu tên không xử lý Mẫu tên không xử lý Dữ liệu tên ngoại lệ Tên — Khơng có liệu kiểm tra Tên đệm — Khơng có liệu kiểm tra Tên ban đầu — Khơng có liệu kiểm tra Tên bổ sung - Khơng có liệu kiểm tra Tên NYSIIS tồn Tên tồn Tên ban đầu NYSIIS tồn tên ban PrimaryName1Nysiis đầu tồn Tên ban đầu NYSIIS tồn tên ban PrimaryName2Nysiis đầu tồn Nếu từ ban đầu phù hợp có MatchPrimaryWordsIs1 từ phù hợp ban đầu Nếu từ ban đầu phù hợp có MatchPrimaryWordsIs2 từ phù hợp ban đầu Nếu từ ban đầu phù hợp có MatchPrimaryWordsIs3 từ phù hợp ban đầu Nếu từ ban đầu phù hợp có MatchPrimaryWordsIs4 từ phù hợp ban đầu Nếu từ ban đầu phù hợp nhiều MatchPrimaryWordsIsGe5 tất từ phù hợp ban đầu AddressExists Địa tồn Kiểu địa có nằm danh AddressTypeIfExistsThenIsInReferenceList sách tham khảo Số nhà Hậu tố có ký tự HouseNumberOrSuffixIfExistsThenValidCharacter hợp lệ StreetDirectionalIfExistsThenValidValues Hướng phố có hợp lệ StreetNameIfExistsThenValidCharacters Tên phố có hợp lệ BuildingNameIfExistsThenValidCharacters Tên tịa nhà có hợp lệ BoxTypeIfExistsThenValidValues Kiểu hộp có hợp lệ BoxTypeAndBoxValueCombo Kiểu hộp kết hợp giá trị hộp FloorTypeIfExistsThenValidValues Kiểu tầng có hợp lệ FloorTypeAndFloorValueCombo Kiểu tầng kết hợp giá trị tầng RuralRouteTypeIfExistsThenValidValues Kiểu đường nơng thơn có hợp lệ Kiểu đường nông thôn kết hợp giá RuralRouteTypeAndRuralRouteValueCombo trị đường nơng thơn StreetTypeIfExistsThenValidCharacters Kiểu phố có hợp lệ Kiểu đơn vị Nhiều đơn vị có hợp UnitAndMultiunitTypeIfExistsThenValidValue lệ FirstNameValid MiddleNameValid PrimaryNameValid NameGenerationInRefList NameSuffixIfExistsThenValid AdditionalNameIfExistsThenValid UnhandledNamePatternExpectEmpty UnhandledNameDataExpectEmpty ExceptionNameDataExpectEmpty FirstNameNoTestData MiddleNameNoTestData PrimaryNameNoTestData AdditionalNameNoTestData FirstNameNysiis Kiểu đơn vị - Giá trị đơn vị hay Kiểu nhiều đơn vị kết hợp giá trị nhiều đơn vị AdditionalAddressIfExistsThenValid Địa bổ sung có hợp lệ UnhandledAddressPattern Các mẫu địa không xử lý UnhandledAddressData Dữ liệu địa không xử lý ExceptionAddressData Dữ liệu địa ngoại lệ StreetNameNoTestData Khơng có liệu kiểm tra tên phố AdditionalAddressNoTestData Dữ liệu kiểm tra khơng có địa bổ sung CityExists Thành phố tồn StateCodeIsInReferenceSource Mã Bang nguồn tham khảo ZipCodeIsInReferenceSource Mã ZIP nguồn tham khảo ZipPlus4CodeIsInReferenceSource Mã ZIP+4 nguồn tham khảo Mã ZIP+4 bỏ dấu gạch ngang ZipPlus4CodeRemovingHyphensIsInReferenceSourc nguồn tham khảo CityStateAndZipCodeComboIsValid Kết hợp Mã ZIP City State hợp lệ Độ dài Bang hợp lệ với Mã quốc gia ValidStateLengthForCountryCode Mỹ UnhandledAreaPattern Mẫu vùng không xử lý UnhandledAreaData Dữ liệu vùng không xử lý ExceptionAreaData Dữ liệu vùng ngoại lệ CityNoTestData Dữ liệu kiểm tra khơng có thành phố UnitTypeAndUnitValueOrMultiunitType-Multi-Uni ... tên mô tả định nghĩa quy tắc dựng sẵn Các định nghĩa quy tắc dựng sẵn cung cấp để sử dụng với IBM InfoSphere Information Server (Máy chủ Thông tin InfoSphere IBM) Các định nghĩa quy tắc sau có... gói định nghĩa quy tắc dựng sẵn Các định nghĩa quy tắc dựng sẵn Information Analyzer kèm theo nhập thông qua API Information Analyzer Cấu trúc nội dung Các định nghĩa dựng sẵn cấu trúc cách sử dụng. .. nghĩa- quy tắc Nhập định nghĩa quy tắc liệu dựng sẵn cách sử dụng API HTTP/CLI với Information Analyzer V8.5 V8.7 Một nhập khẩu, bạn sử dụng định nghĩa quy tắc dựng sẵn để thiết lập quy tắc chất lượng

Ngày đăng: 18/03/2014, 05:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan