Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

51 616 2
Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

MỦC LỦCM Í ÂÁƯ 31. Gi ïi thi ûu chung:å ã 32. C s d ỵ li ûu vàn ba n:å åí ỉ ã í .43. Y u c u v n tin:ã áư áú 74. K t lu ûn:ãú á 8KHA I NI M V CH MU C A O VA C CH V N TINÏ ÃÛ ÃƯ È Û Â Í Ì Å ÃÚ ÁÚ 91. Chè mủc âa o:í 91.1 Danh sạch âa o:í 101.2 T ûp âa o:ã í .101.3 T âi n va trng l üng vàn ba n:ỉì ãø ì ỉå í 112. C ch v n tin:å ãú áú 122.1 V n tin dảng x p hảng:áú ãú 122.2 V n tin dảng logic:áú 143. K t lu ûn:ãú á 15X Y D NG CH MU C A Ố ỈÛ È Û Â Í .171. C u trục d ỵ li ûu:áú ỉ ã 172. X y d ûng c u trục t âi ná ỉ áú ỉì ãø .213. X y d ûng t ûp âa o:á ỉ ã í 244. Gia i thu ût x y d ûng chè mủc âa o:í á á ỉ í 27X LY V N TIN LOGICỈÍ Ï ÁÚ .281. Ph n têch y u c u v n tin :á ã áư áú .282. X l cạc phẹp logic:ỉí 342.1 Phẹp AND: 352.2 Phẹp OR: .363. K t lu ûn:ãú á 38THI T K H TH NG VA TH C NGHI MÃÚ ÃÚ ÃÛ ÄÚ Ì ỈÛ ÃÛ .391. Mủc âêch x y d ûng h û th ng:á ỉ ã äú 392. M hçnh ph n c p ch ïc nàng:ä á áú ỉ .403. X y d ûng ch ng trçnhá ỉ ỉå 423.1 Ng n ng ỵ s dủngä ỉ ỉí .423.2 X y d ûng c s d ỵ li ûu á ỉ å åí ỉ ã .423.3 X y d ûng ch ng trçnhá ỉ ỉå 434. Th ûc nghi ûm:ỉ ã 46K T LU NÃÚ ÁÛ 491. K t qu a âảt â ücãú í ỉå 492. Hản chãú .503. H ïng phạt tri nỉå ãø 50LÅÌI GIÅÏI THIÃÛU Trong th i âải nga y nay, c ng ngh û th ng tin â cọ nh ỵngåì ì ä ã ä ỉ ti n b ü v üt b ûc tr n nhi u lénh v ûc, âàûc bi ût trong âọ pha iãú ä ỉå á ã ãư ỉ ã í nọi â n kha nàng ïng dủng tin hc va o cu üc s ng nhà m âạpãú í ỉ ì ä äú ò ïng mi nhu c u th ûc t cu a con ng i.ỉ áư ỉ ãú í ỉåìTh ng tin la m üt ph n cu a cu üc s ng, con ng i âangä ì ä áư í ä äú ỉåì pha i â i â u v ïi khọ khàn la la m sao nà m bà t â üc th ng tiní äú áư å ì ì õ õ ỉå ä m üt cạch nhanh nh t va chênh xạc tr ïc s û phạt tri n nhanhä áú ì ỉå ỉ ãø chọng cu a cạc ngu n th ng tin. Cu ng v ïi s û bu ng n cu äư ä ì å ỉ ì äø í th ng tin, cạc nhu c u v dëch vủ tra c ïu th ng tin cng tàng l nä áư ãư ỉ ä ã kh ng ng ng. Nga y nay cọ r t nhi u sa n ph m ph n m mä ỉì ì áú ãư í áø áư ãư kh ng nh ỵng âạp ïng â üc cạc nhu c u âọ ma nga y ca ng phạtä ỉ ỉ ỉå áư ì ì ì tri n va hoa n thi ûn h n. ọ la cạc h û th ng tra c ïu th ng tin.ãø ì ì ã å  ì ã äú ỉ äXu t phạt t th ûc t âọ, â üc s û g üi cu a th y Váú ỉì ỉ ãú ỉå ỉ å í áư Ngc Anh, trong quạ trçnh la m â ạn t t nghi ûp em chn âì äư äú ã ãư ta i “ C ch v n tin dảng logic cho c s d ỵ li ûu vàn ba n kh ngì å ãú áú å åí ỉ ã í ä c u trục “. Bà ng nh ỵng ki n th ïc â hc, em â hoa n tha nháú ò ỉ ãú ỉ ì ì â ạn cu a mçnh v ïi n üi dung sau:äư í å äCh ng 1: M â å åí áưCh ng 2: Khại ni ûm v chè mủc âa o va c ch v n tinỉå ã ãư í ì å ãú áúCh ng 3: X y d ûng chè mủc âa å á ỉ íCh ng 4: X l v n tin logicỉå ỉí áúCh ng 5: Thi t k h û th ng va th ûc nghi ûmỉå ãú ãú ã äú ì ỉ ãCh ng 6: K t lu ûnỉå ãú áVç th i gian cọ hản va ki n th ïc co n hản ch n n chà cåì ì ãú ỉ ì ãú ã õ chà n trong â ạn na y kh ng trạnh kho i nh ỵng thi u sọt. Emõ äư ì ä í ỉ ãú r t mong â üc s û gọp , chè ba o cu a cạc Th y c giạo va cạcáú ỉå ỉ í í áư ä ì bản.Em xin ch n tha nh ca m n khoa C ng Ngh û Th ng Tiná ì í å ä ã ä tr ng ải Hc K Thu ût cu ng cạc Th y c â tảo âi u ki ûnỉåì  á ì áư ä ãư ã cho em hoa n tha nh â ạn na y. àûc bi ût em xin ch n tha nhì ì äư ì  ã á ì ca m n th y V Ngc Anh â giụp â ỵ em t ûn tçnh trong th ií å áư å á åì gian qua. Cu i cu ng xin ca m n cạc bản â â üng vi n va giụpäú ì í å ä ã ì â ỵ t i trong quạ trçnh la m vi ûc. å ä ì ãa Nàơng, thạng 5 nàm 2000. ì Sinh vi nã L Ngc QuangãCHỈÅNG 1MÅÍ ÂÁƯU1. Giåïi thiãûu chung:X h üi nga y ca ng phạt tri n, thç nhu c u âo i ho i s ûä ì ì ãø áư ì í ỉ âạp ïng cạc y u c u nhanh va chênh xạc cu a con ng i nga ã áư ì í ỉåì ì ca ng cao. Nga y nay v ïi m üt l üng th ng tin kh ng l v miì ì å ä ỉå ä äø äư ãư màût nh khoa hc k thu ût, vàn hc, ngh û thu ût, gia i trê .ỉ á ã á í thç â âạp ïng â üc cạc y u c u th ng tin thêch h üp v m ütãø ỉ ỉå ã áư ä å ãư ä th loải hay nhi u th loải na o âọ â i v ïi ng i v n tin la r tãø ãư ãø ì äú å ỉåì áú ì áú quan trng.Trong th vi ûn, â bản âc kh ng pha i m t c ng lủcỉ ã ãø ä í áú ä tung ca â ng sạch â tçm cho mçnh m üt quy n sạch nh í äú ãø ä ãø ỉ thç ng i ta â â a ra m üt ph ng phạp giụp tçm ki m r tỉåì ỉ ä ỉå ãú áú nhanh la x y d ûng chè mủc. T âọ bản âc cọ th tçm ki mì á ỉ ỉì ãø ãú nhanh cạc y u c u cu a mçnh v ïi cạc chè mủc â l ûp sàơn theỗ áư í å á t n sạch, t n tạc gia hồûc n üi dung.ã ã í äS û phạt tri n v üt b ûc cu a c ng ngh û th ng tin la m ch ãø ỉå á í ä ã ä ì b ü màût x h üi cọ nh ỵng thay â i âạng k . Con ng i miä ä ỉ äø ãø ỉåì åí lục mi n i â u cọ th nà m bà t m üt cạch nhanh chọng cạcå ãư ãø õ õ ä th ng tin ma mçnh quan t m. ọ la nh cạc h û th ng truy tçmä ì á  ì åì ã äú th ng tin. Cạc h û th ng truy tçm th ng tin ra â i â gọp ph nä ã äú ä åì áư kh ng nho trong lénh v ûc tra c ïu âạp ïng â üc m üt ph n y í ỉ ỉ ỉ ỉå ä áư ã c u cu a ng i v n tin.áư í ỉåì áú Vi ûc x y d ûng h û th ng truy tçm th ng tin trong lénh v ûcã á ỉ ã äú ä ỉ tin hc cng d ûa tr n nguy n tà c x y d ûng chè mủc. i ã ã õ á ỉ  ãư na y â â üc d û âoạn tr ïc khi ng i ta ti n ha nh x y d ûngì ỉå ỉ ỉå ỉåì ãú ì á ỉ chè mủc m üt cạch thu c ng va la t t y u khi mạy tênh ra â i.ä í ä ì ì áú ãú åì V ïi vi ûc s dủng chè mủc ta cọ kha nàng tçm â üc nh ỵngå ã ỉí í ỉå ỉ th ng tin c n thi t va âàûc bi ût la khi th ng tin â üc vi t bà ngä áư ãú ì ã ì ä ỉå ãú ò nh ỵng ng n ng ỵ khạc. Th ûc v ûy, n u ta mu n tçm â ücỉ ä ỉ ỉ á ãú äú ỉå th ng tin t m üt quy n sạch â üc vi t bà ng m üt ng n ng ỵä ỉì ä ãø ỉå ãú ò ä ä ỉ khạc thç tr n c s chè mủc cu a quy n sạch âọ ta xạc âënh vẫ å åí í ãø ì dëch nh ỵng trang ch ïa th ng tin y u c u h n la dëch toa n b üỉ ỉ ä ã áư å ì ì ä quy n sạch y. M üt quy n sạch kh ng cọ chè mủc s mangãø áú ä ãø ä â n cho âc gia s û b t l üi l ïn. a ph n mi ng i lục na ú í ỉ áú å å  áư ỉåì ì hay lục khạc â âc k quy n sạch â tçm ki m m üt âi u gçãø ãø ãú ä ãư âọ ma h chà c chà n la cọ âọ nh ng â n gia n la tçm hoa iì õ õ ì åí ỉ å í ì ì kh ng th y.ä áúi v ïi m üt d ỵ li ûu nho th ng th ng, â tçm m üt th ngÂäú å ä ỉ ã í ä ỉåì ãø ä ä tin na o âọ ta cọ th tçm ki m m üt cạch tu n t û va v ïi m ütì ãø ãú ä áư ỉ ì å ä s û may mà n na o âọ bà ng nh ỵng â u m i ng ỵ ca nh khạcỉ õ ì ò ỉ áư äú ỉ í nhau cọ th tçm â üc n üi dung mong mu n. Nh ng v ïi m ütãø ỉå ä äú ỉ å ä d ỵ li ûu l ïn c ỵ Gigabyte t ïc la ha ng tràm ha ng tri ûu trang thçỉ ã å å ỉ ì ì ì ã xem ra ph ng th ïc na y la kh ng hi ûu qua . V ïi d ỵ li ûu âọ,ỉå ỉ ì ì ä ã í å ỉ ã n u nh kh ng du ng chè mủc ma th ûc hi ûn tçm ki m â tçmãú ỉ ä ì ì ỉ ã ãú ãø th ng tin quan t m thç th i gian th ûc hi ûn la r t l u. V ïi l dộ á åì ỉ ã ì áú á å âọ thç x y d ûng chè mủc cho h û th ng truy tçm th ng tin mấ ỉ ã äú ä ì âụng h n la x y d ûng chè mủc cho c s d ỵ li ûu vàn ba n cu ẩ ì á ỉ å åí ỉ ã í í h û th ng la c n thi t.ã äú ì áư ãú2. Cå såí dỉỵ liãûu vàn bn:Th ng tin la m üt ph n quan trng cu a cu üc s ng conä ì ä áư í ä äú ng i, nh t la trong x h üi hi ûn âải nga y nay. Ha ng nga åì áú ì ä ã ì ì ì chụng ta th ng xuy n âọn nh ûn th ng tin t nhi u ngu nỉåì ã á ä ỉì ãư äư khạc nhau. ïng tr ïc s û bu ng n th ng tin cu ng v ïi vi ûc ạpÂỉ ỉå ỉ ì äø ä ì å ã dủng c ng ngh û th ng tin, â giụp cho con ng i cọ th nà mä ã ä ãø ỉåì ãø õ bà t â üc th ng tin mçnh quan t m m üt cạch nhanh chọng thçõ ỉå ä á ä cạc h û th ng tra c ïu th ng tin â â a ra cạc th ng tin â üc t ngã äú ỉ ä ỉ ä ỉå äø h üp v ïi n üi dung khại quạt nh t. T ûp h üp nh ỵng th ng tinå å ä áú á å ỉ ä t ng h üp âọ â üc gi la c s d ỵ li ûu cu a h û th ng.äø å ỉå ì å åí ỉ ã í ã äúTrong â ạn na y v ïi mủc âêch x y d ûng h û th ng truư ì å á ỉ ã äú tçm th ng tin ïng dủng trong cạc th vi ûn nhà m giụp âc giậ ỉ ỉ ã ò í tçm â üc n üi dung th ng tin c n truy v n m üt cạch nhanhỉå ä ä áư áú ä nh t thç h û th ng â üc x y d ûng v ïi m üt c s d ỵ li ûu lấú ã äú ỉå á ỉ å ä å åí ỉ ã ì t ûp h üp nh ỵng l i gi ïi thi ûu khại quạt v n üi dung cu a t ngá å ỉ åì å ã ãư ä í ỉì cu n sạch. â n gia n, m ùi n üi dung tọm tà t â üc trçnh ba ú Âãø å í ä ä õ ỉå ì theo m üt âoản vàn ba n ri ng bi ût, ngàn cạch nhau b i d í ã ã åí áú cạch do ng va m üt khoa ng trà ng. M üt c s d ỵ li ûu nh v û ì ä í õ ä å åí ỉ ã ỉ á gi la c s d ỵ li ûu vàn ba n hay co n gi la b ü s u t ûp vànì å åí ỉ ã í ì ì ä ỉ á ba n.íM üt minh hoả v c s d ỵ li ûu vàn ba nä ãư å åí ỉ ã í nh sau:ỉM y nụi thại ha ng (NXB h üi nha vàn)á ì ä ì 15 truy ûn ngà n cu a Ba o V trong t ûp sạchã õ í í á na y, d ùu vi t v tçnh y u cu üc s ng v ïiì á ãú ãư ã ä äú å nh ỵng b n cha i cu a l ïp ng i tre tu i, vỉ ỉå í í å ỉåì í äø ãư tçnh ca m, n p s ng, suy t cu a ng i gia trongí ãú äú ỉ í ỉåì ì hi ûn tải hay khi l ût lải nh ỵng têch c v ùnã á ỉ á lu n lu n th i va o nh ỵng trang vàn h i th cu ậ ä äø ì ỉ å åí í nhëp s ng â ng âải, t i m ïi. Trong t ûp cọäú ỉå ỉå å á nhi u tạc ph m l i cu n nh : Tr u t m cạnhãư áø ä äú ỉ áư ã ph üng, m y nụi thại ha ng .ỉå á ì Giọ nà ng Tr ng S n (NXB vàn ngh û TP HCM )õ ỉåì å ã T ûp bụt k ghi lải ca m xục cu a tạc gia Phaná í í í Lai Tri u qua nh ỵng thạng nga y s ng chi nãư ỉ ì äú ãú â u tr n di Tr ng S n trong cu üc khạngáú ã ỉåì å ä chi n ch ng M c ïu n ïc. Tạc gia khà c hoảãú äú ỉ ỉå í õ hçnh a nh ng i lênh tr ïc bom âản ke th ỉåì ỉå í ì v ùn lảc quan y u â i, hçnh a nh cạc anh chë ã åì í â ûng gian kh , hy sinh anh dng, c ng hi n c äø äú ãú í tu i xu n cu a mçnh cho â t n ïc .äø á í áú ỉåHçnh 1.1 : Trêch mäüt cå såí dỉỵ liãûu vàn bnNh v ûy c s d ỵ li ûu vàn ba n â üc âënh nghéa nh l á å åí ỉ ã í ỉå ỉ ì t ûp cạc vàn ba n ri ng l va m ùi vàn ba n â üc coi la m üt m ù í ã ì ä í ỉå ì ä á tin â üc l u d ïi dảng ma mạy tênh cọ th âc â üc. V ïiỉå ỉ ỉå ì ãø ỉå å vi ûc x y d ûng chè mủc, m ùi vàn ba n â üc coi la m üt chu ùiã á ỉ ä í ỉå ì ä ä n i ti p cạc t . T cọ th la t â n hay x u k t û cọ â ücäú ãú ỉì ỉì ãø ì ỉì å á ỉ ỉå bà ng m üt quy ïc na o âọ trong vàn ba n. Cạch âënh nghéa na ä ỉå ì í ì la kh ng â ng nh t trong nhi u vàn ba n.ì ä äư áú ãư íM üt c s d ỵ li ûu vàn ba n cng nh ba n th n cạc vàn ba nä å åí ỉ ã í ỉ í á í kh ng cọ s û gi ïi hản v â ü da i. M üt vàn ba n cọ th g mä ỉ å ãư ä ì ä í ãø äư m üt va i byte hồûc va i Megabyte. M üt c s d ỵ li ûu vàn ba nä ì ì ä å åí ỉ ã í g m va i tràm hồûc va i tri ûu vàn ba n nh th .äư ì ì ã í ỉ ãúCạc âàûc tr ng quan trng cu a c s d ỵ li ûu vàn ba n â ücỉ í å åí ỉ ã í ỉå li ût k trong ba ng sau:ã ã íK hi û Y nghé Vê dủ NFnDfS cạc vàn ba n trongäú í CSDLT ng s t xu täø äú ỉì áú hi ûnãS cạc t khạc bi ûtäú ỉì ãKêch th ïc CSDLỉå (Mbyte)S con tro chè mủcäú í31 102884 9889 0204,33699 131Bng 1.1: Cạc âàûc trỉng ca CSDL vàn bnM ùi vàn ba n trong c s d ỵ li ûu vàn ba n cọ m üt âënhä í å åí ỉ ã í ä danh duy nh t. â n gia n, ta gia s cạc vàn ba n â üc âënháú Âãø å í í ỉí í ỉå danh bà ng cạc s t û nhi n ( t 1 â n N ) theo th ï t û nh ûpò äú ỉ ã ỉì ãú ỉ ỉ á va o c s d ỵ li ûu. Trong â ạn na y âënh danh co n gi la sì å åí ỉ ã äư ì ì ì äú hi ûu vàn ba n.ã íHçnh sau â y la m üt vê dủ v âënh danh cu a vàn ba n:á ì ä ãư í íS hi ûu vànäú ã ba níVàn ba ní1234Tạc ph m va tạc gia â üc y ø ì í ỉå ã thêchTh va truy ûn ngà n cạch mảngå ì ã õGi ïi thi ûu tạc ph m m ïi, tạcå ã áø å ph m â üc gia iáø ỉå íCạc tạc ph m truy ûn ngà n cu ấø ã õ í tạc gia Ba oVí íHçnh 1.2 : Vê dủ vãư âënh danh ca vàn bnVê dủ tr n â üc xem nh la m üt vê dủ xuy n su t ca âã ỉå ỉ ì ä ã äú í ãư ta i na y v ïi m ùi do ng la m üt vàn ba n.ì ì å ä ì ì ä í3. u cáưu váún tin:M üt tha nh ph n r t quan trng â i v ïi h û th ng tru ì áư áú äú å ã äú tçm th ng tin la cạc y u c u v n tin. y la m i tr ng giao ti pä ì ã áư áú Âá ì ä ỉåì ãú chênh gi ỵa ng i v n tin va h û th ng truy tçm th ng tin. M ütỉ ỉåì áú ì ã äú ä ä y u c u v n tin la m üt y u c u d ûa tr n ng n ng ỵ t û nhi n, cọã áư áú ì ä ã áư ỉ ã ä ỉ ỉ ã th la m üt t hay m üt chu ùi cạc t â üc li n k t v ïi nhaø ì ä ỉì ä ä ỉì ỉå ã ãú å b i cạc phẹp toạn logic nh : AND, OR, XOR, NOT. Tr n c s cạcåí ỉ ã å åí y u c u âọ, h û th ng truy tçm th ng tin s tçm cạc vàn ba nã áư ã äú ä í ch ïa th ng tin t ng ïng trong c s d ỵ li ûu vàn ba n va hi n thëỉ ä ỉå ỉ å åí ỉ ã í ì ãø cho ng i c n v n tin.ỉåì áư áúVê dủ v y u c u v n tin nh :ãư ã áư áú ỉ- Tạc ph m AND Tạc giấø í- Th OR Truy ûn ngà nå ã õ- (Tạc ph m OR Tạc gia ) AND (Th OR Truy ûn ngà n)áø í å ã õ 4. Kãút lûn:V ïi nh ỵng gç trçnh ba y tr n, ph n na o â hçnh tha nhå ỉ ì åí ã áư ì ì m üt h û th ng truy tçm th ng tin m üt cạch t ng quạt nh t.ä ã äú ä ä äø áú Qua âọ bi t â üc cạch th ïc t ch ïc m üt c s d ỵ li ûu vànãú ỉå ỉ äø ỉ ä å åí ỉ ã ba n, m üt y u c u v n tin la gç va h û th ng â üc x y d ûngí ä ã áư áú ì ì ã äú ỉå á ỉ tr n c s na o. Tuy nhi n â y m ïi chè la cại nhçn t ng quan vã å åí ì ã á å ì äø ãư dạng mảo cu a h û th ng, cạc ch ng ti p theo s trçnh ba y chií ã äú ỉå ãú ì ti t v c u tảo va nguy n tà c hoảt â üng b n trong cu a h ûãú ãư áú ì ã õ ä ã í ã th ng truy tçm th ng tin.äú ä CHỈÅNG 2KHẠI NIÃÛM VÃƯ CHÈ MỦC ÂO V CÅ CHÃÚ VÁÚN TIN1. Chè mủc âo:Nh â â c ûp trong ch ng tr ïc, nga y nay v ïi s û ti nỉ ãư á ỉå ỉå ì å ỉ ãú b ü cu a khoa hc c ng ngh û âàûc bi ût la c ng ngh û th ng tin,ä í ä ã ã ì ä ã ä cu ng v ïi s û bu ng n cu a th ng tin thç cạc h û th ng truy tçmì å ỉ ì äø í ä ã äú th ng tin ra â i. Nhi ûm vủ cu a h û th ng truy tçm th ng tin lậ åì ã í ã äú ä ì tçm va hi n thë nh ỵng th ng tin thoa mn y u c u na o âọ cu ãø ỉ ä í ã áư ì í ng i v n tin. Trong â lu ûn na y âọ la cạc vàn ba n trong c sỉåì áú ãư á ì ì í å åí d ỵ li ûu vàn ba n.ỉ ã íV ïi m üt c s d ỵ li ûu c ûc l ïn, gia s g m ha ng tri û ä å åí ỉ ã ỉ å í ỉí äư ì ã vàn ba n, thç âọ la thạch th ïc â i v ïi cạc h û th ng truy tçmí ì ỉ äú å ã äú th ng tin. Vi ûc tçm l i gia i cho cạc y u c u theo h ïng tr ûcä ã åì í ã áư ỉå ỉ ti p â n t ng vàn ba n trong c s d ỵ li ûu s a nh h ng l ïnãú ãú ỉì í å åí ỉ ã í ỉåí å â n th i gian truy tçm. Vç v ûy â n ng cao t c â ü truy tçm cu ẫú åì á ãø á äú ä í h û th ng ta ti n ha nh x y d ûng chè mủc cho c s d ỵ li ûu.ã äú ãú ì á ỉ å åí ỉ ã Cọ nhi u k thu ût x y d ûng chè mủc nh chè mủc âa o, chèãư á á ỉ ỉ í mủc ch ỵ k, chè mủc hçnh a nh. Tuy nhi n chè mủc ch ỵ kỉ í ã ỉ va chè mủc hçnh a nh âo i ho i dung l üng b ü nh ï l ïn n n trongì í ì í ỉå ä å å ã â ạn na y em chn cạch x y d ûng chè mủc d ûa tr n m üt käư ì á ỉ ỉ ã ä thu ût gi la k thu ût chè mủc âa o. Tr n c s chè mủc âa ố ì á í ã å åí í na y, cạc hçnh th ïc v n tin s â üc x y d ûng phu h üp v ïi cạcì ỉ áú ỉå á ỉ ì å å y u c u cu a ng i v n tin.ã áư í ỉåì áúPh n na y tha o lu ûn v cạch th ïc ca i âàût h û th ng truư ì í á ãư ỉ ì ã äú tçm vàn ba n â cọ th tçm c u tra l i cho cạc y u c u dảngí ãø ãø á í åì ã áư logic va x p hảng. M üt y u c u logic âo i ho i, â i v ïi m ùi tì ãú ä ã áư ì í äú å ä ỉì cu a y u c u, m üt ph ng phạp xạc âënh m ùi vàn ba n cọ ch ï ã áư ä ỉå ä í ỉ t âọ hay kh ng. Y u c u x p hảng b n cảnh âi u na y co n âo iỉì ä ã áư ãú ã ãư ì ì ì ho i th ng tin v t m quan trng cu a t trong vàn ba n. Cạchí ä ãư áư í ỉì í th ïc ca i âàût h üp l âạp ïng ca hai y u c u tr n la chè mủcỉ ì å ỉ í ã áư ã ì âa o.íChè mủc âa o â üc x y d ûng tr n c s ba tha nh ph n:í ỉå á ỉ ã å åí ì áư danh sạch âa o, t âi n va trng l üng vàn ba n, t ûp âa o. H ûí ỉì ãø ì ỉå í ã í ã th ng s x l tr ûc ti p tr n cạc tha nh ph n na y â â a rậú ỉí ỉ ãú ã ì áư ì ãø ỉ cạc vàn ba n cọ th ng tin âạp ïng â üc y u c u cu a ng i v ní ä ỉ ỉå ã áư í ỉåì áú tin.1.1 Danh sạch âo:Danh sạch âa o la tha nh ph n quan trng nh t trong chèí ì ì áư áú mủc âa o, â üc x y d ûng t c s d ỵ li ûu vàn ba n ban â u. V ïií ỉå á ỉ ỉì å åí ỉ ã í áư å m ùi t khạc bi ût trong c s d ỵ li ûu, danh sạch âa o t ng ïngä ỉì ã å åí ỉ ã í ỉå ỉ cho phẹp xạc âënh t âọ cọ màût trong nh ỵng vàn ba n na o vì ỉ í ì ì cọ t m quan trng ra sao trong cạc vàn ba n âọ. Nh v ûy danháư í ỉ á sạch âa o la danh sạch cạc càûp nh n t < s hi ûu vàn ba n ,í ì á äú äú ã í trng l üng >.ỉå l u tr ỵ m üt càûp nh n t nh v ûy c n 8 byte, 4 bytãø ỉ ỉ ä á äú ỉ á áư cho s hi ûu vàn ba n va 4 byte cho trng l üng. V ïi m üt c säú ã í ì ỉå å ä å åí d ỵ li ûu l ïn thç s càûp nh n t s r t l ïn va âo i ho i kh ng gianỉ ã å äú á äú áú å ì ì í ä nh ï cng l ïn. ti t ki ûm kh ng gian nh ï, ta thay nh n tå å Âãø ãú ã ä å á äú trng l üng bà ng t n su t t trong vàn ba n. T n su t na å ò áư áú ỉì í áư áú ì â üc bi u di ùn b i s nguy n 2 byte hồûc 1 byte. V ïi cạch thaå ãø ã åí äú ã å th na y thç danh sạch âa o cu a t t la m üt danh sạch cạc càûpãú ì í í ỉì ì ä < d,fd,t >, trong âọ d la s hi ûu vàn ba n ch ïa t t va fì äú ã í ỉ ỉì ìd,t la s l nì äú áư t t xu t hi ûn trong d. ỉì áú ã1.2 Tãûp âo:T ûp âa o la m üt t ûp du ng â l u tr ỵ trng l üng cu ẫ í ì ä ã ì ãø ỉ ỉ ỉå í m ùi vàn ba n t ïc la bao g m cạc danh sạch âa o cu a t t ca cạcä í ỉ ì äư í í áú í t khạc bi ût trong c s d ỵ li ûu vàn ba n. Cọ th coi t ûp âa o lì ã å åí ỉ ã í ãø ã í ì m üt chu ùi n i ti p cạc s th ûc t üng tr ng cho trng l üngä ä äú ãú äú ỉ ỉå ỉ ỉå [...]... xạc âënh táûp cạc vàn bn tho mn u cáưu v trçnh by cho ngỉåìi váún tin Cå chãú váún tin dảng logic cho kãút qu cọ âäü chênh xạc cao hån so våïi váún tin dảng xãúp hảng Trong âãư lûn ny chè xẹt cå chãú váún tin dảng logic Chi tiãút vãư xỉí l váún tin dảng ny s âỉåüc trçnh by åí chỉång bäún Mäüt vê dủ minh ha cho cå chãú váún tin dảng logic : nhỉ sau: Cho cå såí dỉỵ liãûu nhỉ hçnh 1.2, ta xáy dỉûng tãûp... cáưu q v vàn bn d 2.2 Váún tin dảng logic: Cå chãú váún tin ny âỉåüc thỉûc hiãûn dỉûa trãn cạc phẹp toạn logic l cạc phẹp toạn AND , OR v NOT v sỉí dủng k thût chè mủc âo Våïi mäüt u cáưu q gäưm mäüt säú tỉì t âỉåüc liãn kãút båíi cạc phẹp toạn logic nhỉ trãn thç âáưu tiãn cạc tỉì s âỉåüc tçm trong tỉì âiãøn , xạc âënh cạc danh sạch âo tỉång ỉïng v sau âọ dỉûa trãn cạc phẹp toạn logic tỉång ỉïng âãø xạc... váún tin: Trong pháưn ny giåïi thiãûu khại quạt vãư hai cå chãú váún tin dảng logic v dảng xãúp hảng 2.1 Váún tin dảng xãúp hảng: Gi sỉí ta cọ mäüt u cáưu q (gäưm mäüt säú tỉì t = 1 n) v mäüt cå såí dỉỵ liãûu låïn gäưm N vàn bn khäng cáúu trục Âãø âạp ỉïng âỉåüc u cáưu váún tin q thç hãû thäúng phi thỉûc hiãûn viãûc tênh toạn trng lỉåüng v âäü tỉång håüp ca u cáưu âọ våïi mäùi vàn bn cọ chỉïa thäng tin. .. cáưu váún tin q= ( tạc gi AND tạc pháøm ) Sau khi thỉûc hiãûn tçm kiãúm trong tỉì âiãøn ta cọ kãút qu nhỉ sau: t∈q Tạc gi Tạc pháøm D 1,4 1,3,4 Våïi phẹp toạn logic l AND nãn cạc vàn bn ( 1 , 4 ) s âỉåüc ghi nháûn v trçnh by cho ngỉåìi váún tin 3 Kãút lûn: Chỉång ny âỉa ra nhỉỵng khại niãûm cå bn vãư phỉång phạp xáy dỉûng chè mủc dỉûa trãn k thût chè mủc âo v cạc cå chãú váún tin, tỉì âọ giụp cho viãûc... (b) Ghi danh sạch âo vo tãûp âo CHỈÅNG 4 XỈÍ L VÁÚN TIN LOGIC 1 Phán têch u cáưu váún tin : Âäúi våïi hãû thäúng truy tçm thäng tin thç u cáưu váún tin l mäüt pháưn ráút quan trng khäng thãø tạch råìi khi hãû thäúng Trãn cå såí dỉỵ kiãûn ca u cáưu, hãû thäúng s xỉí l u cáưu v âỉa ra cạc kãút qu tỉång ỉïng våïi dỉỵ kiãûn u cáưu âọ Mäüt u cáưu váún tin dỉûa trãn ngän ngỉỵ tỉû nhiãn, nọ cọ thãø l mäüt... âãû quy tỉång ỉïng Mäüt u cáưu váún tin cọ thãø xem l mäüt biãøu thỉïc logic Vàn phảm biãøu thỉïc logic âỉåüc xáy dỉng nhỉ sau: EE∧T|T TT∨F|F F  ( E ) | dh Ta cọ thãø loải b âãû quy trại âån gin cho E v T, lût sinh nhỉ sau: E  TE’ E’  ∧TE’ | ∈ T  FT’ T’  ∨FT’ | ∈ F  ( E ) | dh Báy giåì ta tảo så âäư dëch cho vàn phảm trãn: Âáưu tiãn chụng ta tảo så âäư truưn cho tỉìng k hiãûu khäng kãút thục... l cạc phẹp logic: Tênh âụng âàõn ca hãû thäúng phủ thüc chênh vo kãút qu ca quạ trçnh xỉí l cạc phẹp logic Quạ trçnh xỉí l âụng thç hãû thäúng s âạp ỉïng näüi dung mäüt cạch chênh xạc tỉång ỉïng våïi u cáưu váún tin v ngỉåüc lải s cho mäüt kãút qu sai khäng tho mn u cáưu Nhỉ váûy cäng viãûc xỉí l cạc phẹp logic l mäüt pháưn quan trng quút âënh sỉû thnh cäng ca hãû thäúng truy tçm thäng tin Nhỉ â trçnh... ngáùu nhiãn, båíi vç mäùi pháưn tỉí ca thäng tin mang theo nọ mäüt mäúi liãn kãút âãún pháưn tỉí liãưn kãú tiãúp trong dáy 4 1 X Bo V 1 chuưn v âäưng thåìi nọ cho phẹp kh nàng bäø sung vo danh 4 1 X Cạc 1 sạch Âiãưu ny ráút quan trng, båíi vç trãn thỉûc tãú ta khäng 2 1 Cạch mảng 1 chè xáy dỉûng chè mủc4 cho cå såíXdỉỵ liãûu vàn bn ténh m cn Ca 1 4 1 X cho cạc cå såí dỉỵ liãûu vàn bn âäüng tỉïc l cạc... quan hãû logic nhỉ phẹp AND, OR v NOT nhỉ â giåïi thiãûu åí chỉång måí âáưu Trãn thỉûc tãú, cạc u cáưu váún tin ch úu sỉí dủng hai phẹp quan hãû l AND v OR båíi vç nọ gáưn våïi ngän ngỉỵ tỉû nhiãn cn phẹp NOT ráút êt khi âỉåüc dng, mäüt pháưn cng do thọi quen ngỉåìi sỉí dủng Våïi l do âọ kãút håüp våïi âiãưu kiãûn thåìi gian cọ hản nãn trong âäư ạn ny em chè xỉí l u cáưu váún tin våïi cạc phẹp logic AND... ca vàn bn d (b) Tr vãư v hiãøn thë cho ngỉåìi váún tin Hçnh 4.3 : Thût toạn xỉí l phẹp logic AND Th tủc phẹp xỉí l AND âỉåüc xáy dỉûng nhỉ sau: void xu_ly_and ( int z[30]; int n ) { int i, j, k; i = j = k =0; while ( ( i < m ) || ( j < n ) ) { if ( x[i] = y[j] ) { z[k] = x[i]; i++; j++; k++; } else } } 2.2 { if ( x[i] < y[j] ) i++; else j++; } Phẹp OR: Âäúi våïi phẹp logic OR thç sau khi thỉûc hiãûn . logic. Chi ti t v x l v n tin ãú áú ãú ãư ỉí áú dảng na y s â üc trçnh ba y ch ng b n.ì ỉå ì åí ỉå äúM üt vê dủ minh ha cho c ch v n tin dảng logic. cáưu q v vàn bn d2.2 Váún tin dảng logic: C ch v n tin na y â üc th ûc hi ûn d ûa tr n cạc phẹpå ãú áú ì ỉå ỉ ã ỉ ã toạn logic la cạc phẹp toạn AND

Ngày đăng: 02/11/2012, 14:34

Hình ảnh liên quan

v ùn lạc quan uđ i, hình anh các anh chịu í - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

v.

ùn lạc quan uđ i, hình anh các anh chịu í Xem tại trang 6 của tài liệu.
hình anh n gi lính tr ïc bom đạn ke thu í ườ ươ ì - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

hình anh.

n gi lính tr ïc bom đạn ke thu í ườ ươ ì Xem tại trang 6 của tài liệu.
Hình sau đy l am üt ví dụ v định danh c ua văn ba n: í - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình sau.

đy l am üt ví dụ v định danh c ua văn ba n: í Xem tại trang 7 của tài liệu.
Bảng 1.1: Các đặc trưng của CSDL văn bản - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Bảng 1.1.

Các đặc trưng của CSDL văn bản Xem tại trang 7 của tài liệu.
Hình 2. 1: Ví dụ về tệp đảo - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 2..

1: Ví dụ về tệp đảo Xem tại trang 11 của tài liệu.
Gia s ta có c sd î li ûu nh hình 2.1. ư - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

ia.

s ta có c sd î li ûu nh hình 2.1. ư Xem tại trang 13 của tài liệu.
Bảng 2. 2: Độ tương hợp giữa yêu cầu q và văn bả nd 2.2 Vấn tin dạng logic: - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Bảng 2..

2: Độ tương hợp giữa yêu cầu q và văn bả nd 2.2 Vấn tin dạng logic: Xem tại trang 14 của tài liệu.
Hình 3. 2: Biểu diễn chỉ mục cho cơ sở dữ liệu bằng danh sách liên kết - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 3..

2: Biểu diễn chỉ mục cho cơ sở dữ liệu bằng danh sách liên kết Xem tại trang 19 của tài liệu.
hình 3.6. Khi m üt chu ùi đ üc chỉ mục thì nó kh ng cn thi tô ô ươ ế - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

hình 3.6..

Khi m üt chu ùi đ üc chỉ mục thì nó kh ng cn thi tô ô ươ ế Xem tại trang 22 của tài liệu.
đ üc minh hoạ nh hình d ïi đ y: ươ ư ươ â - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

c.

minh hoạ nh hình d ïi đ y: ươ ư ươ â Xem tại trang 23 của tài liệu.
Hình 3.7 :Lưu trữ từ điển với xây dựng chỉ mục cho chỉ mục đảo - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 3.7.

Lưu trữ từ điển với xây dựng chỉ mục cho chỉ mục đảo Xem tại trang 24 của tài liệu.
Hình 3.9 : Ví dụ về chỉ mục tệp đảo - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 3.9.

Ví dụ về chỉ mục tệp đảo Xem tại trang 25 của tài liệu.
Hình 3.10 : Cấu trúc chỉ mục cho tệp đảo - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 3.10.

Cấu trúc chỉ mục cho tệp đảo Xem tại trang 26 của tài liệu.
Hình 3.11 :Tệp đảo cho cơ sở dữ liệu trình bày ởH 3.2 4. Giải thuật xây dựng chỉ mục đảo: - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 3.11.

Tệp đảo cho cơ sở dữ liệu trình bày ởH 3.2 4. Giải thuật xây dựng chỉ mục đảo: Xem tại trang 27 của tài liệu.
Hình 4. 1: Sơ đồ dịch của các ký hiệu không kết thúc của văn phạm - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 4..

1: Sơ đồ dịch của các ký hiệu không kết thúc của văn phạm Xem tại trang 31 của tài liệu.
Các sđ hình 4.1 có th thu gọn lại. Tr ïc tin ta thu ởể ươ ê - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

c.

sđ hình 4.1 có th thu gọn lại. Tr ïc tin ta thu ởể ươ ê Xem tại trang 31 của tài liệu.
Hình 4. 2: Sơ đồ dịch đã được thu gọn của các ký hiệu không kết thúc - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 4..

2: Sơ đồ dịch đã được thu gọn của các ký hiệu không kết thúc Xem tại trang 33 của tài liệu.
Hình 4. 3: Thuật toán xử lý phép logic AND - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 4..

3: Thuật toán xử lý phép logic AND Xem tại trang 35 của tài liệu.
Thu ût toán đ üc trình b ay hình 4.4. â ươ ở - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

hu.

ût toán đ üc trình b ay hình 4.4. â ươ ở Xem tại trang 36 của tài liệu.
Hình 4. 4: Thu ût toán x lý phép logic OR ử - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 4..

4: Thu ût toán x lý phép logic OR ử Xem tại trang 37 của tài liệu.
Hình 5. 1: Sơ đồ mô tả dòng thông tin - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

Hình 5..

1: Sơ đồ mô tả dòng thông tin Xem tại trang 40 của tài liệu.
tin la hình th ïc đánh giá tính hi ûu qua cu ac ch đó qua ìư ế - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

tin.

la hình th ïc đánh giá tính hi ûu qua cu ac ch đó qua ìư ế Xem tại trang 46 của tài liệu.
ng n ng î, automat va ng n ng î hình ư - Cơ chế vấn tin dạng logic cho cơ sở dữ liệu văn bản không cấu trúc

ng.

n ng î, automat va ng n ng î hình ư Xem tại trang 47 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan