đề tài đề tài tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật xử lý tron

20 1K 0
đề tài đề tài  tìm hiểu cấu trúc hệ thống tìm kiếm thông tin google hiện tại và các kỹ thuật xử lý tron

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

     !"#$%&'"(!""()*+", " Đề tài#/0,-12342*563,7*,8"(*/09-:0*,!"(*-";;(&<,-7"*=->?3@3 9A*,2B*C%&D*5;"(*/09-:0*,!"(*-"3EF;;(&< -@;> ",GH"(IJ"#KKL.,F",GM"( K-",> "*,+3,-7"#,N0OP Q*."R-",> " KK HS        !"    #$%&'' !"  T3T3 UV2# ($)*+,-%./#0 )1/#02 3""4 05"6%/ 3%788)9:4 "#; <#=)>?>@ ABC5"DE"99"F788)9)1G92A "9F)1H%I$ # J>@ ABC5#K""#3 4 :L,+<#M2 3N788)9O)D"4 % "P, Q" 3R#<#S 2MA"#D%,+"PT88)9UV4 #1%WT#X"6%"D E"99"Y788)9U: 788)9,>?<#I"" Q"DW">Z"6%/ 3%G92N# # DA #". ,. #["\8CC#" 3]L^_)1`9V1[99a b%c:d">Z 2,eK"<#I""P`9/# ## DI) D/3"]) /A_ fIG92A "9 V1#>4"4 %+"05$"#Q"6%/ 3%G92Cg"D%h ) D/3"1:`9V1 a A,$<#I"" Q0"6#/#8#1"8+ 2+,. #["\8C">4 /# 2 3788)9"#1#%+"H%I"#gAg,Q<#5V5eX#+ )4#>1: 788)9<#M2 3#>ViF#>$)*j" 2 3"#3",>?SC;#V5%1 788)9[9#K<#>&""P,-#kFCg2I8"#@ " 3"F%  @F2S,-F %I"j#FC;#"#i"l($)*V6% >@ ABC505"6%/ 3%1V4 %5 ,j##j#)1"6%/ 3%G92V1S#F#,XYI#1 )OV4 /3"YSV1#> /#0Y"m%)n%"4 IC;#V5/#If:788)9[9#%H 1#i#1 "b%" !D"6%/ 3%"D/#n<"#3 4 V1$"SVJ#1"o/3"YS"6% / 3%#8>@ Cp:788)9[9#,XT,;<#>q#$U"4 %%H Yh  ,J$%+"05"6%/ 3%788)9+ ,; D#80fN#:  #$%&'' !"  LWX Y ZL!"(3T*/09-:0&?(/[ (05"6%/ 3%][9#r 9_)1%+"#!"#h"#"#i<"#0" ,>?"# 3"/3 ,Q <#8V !"6%/ 3%"#0" )>"f"D%+"#!"#h%I"j#: OL@3\]S,B"342*,?",,7*,8"(R<F53,<"(-"< OLZL]*,2*,BS*,!"(*-" s828")1%+"#>q"6#"g,+C!"YIK"A D) D/3",Q"# "#i<"1 ) !t%+"I#,!Y$#iVJ"K"S"1 ) !$) D/3"V4 "1 ) ! 1: s828",>?2 3",3C>4 # J"D /#I#&A< C9FG92GC99#8u G92G8%Fl#f"D 1,0 /# m#%)vF#>"PwA< C9xFwGC99x )1%>@ "#ky828""g$C #QV1"PwG8%x)1%>@ ") D">Z ,3V A:J2S#K"828"#z)1%+"#>q"6#C!"V1"#"#i<"#0" "P IA "9"#98, 8"#G92:#f"6#C!""#0"#>@/#0,>? e9%)1828"C8"# 3"j##N,+F##zC!"G92/# $Ag"I,+N 8>@ : OLOL]&BS3,^0T3 !"#h)i<#z%5#O )1#!"#h<#m"j#V1eB)WCf) !F"#g # !V !<#m"j#F"j###f"#0" "# 3"]"#>@)1I"P,qF"P #{<F5%"PY"_"P#fCf) !%1828""#"#i<,>?V1"M# "#1#qAZCf) ! D,Q$"#Q"6%/ 3%"D,$%+"I####$F# ! YS:!"#h#z%5)1C#AI#I"P/#8IF#z|I"P/#8I18eK"# !Z "18F,;#z18:  #$%&'' !"  OL_L]*/09-:0*,!"(*-" a+"6%/ 3%"#0" )1%+""#1#<#eB)WI"VK"P<#j>@ AB C5]A9_F" 3<#iID"6%/ 3%]m"VKY9_F<#m"j#"PF"6% / 3%"8(qAZCf) !#z%5FA8/#4<I"P/#$F)KVJ/3"YS<#p#?<FA ,$"S). #f/3"YS,$#8>@ ABC5"#0Y 8C !7}E: $ #F2+"6%/ 3%"#0" #8.",+,+)i<V4 I"#1#<#/#IF A8). <#5"#+V4 #VJ%u"Cf) !: _L(2`."*a3,;=*b]"(3EF3!"(3T*/09-:0# L+"05"6%/ 3%,>? )1"#1#03$"#~%X,>?, J/ !&   !"# $%&'()*+ ,$-+- Q,.",>?I%5,j#"DFI05"6%/ 3%# !,. ,J" 3#1#) )>?""#982h2>4&G92G)9F C9e F/<9V1A9# : [,m"A*# D#!"#h"6%/ 3%788)9:  #$%&'' !"  L-:"*563;;(&<# MY"812+#!"#h)1%V !N788)9$"#Q,>?2 QC #> #6#C>4 &  #$%&'' !"  c2-5/",/0-:0 ZLd<\35Fe&<5# •92G)9)12+<#i#;"I## !%C8G)8CI"G92V1)> "f#C>4 C.{Z"8/#8Cf) !:L5,j#"# 3"/3NG92G)9)1 )1%#8$C8G)8C,>?Ah)>?"G92# J#K""8/#Sb,I< N"1 D%.V1"h,+F/#Sb)>"fN%I € #$%&'' !"  K"SI05"6%/ 3%,JCg"D%0#6#G92G)9#>#6#:L+" •92G)9A*ABC5# #1,? ,QYS)WI}sF,$)1}sA8 A " ]}sA*"4 _V1 A "9C}sA]}s,X"4 _:1,?  A "9C}s#C#AI# I",X,>?C8G)8C:•#AI#1K"Y",h V4 IG)9,Q "I#V !C8G)8C%+""# J):8/# ,$#1,? }sA8 A " #C#AI#I"A*,>?C8G)8C:+ C2,N#1,? }sA8 A ",>? )1A99C) A"]C#AI##." h_:•#AI#1A*1 1%Z+"#98"#@  :>4/# G)9#.)," DFC#AI#}sA #." h1A*,>?/#Z ".8%+"I#"#N0#8u$"#Q,>?)K"P%+"Ah -/#I:•#AI#/#Z ".81),$"#Q)1%+""i<IG92A "92K"/‚F #8u$"#Q)1%+""i<IG92A "9$#N,J#K",;#C8>@ /#Z ".8Y3" ,;#:•92G)9#8.",+C>4 C.IVO)u<h " 3<#:L+"VO)u<A* 2n",V4 V !)K%+"}s"P#1,? }sA8 A "F" 3<,$G92G)9 A*C8G)8C"G92">qV4 }s,$F)>"f"G92,$V18"8/#8 V1,ƒ}s,$V18"8#1,?  A "9C}sA:8%H VO)u<FG92G)9 A*"j#"K"SI) /%1"G92VP,>?)KVJF#Q$"PC.) /">q ,h AC.) /"!",h F- / Q%"Z#1,?  A "9C}sAe9%I" 1,X,>?C8G)8CVJ#>:3}s18,X,>?C8G)8CVJ- F$A* 2~Y}s,$O3#>,>?C8G)8CF$A*#Q}s,$V18#1,? c #$%&'' !"  }sA8 A ":I"6#1A*,>?)u<, )u<). #8,3/# 18#1,? }sA8 A "H#8u$,>?CP). %+"I#$%5,j#2Z >@ , J /# Q:3V !)KVJ%+"}s"#K"2. FG)9A*#Q}s,$>?). V18 #1,? }sA8 A ",Q"#B). )A:3#>V !)K%+"}s"#K"2. "8 # J)FG)9A*2~Y$V6K"$"#QG92A9V9#}s,$,X/#0O #8.",+f:#98I#1F%+"G)9$"#Q)KVJ%+"Ah)>?)4I" G92#z"P%+")>?K"#~}s"8C#AI#/#Z ".8]A99C) A"_:Q$"#Q # Q/^#qVJG92G)9F"A*"6%# Q#f"# 3"/3V1#fN 8" J%ƒ $"#Qu<<#S "8V !1 ,u"V1, J#1#%+"G92G)9%,+)4: OL"I<C-"(# #h EC9e9,>?Cp,QemCgV12S8"6I#z%5<#5V5#8I "  VK:  #h  EC9e9  em  Cg    #z  %5  q  2S&  #z  %5  8\\A9"  ]8\\A9" C9e_F#z%5"9e"]"9e" C9e_V1#z%5) /„<#]) /„<# C9e_:…\\A9" C9e# #iV;"jVi")WN%H "G92"8qAZCf) !Fq %1)>"f I"G92,X,>?{:(#z%51#8<#{<"eK"v# D"4 G92 #8<#{<"8qAZCf) !:9e" C9e#8<#{<"VK#>4+ CFAB C5I#z%5>?,QAK<"6%/ 3%"#98"P/#$"8qAZCf) !: (h pF) / C9eK<"VK#>4) D/3"]•&7 ,3"i<I" %1""~"4 _:[BC5#z%5qAZ1V1I"G92F/#h `#mj# A*emCg)DI#z%5h/#I#:jC5FABC5#z%5) D/3"V1I "#i""8I)u<`9s/F/#h <#m"j#A*"j#"8IV1)>"f`9s/N%H ""8qAZCf) !]#z%5`9s/_:>q"gF2yI#/3"#?<"#0 " ) D/3"V1+ CN"G92F/#h <#m"j#$"#QemCg%+"#z%5 ">q"g%1I#e.%H ""4 "i<I"">q"g: Thiết kế chiến lược †##>Z"8)42Z Ah)>?/#M)-I"•92"D%.F# "<#S "# 3"/3%+")>?,-emCgV1K"2 QC %4 #8K"# J#z %5,>?ABC5:# 3"/31$I,u, Q%A& Chỉ mục được xây dựng song song và phân tán./012%3 4565-2789)5:* "5-;!< )*+$)=6 #>#<?@!#<6 #A! B!%#<)C56''#<8 //6/#<&56  #$%&'' !"  - Nén và bộ đệm của cấu trúc chỉ mụcDE :*F3 -2'-GH GI/J#9K:*-#< -6<! L!G & 9:* - Định danh trang đặc tả chỉ mục.E <9+M+ N:*-G )*-O)-B!:*%/H-G!G & 9 #</0:* Chỉ mục văn bản ( Text index) QK<C;#V5#>4Vb2SqAZF#"emCgI#z%5>? "#0Y"i<I"G92"8qAZCf) !:j#‡NqAZCf) !I" G92)>"fV1Ag"# 3"NV !"#"#i<,;#/6V1emCg). #z%5D #"emCg%+")>?,-emCg#z%5" iV1# !YS8: ! emCgI#z%5>?"b"h ,"h,+V1/#h )>?eB)W C9e#8#! "#h:•8,$I#!"#h# !,JABC5<#>q<#I<1,Q" 3"/ !%"1 D: _Lf _LZF"9-"(&?(/[ 8)k#Vg"6%/ 3%F/ )1/^"#i",I# I I";"P/3"YS "8"i<"SVJ%H /# >@ Cp"VK:ayI#"##8, Q%FC#AI# /3"YSA*,>?An<e3<"#98"#"g">4A">qV4 Ah, Q%: 4 V !2pMCf) !"D "99"FV !,I# Ie9%%+""G9218 )1#K")>?V4 %+""P/#$"#gAg/#$/#b:•8,$"%Y"N/  "8"6%/ 3%118:$,O #~ <#S /3"#?<# J"#i""8I,Q#8 ,>?/3"YS"h"#K"%1>@ Cp%8%h: _LO@39A*,2B*R%IT"(*5;"(5F"9-"( 788)9#82 3"#ABC5/3"YSN#q<#>q<#I</#I#,Q ,I# I"81"#QK"•92V1eI,;##f"18)1Y"#K": [,m)1%+"Ah"#i""8Iq2S"8s/ & FL@",(-@\g"(*,8"(9.L #i""8ICgV18#f3"hA,Q#8, Q%%+""P/#8I"8%+"" •92&  #$%&'' !"  • [h)eK"# !N"P/#8I"821 V 3":jC5&"Pˆ !"%ˆeK"# ! # )"821 V 3"RV1)"821 V 3"a:#>Vi21 V 3"aA*$ , Q%8#q/# "VK2y"P/#8Iˆ !"%ˆ: • z)!"AK"eK"# !"P/#8IV4 ,+C1 N21 V 3":jC5&"P/#8Iˆ !" %ˆeK"# !# )"821 V 3"RV1)"821 V 3"a:#>3 21 V 3"RC1 "V121 V 3"aC1 ""#6"8">@#?<1F21 V 3"RA*$, Q%Ah8#q21 V 3"aV4 "P/#$ˆ !"%ˆ: #i""8I#z%"j##K""#h/DV1">q,h :8%+"%0 ">@"#gF /#0<#S 2K"21 V 3"18$AgeK"# !V1"AK"eK"# !8N"P/#8I ‰)1"#%1>@ "6%/ 3%:sK"# J"$"P/#8IeK"# !8"#g #K"#z)1+ CI: \L@",(-@*,<;bhF3,^3EF*5F"(L m)1%+"I#,I# I,+Y"N"P/#$V4 %H "•92V1 "#>@$"Ah/#I8:#V6"P/#$y%"821 V 3""#6$). y%"8 ,>@Cv}s#"D% JN"•92]C8% %9_: 3L@",(-@\g"(*i9,;@j2F"*5Q"(L •92`9)1"1 ) !$,;#C.# Q"#;:#0C5#K")1#ƒ L:•gV18K",;#C.,$F"#i""8I#8, Q%8#qV4 "P/#$ y%"8I"#Š,u2 !":(I#"#0"#>@#K"%1[9#r 9#I<C5 #j#)1#8, Q%8V4 "P/#8Iy%"8#8"9e"]) D/3"_FI"#Š" D,JF %9"/9G8CFFFFFF€#8u"P/#8I,>? ,i%FV 3"#8: (#",X2 3"%+"21 Vb"#>@28-%2<#&%Z21 F"#m21 V1 /3")i:8,$F<#%Z21 #>%+""$%"n"#8u 4 "# !+ C#8 S21 V 3":3#"eI,;#,>?,m)1%Z21 V1#8, Q%8#qV4 #f"P/#$y%"8,$"#6/3"YSA9##j#eI#qK"# J:Lu"/#IF V4 %+""Pˆ !"%ˆF3eK"# !Z,21 V 3"F f#h 21 V 3""#6$ ‰$#f")>?/#I#: 8%+"21 V 3"FI"P/#$$,+Y"/#I#O"p"#+ V18V;"j#8ufS#:jC5FIC#"P DA*j"eK"# !#q"8%+"21 V 3"#>$%). "#0" #K",;##821 V 3":(#‹#.F3""#K"P ˆ !"%ˆF"2 3"21 V 3"A*$ VK,J6,$VJ !"%:#>V4 "P  #$%&'' !" [...]... tiến bộ lớn trong việc nâng cao hiệu quả tìm kiếm Google được thiết kế nhằm cung cấp tìm kiếm chất lượng cao trong khi tiếp tục nâng cao tốc độ Google đi đầu trong việc nâng cao chất lượng tìm kiếm bằngcách đưa vào các giải thuật nhằm sắp xếp vị trí các kết quả tìm kiếm 4.1 Quy trình xử lý truy vấn của search engine: 1.Phân loại các truy vấn 2.Chuyển các từ sang chỉ mục từ ( wordIDs ) 3 .Tìm kiếm từ đầu... hạng của Google. Có lẽ cách tốt nhất để xem xét PageRank là coi nó như là 1 yếu tố bổ sung,được xử lý trên các kết quả tìm kiếm của Google sau khi tất cả các tính toán khác đã hoàn tất .Thuật toán tìm kiếm của Google trước tiên sẽ tiến hành tìm kiếm trên các trang mà nó đã đánh chỉ mục, sau đó sẽ tính toán PageRank trên các trang kết quả tìm kiếm để đưa ra danh sách kết quả có sắp xếp cuối cùng Các trang... liên quan đến Stanford đối với những hệ thống tìm kiếm thông thường không sử dụng PageRank.Còn nếu hệ thống sử dụng PageRank thì trang chủ của trường Stanford sẽ được sắpxếp đầu tiên.Mục tiêu của việc tìm kiếm là cung cấp các kết quả tìm kiếm có chất lượngvà hiệu quả Nhiều khi kết quả tìm kiếm không phù hợp với mong muốn tìm kiếmcủa người dùng, gây ra sự chán nản và lãng phí thời gian Nhiều search enginethương... "sỹ", "mỹ", "tâm" và khoảng cách giữa các từ thường không quá năm từ Đây là thuật toán khá hay và tương đối dễ cài đặt Thuật toán này có thể kết hợp với các phương thức phân tích cao cấp để xác định vấn đề quan trọng trong bài viết nhằm tăng điểm cao hơn cho các câu hoặc cụm từ giá trị trong nội dung e Đánh giá theo ngày tháng Thông thường, người tìm kiếm có xu hướng tìm kiếm những vấn đề hay sự kiện... "công nghệ thông tin" Kết hợp với từ điển, phân tích ngữ nghĩa sẽ giúp phân tích sâu hơn về cấu trúc, tóm tắt hay gạn lọc lại những ý chính của bài viết d.Đánh giá bởi các từ gần nhau Thuật toán cho phép tính toán độ gần nhau giữa các từ khoá Các Search Engine cho phép người tìm kiếm chỉ định độ gần nhau của các từ bằng câu lệnh tìm kiếm dạng "ca sỹ mỹ tâm" Lệnh search này sẽ trả về tập bài viết có các. .. và quan trọng Vì thế, khi tìm kiếm, Google sẽ ưu tiên cho các site có PageRank cao 13 Nhóm 29:Huy_Tú_Việt XLNNTN-2012 Tất nhiên khi tìm kiếm không phải cứ website có PageRank cao là sẽ được xếp ở trang đầu tiên, điều này còn phụ thuộc vào việc bạn muốn tìm kiếm gì và nhiều yếu tố khác Google kết hợp PageRank với một số heuristics khác để cho ra kết quả phù hợp nhất b.Công thức thuật toán PageRank Thuật. .. lớn nhất của PageRank là tìm kiếm (searching) Chúng em giới thiệu một công cụ tìm kiếm toàn bộ văn bản ( full text search engine ), đó là 17 Nhóm 29:Huy_Tú_Việt XLNNTN-2012 Google Google sử dụng 1 số các tham số để sắp xếp kết quả tìm kiếm, bao gồmđơn vị đo IR chuẩn, proximity, văn bản móc nối, PageRank.Lợi ích của PageRank trong tìm kiếm là rất lớn Chẳng hạn, khi ta tìm kiếmvới từ khóa “Stanford... hạng và đưa ra k kết quả đầu tiên Nhằm giới hạn thời gian đáp ứng, khi một số văn bản phù hợp đã được tìmthấy ( thường là 40.000 ) thì máy tìm kiếm sẽ tự động chuyển đến bước 8 Điều đó có nghĩa là có thể có khả năng chỉ một phần của kết quả được in ra 4.2 Quá trình tìm kiếm Hệ thống lưu trữ các thông tin về trang web bao gồm vị trí, font chữ, thong tin hoạt động, liên kết, PageRank Kết hợp tất cả các thông. .. trang khác trong site Cho rằng tất cả PageRank của các trang đềuhợp lệ và được chia đều cho các link đi ra của trang Khi đó điều ta mong muốn là bất kì trang nào với nhiều liên kết ngoài ( external link) sẽ có PageRank thấp hơn so với các trang khác trong site, nhằm giảm tối thiểu số PageRank bị “thất thoát” ra các site ngoài.Thứ hai, nếu cho rằng bất kì một trang mới nào trong chỉ mục của Google đều bắt... ( wordIDs ) 3 .Tìm kiếm từ đầu của danh sách văn bản trong một giới hạn hẹp 4 .Tìm kĩ qua danh sách văn bản đến khi có 1 văn bản phù hợp với tất c các mục tìm kiếm 5.Tính toán thứ hạng của văn bản cho câu truy vấn 6.Nếu đang tìm kiếm theo 1 giới hạn hẹp và đã tìm đên cuối của danh sách văn bản mà chưa có kết quả thì sẽ quay lại mục 4 và tiến hànhtìm kiếm không giới hạn 7.Nếu kết thúc không ở cuối bất . #A! B!%#<)C56''#<8 //6/#<&56  #$%&'' !"  - Nén và bộ đệm của cấu trúc chỉ mụcDE :*F3 -2'-GH GI/J#9K:*-#<.      !"#$%&'"(!""()*+", " Đề tài #/0,-12342*563,7*,8"(*/09-:0*,!"(*-";;(&<,-7"*=->?3@3 9A*,2B*C%&D*5;"(*/09-:0*,!"(*-"3EF;;(&< -@;>. !"  89!a3-YZ%<H? @@,CUTC - Số lượng các link đi ra của các trang web trỏ tới ( outgoing links): </<$KHX< HR?"/ YZKQ

Ngày đăng: 23/10/2014, 23:26

Từ khóa liên quan

Mục lục

  • Mở Đầu:

  • I.GIỚI THIỆU CÔNG CỤ TÌM KIẾM

    • 1. Công cụ tìm kiếm là gì?

    • 2.Các bộ phận cấu thành hệ thống search engine

      • 2.1.Bộ thu thập thông tin

      • 2.2.Bộ lập chỉ mục

      • 2.3.Bộ tìm kiếm thông tin

      • 3. Nguyên tắc hoạt động của công cụ tìm kiếm:

      • II.Kiến trúc Google:

        • 1. Web crawler:

        • 2. Indexing:

        • 3.PAGERANK

          • 3.1 Ranking là gì?

          • 3.2 Các kỹ thuật sử dụng trong ranking

            • a. Đánh giá bằng thống kê.

            • b.Đánh giá theo địa chỉ của trang.

            • c. Đánh giá bằng từ khoá quan trọng.

            • d.Đánh giá bởi các từ gần nhau.

            • e. Đánh giá theo ngày tháng.

            • f. Đánh giá theo độ nổi tiếng của trang.

            • g. Đánh giá theo truy vấn vùng.

            • h.Đánh giá bởi con người và trình duyệt.

            • 3.3.PageRank:

              • a.PageRank

              • b.Công thức thuật toán PageRank.

              • c.Ý nghĩa thuật toán:

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan