說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
轉(zhuǎn)自:百度搜索研發(fā)部
我們向搜索引擎網(wǎng)站提交處理一個(gè)查問(wèn),搜索引擎網(wǎng)站會(huì)從先到后列出數(shù)量多的結(jié)果,這些個(gè)結(jié)果排序的標(biāo)準(zhǔn)是啥子呢?這個(gè)看似簡(jiǎn)單的問(wèn)題,卻是信息檢索們研討的中心困難的問(wèn)題之一。
為理解釋明白這個(gè)問(wèn)題,我們來(lái)研討一個(gè)比搜索引擎網(wǎng)站更加古老的話題:求醫(yī)。譬如,假如我牙疼,應(yīng)當(dāng)去看怎樣的醫(yī)生呢?如果我只有三種挑選:
A醫(yī)生,既治眼病,又治胃??;
B醫(yī)生,既治牙病,又治胃病,還治眼?。?/p>
C醫(yī)生,專治牙病。
A醫(yī)生肯定不在思索問(wèn)題之列。B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)當(dāng)挑選C醫(yī)生,由于他更專注,更適應(yīng)我的病情。如果再加一個(gè)條件:B醫(yī)生內(nèi)行,有二十年從醫(yī)經(jīng)歷,醫(yī)療技術(shù)高超,而C醫(yī)生只有五年從醫(yī)經(jīng)驗(yàn),這個(gè)問(wèn)題不那末容易判斷了,是優(yōu)先挑選更加專注的C醫(yī)生,仍然優(yōu)先挑選醫(yī)療技術(shù)更加高超的B醫(yī)生,確實(shí)成了一個(gè)需求仔細(xì)衡量的問(wèn)題。
至少,我們獲得了一個(gè)論斷,擇醫(yī)需求思索問(wèn)題兩個(gè)條件:醫(yī)生的專長(zhǎng)與病情的適配程度;醫(yī)生的醫(yī)療技術(shù)。大家肯定感到這個(gè)論斷不容置疑,并且可以很天然地聯(lián)想到,搜索引擎網(wǎng)站排序不也是這么嗎,既要思索問(wèn)題網(wǎng)頁(yè)內(nèi)部實(shí)質(zhì)意義與用戶查問(wèn)的般配程度,又要思索問(wèn)題網(wǎng)頁(yè)本身的品質(zhì)。不過(guò),怎么把這兩種因素接合起來(lái),獲得一個(gè),而不是兩個(gè)或多個(gè)排序標(biāo)準(zhǔn)呢?如果我們把這兩種因素表達(dá)成數(shù)字,的排序根據(jù)是把這兩個(gè)數(shù)字加起來(lái),仍然乘起來(lái),或是按決策樹(shù)的方法把他們團(tuán)體起來(lái)?若是加起來(lái),是簡(jiǎn)單相加,仍然帶權(quán)重加呢?
我們可以依據(jù)直覺(jué)和經(jīng)驗(yàn),經(jīng)過(guò)試錯(cuò)的方法,把這兩個(gè)因素接合起來(lái)。但更好的方法是我們能找到一個(gè)明確的根據(jù),能跟算術(shù)這么堅(jiān)實(shí)的學(xué)科結(jié)合起來(lái)。提起來(lái),根據(jù)素樸的經(jīng)驗(yàn),人的總稱在古代能建筑出高樓;但要建筑出高達(dá)數(shù)百米的 挨天大廈,假如沒(méi)有建造力學(xué)、材料力學(xué)這么堅(jiān)實(shí)的學(xué)科作為后盾,則是十分十分艱難的。同理,根據(jù)素樸的經(jīng)驗(yàn)構(gòu)建的搜索引擎網(wǎng)站算法,用來(lái)處置上萬(wàn)的網(wǎng)頁(yè)聚齊應(yīng)當(dāng)是沒(méi)問(wèn)題的;但要檢索上億的網(wǎng)頁(yè),則需求更為堅(jiān)固的理論基礎(chǔ)。
求醫(yī),病人會(huì)優(yōu)先挑選診斷正確、醫(yī)治效果好的醫(yī)生;對(duì)于搜索引擎網(wǎng)站來(lái)說(shuō),普通按網(wǎng)頁(yè)滿意用戶需要的幾率從大到小排序。假如用q表達(dá)用戶給出了一個(gè)特別指定的查問(wèn),用d表達(dá)一個(gè)特別指定的網(wǎng)頁(yè)滿意了用戶的需要,那末排序的根據(jù)可以用一個(gè)條件幾率來(lái)表達(dá):
P(dq)
這個(gè)簡(jiǎn)單的條件幾率,將搜索引擎網(wǎng)站排序算法與幾率論這門堅(jiān)實(shí)的學(xué)科結(jié)合了起來(lái),這像在滄海中航行的船舶裝備了南針同樣。利用貝葉斯公式,這個(gè)條件幾率可以表達(dá)為:
可以明白地看見(jiàn),搜索引擎網(wǎng)站的排序標(biāo)準(zhǔn),是由三個(gè)局部組成的:查問(wèn)本身的屬性P(q);網(wǎng)頁(yè)本身的屬性P(d);兩者的般配關(guān)系P(qd)。對(duì)于同一次查問(wèn)來(lái)說(shuō),全部網(wǎng)頁(yè)對(duì)應(yīng)的P(q)都是同樣的,因?yàn)檫@個(gè)排序時(shí)可以不思索問(wèn)題,即
公式左面,是已知用戶的查問(wèn),求網(wǎng)頁(yè)滿意該用戶需要的幾率。搜索引擎網(wǎng)站為了增長(zhǎng)響應(yīng)用戶查問(wèn)的性能,需求事前對(duì)所要等待查問(wèn)的網(wǎng)頁(yè)做預(yù)處置。預(yù)處置時(shí),只曉得網(wǎng)頁(yè),不曉得用戶查問(wèn),因?yàn)檫@個(gè)需求倒過(guò)來(lái)計(jì)算,即剖析每個(gè)網(wǎng)頁(yè)能滿意哪一些需要,該網(wǎng)頁(yè)分了多大比例來(lái)滿意該需要,即獲得公式右面的第1項(xiàng)P(qd),這相當(dāng)于上文紹介的醫(yī)生的專門程度。譬如,一個(gè)網(wǎng)頁(yè)專門紹介牙病,另一個(gè)網(wǎng)頁(yè)既紹介牙病又紹介胃病,那末對(duì)于“牙疼”這個(gè)查問(wèn)來(lái)說(shuō),前一個(gè)網(wǎng)頁(yè)的P(qd)值便會(huì)更高一點(diǎn)。
公式右面的第二項(xiàng)P(d),是一個(gè)網(wǎng)頁(yè)滿意用戶需要的幾率,它反映了網(wǎng)頁(yè)本身的好壞,與查問(wèn)無(wú)關(guān)。如果要向一個(gè)陌陌生人引薦網(wǎng)頁(yè)(我們并不曉得他需求啥子),那末P(d)相當(dāng)于某個(gè)特別指定的網(wǎng)頁(yè)被引薦的幾率。在傳統(tǒng)的信息檢索板型中,這一個(gè)量不太被看得起,如傳統(tǒng)的矢量空間板型、BM25板型,都打算只依據(jù)查問(wèn)與文檔的般配關(guān)系來(lái)獲得排序的權(quán)重。而其實(shí),這個(gè)與查問(wèn)無(wú)關(guān)的量是十分關(guān)緊的。如果我們用網(wǎng)頁(yè)被過(guò)訪的頻次來(lái)估計(jì)它滿意用戶需要的幾率,可以看出對(duì)于兩個(gè)不一樣的網(wǎng)頁(yè),這個(gè)量有著非常很大的差別:有的網(wǎng)頁(yè)每日只被過(guò)訪一兩次,而有的網(wǎng)頁(yè)每日被過(guò)訪成千累萬(wàn)次。能夠供給這么很大差別的量,竟長(zhǎng)時(shí)期被傳統(tǒng)的搜索引擎網(wǎng)站疏忽,一直到Google創(chuàng)造了pagerank并讓它參加到排序中。Pagerank是對(duì)P(d)值的一個(gè)不賴的估計(jì),這個(gè)因素的參加使搜索引擎網(wǎng)站的效果迅即升漲到達(dá)一個(gè)新的階梯。
這個(gè)公式一樣應(yīng)答了上文提出的問(wèn)題,網(wǎng)頁(yè)與查問(wèn)的般配程度,和網(wǎng)頁(yè)本身的好壞,這兩個(gè)因素應(yīng)當(dāng)怎樣接合起來(lái)參加排序。這個(gè)公式以不可以反駁的理由奉告我們,假如網(wǎng)頁(yè)與查問(wèn)的般配程度用P(qd)來(lái)表達(dá),網(wǎng)頁(yè)本身的好壞用P(d)來(lái)表達(dá),那末應(yīng)當(dāng)按他們的乘積來(lái)施行排序。在現(xiàn)代經(jīng)濟(jì)活動(dòng)搜索引擎網(wǎng)站中,需求思索問(wèn)題更多更細(xì)節(jié)的排序因素,這些個(gè)因素有可能有結(jié)果百上千個(gè),要把他們合成一體起來(lái)是更加復(fù)雜和難題。
說(shuō)明:如果您有任何疑問(wèn)或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732