互聯網搜索廣告技能升級版,趕緊get起來
來源(廣告買賣網) 作者() 閱讀() 時間(2015/7/24 10:03:55)
。ǘw一化
為什么不拿著用戶的搜索詞,直接去查詢(keyword, ad)的索引呢?因為用戶的搜索詞千變萬化,由于計算機性能的限制,我們不可能對所有的搜索詞建立到競價的廣告的倒排索引。很多搜索詞,雖然形式不一樣,但是他們代表的用戶意圖可能是一樣的。用戶輸入的查詢多種多樣,在搜索引擎有限的計算能力和存儲資源下,不可能對每一個原始的用戶查詢串建立倒排索引。
為了解決這種問題,就引出了歸一化的方法,歸一化原本是統(tǒng)計學中概念,這里是指把用戶搜索詞(查詢串)和廣告主的買詞(競價詞),轉化到一個搜索引擎內部的檢索詞典里。歸一化是一個多對一的關系,即好幾個搜索詞,對應的歸一化詞可能是同一個。查詢改寫后產出的所有詞,都是經過歸一化后的詞。廣告搜索引擎中是用歸一化后的詞去檢索廣告。而用戶的競價詞,也是通過歸一化后建立的倒排索引。
歸一化的好處是能夠幫助我們減少搜索引擎需要處理的詞的數量,幫助我們降低問題的規(guī)模,但是也是壞處,可能會喪失掉一些語義信息的精度。搜索詞和買詞往往是人操作產出的,更具有可讀性,而歸一化是一種數學方法,歸一化后的詞可讀性差一些。
(三)查詢改寫的輸出
可以這樣簡單理解查詢改寫的:
它就是搜索引擎進行匹配(Match)的大腦,用來揣測出用戶的搜索意圖,這些搜索意圖是有權重區(qū)分的,來指導檢索模塊進行檢索,排序模塊進行排序
對于搜索廣告,一般的查詢改寫輸出,包含以下幾個部分:
改寫出的查詢(rewritten query)。每個查詢都會包含如下的信息:
查詢詞:最終用來查詢倒排索引的查詢詞
權重:刻畫跟原始搜索詞的相關性
對于電商環(huán)境的查詢改寫(例如淘寶和京東),還會預測出當前query的類目和屬性
關于類目屬性,可以看看鬼腳七的淺談淘寶類目屬性體系
關于query改寫,有這篇詼諧幽默的文章可以看看:
從狄仁杰的測字占卜到一淘網的Query分析之大結局
。ㄋ模z索
倒排索引和正排索引
查詢改寫是query->bidword的映射,而檢索過程是bidword->ad的映射,即找到所有購買了這個競價詞的廣告。查詢的時候是用檢索詞去查廣告,為了加快速度,就建立了一份競價詞到購買了此競價詞的廣告的倒排索引: bidwordx->(adi, adj, adm, adn)。這個跟網頁搜索引擎中的倒排索引(inverted index)的作用是一樣的,都是為了加快檢索速度,類似于書籍中的目錄頁。這樣對于一次檢索,遍歷此次所有查詢詞的倒排數據,把寶貝取出來,就能得到廣告的候選集合。