推薦美圖的 Pinterest 如何靠機(jī)器學(xué)習(xí)吸睛? 2016年09月22日08:57 來源:|
月活躍用戶達(dá)1億的Pinterest越來越依賴機(jī)器學(xué)習(xí),以幫助發(fā)現(xiàn)新的互聯(lián)網(wǎng)洞見。
世界各地的用戶訪問Pinterest是為了探索、保存和分享照片及文章。幫助用戶找到自己喜歡的內(nèi)容,用戶自然會(huì)被留住:Pinterest上30%的互動(dòng)和25%的Pinterest內(nèi)購來自于Pinterest推薦的相關(guān)內(nèi)容。為了推薦合適的內(nèi)容,Pinterest使用了由數(shù)據(jù)驅(qū)動(dòng)的頂尖技術(shù),還進(jìn)行了大量試驗(yàn)。
那么,Pinterest是如何利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)的呢?
Pinterest首席發(fā)現(xiàn)科學(xué)工程師(leaddiscoveryscienceengineer)MohammadShahangian表示:“我的主要工作是找到解決內(nèi)容發(fā)現(xiàn)問題的方向。我們會(huì)對(duì)算法做非常小的改變進(jìn)行試驗(yàn),每一次嘗試都有其改進(jìn)或不好的地方?!?
獨(dú)家優(yōu)勢(shì):基于興趣
實(shí)際上,這和Pinterset的特點(diǎn)不無關(guān)系:它的優(yōu)勢(shì)之一在于,Pinterset是圍繞用戶的興趣而建立的社區(qū),用戶會(huì)將自己從互聯(lián)網(wǎng)上找到的、文章和圖片按興趣分類。這意味著Pinterest不用像其他社交網(wǎng)站一樣,通過點(diǎn)擊模式或在某個(gè)頁面上花費(fèi)的時(shí)間來猜測用戶的興趣,而是可以直接用算法來衡量其數(shù)據(jù)庫中750億個(gè)條目之間的關(guān)系,因?yàn)檫@些條目很可能被歸在同一個(gè)興趣之下。
MohammadShahangian說道:“許多試圖通過輸入或信號(hào)來推導(dǎo)用戶興趣。但在Pinterest,用戶明確地給出了自己對(duì)什么感興趣的信號(hào)。”
訪問Pinterest的用戶們?cè)诓粩酁檫@個(gè)由用戶、搜集到的條目以及收藏板所組成的社交圖景添磚加瓦。這些數(shù)據(jù)又可以讓Pinterest更精確地為用戶主頁消息流、搜索結(jié)果以及相關(guān)內(nèi)容推薦提供內(nèi)容。單純根據(jù)用戶關(guān)注的內(nèi)容向用戶推薦并不理想,而推薦相似內(nèi)容又很容易重復(fù)。
在MohammadShahangian看來,“如果你收集了一個(gè)廚房水槽的條目,我們應(yīng)該給你推薦更多水槽呢,還是推薦可以讓你的廚房煥然一新的條目?”
在實(shí)踐中不斷測試
為了作出這些決策,Pinterest的工程師們?cè)囼?yàn)了多種機(jī)器學(xué)習(xí)算法。他們研究了這些算法在相關(guān)和不相關(guān)條目上的效果,以及它們?nèi)绾斡绊懻鎸?shí)用戶的活躍度。
MohammadShahangian說道:“我們確實(shí)會(huì)直接在Pinterest上做試驗(yàn),但很多時(shí)候我們都會(huì)先做很多準(zhǔn)備工作再試驗(yàn)?!?
當(dāng)然,如果不進(jìn)行實(shí)際測試,就根本沒辦法知道某個(gè)用戶是否會(huì)喜歡新的推薦內(nèi)容?!拔覜]法花錢請(qǐng)人告訴我,某個(gè)用戶是否會(huì)喜歡新的推薦內(nèi)容,”MohammadShahangian表示。但通過研究算法推薦的內(nèi)容是否會(huì)被真實(shí)用戶歸為某個(gè)興趣下,這就能得到相對(duì)靠譜的答案了。
此前,Pinterest將用戶主頁的消息流從純粹的按時(shí)間排列關(guān)注用戶的消息,改成了由算法生成的消息流,這一舉措讓用戶的活躍度提高了五分之一到十分之一,后續(xù)算法改進(jìn)還會(huì)帶來額外提升。
Shahangian表示:“在整個(gè)改進(jìn)過程中,Pinterest得到了長足發(fā)展。個(gè)性化極大地提高了用戶活躍度。”
改進(jìn)圖像搜索功能
Pinterest還一直在改進(jìn)圖像搜索,以幫助用戶更好地找到相似圖片。Pinterest的工程師們與加州大學(xué)伯克利分校視覺與研究中心的研究人員們合作開發(fā)了這一技術(shù)?,F(xiàn)在它已經(jīng)能通過深度學(xué)習(xí)算法來自動(dòng)識(shí)別圖片中的物體了。這樣,用戶就可以點(diǎn)擊這些物體來找到Pinterest中的相關(guān)條目。
Pinterest視覺搜索工程師DmitryKislyuk說道:“這不是區(qū)分貓狗的分類算法。我們是想實(shí)時(shí)找到圖片間的相似性?!?
他表示,這一視覺搜索工具在發(fā)現(xiàn)Pinterest中的家庭裝飾品和時(shí)尚用品上效果很好。未來Pinterest希望能改進(jìn)其自動(dòng)分類功能,以更好地滿足其他搜索需求,比如幫助用戶找到相似的新食譜。
在談到用深度學(xué)習(xí)來更有效地進(jìn)行圖片分類時(shí),Pinterest視覺搜索工程師AndrewZhai說道:“我覺得我們的模型會(huì)變得更語義化,也會(huì)變得更好?!?
Pinterest的工程師們?cè)趯W⒂谕晟莆矬w識(shí)別和搜索的同時(shí),還打算開發(fā)一款應(yīng)用,讓手機(jī)用戶可以拍攝現(xiàn)實(shí)世界的物體,然后獲得Pinterest上的相關(guān)條目推薦。
DmitryKislyuk表示道:“現(xiàn)如今的深度學(xué)習(xí)、計(jì)算機(jī)視覺領(lǐng)域令人激動(dòng)人心。世界變化太快,頂尖技術(shù)每兩個(gè)月就會(huì)變一次。”
責(zé)任編輯:姚泓澤