信息流戰爭的新賽點:今日頭條、百度如何沖破“繭房”?在相關的許多報道中,媒體都或明或暗的強調了一點:信息流推薦技術本身早已被國內外論證了是一個成功的移動互聯網產品,但之所以出現劣幣驅逐良幣的問題還是因為使用這個技術的企業出了問題。
半個月前還沉浸在“抖音”高速增長的喜悅中的今日頭條,最近卻有點焦頭爛額。央視、人民日報、第一財經周刊等央媒和核心財經媒體,在上周對今日頭條及旗下的抖音產品進行了一輪違規發布廣告的曝光以及價值觀的批判。
也正因此,不少媒體在引述相關報道的時候都會強調,去年初,今日頭條創始人張一鳴在接受《財經》雜志專訪時提出的,不認為今日頭條應該有價值觀這一論調。
這在一定程度道出了今日頭條的核心問題,但事實上更為關鍵的是,如今這個階段的基于人工智能算法的內容之戰,已不僅僅是打破“信息繭房”這么簡單。從技術之戰開始,這場信息流大戰的賽點,已發生了輕微的變化。
一、推薦準確性的PK,仍將決定于數據而非算法的技巧
對信息流來說,算法準確性是競爭重點,但真正的決勝點,卻是數據。
1、數據熱啟動是百度實現奇襲的根源
首先需要明確一個理論,推薦算法的準確性并不是被計算出來的,而是被統計出來的(這一點在后文底層技術分析會詳細說明),這意味著數據量越大、越相關,越能得出準確的推薦效果。
而且,由于復雜網絡向量關系的存在,一個向量特征的準確性影響是呈幾何擴散的,數據對推薦準確性的影響是非線性增長的關系。在足夠多的數據量情況下,會快速提升,直到準確率接近100%開始變緩(畢竟100%準確十分困難,越接近越難)如圖:
也就是說,在算法準確性這里,數據熱啟動的價值將變得更為重要,足夠豐富的數據,一旦介入信息流推薦算法,就可以馬上實現高的準確率,追趕間距很窄。
以百度為例,其老本行搜索業務與內容直接相關,在內容大數據方面有直接優勢,官方對外宣稱整合了千億特征、百億樣本的數據體系,構建了囊括大到科文史哲,小到一個冷僻的小游戲的特征數據。這為其數據熱啟動做好了充分的準備,而且,主動搜索表達出的用戶向量特征,比通過被動點擊總結的向量特征可能更為準確有效。從這樣的技術角度看,百度信息流可以只用一年時間完成其他公司三五年才達成的目標,在較短的時間內“杠住”今日頭條并不意外。
2、只有足夠大的試驗平臺才能讓準確率“朝上走”
另一個算法準確性的問題是推薦試算的問題,即通過推薦的實踐來反饋當前算法的準確性,從而實現所謂的模型迭代。
例如,平臺通過各種方式得出某類用戶可能喜歡李娜,但推送李娜比賽新聞后效果很差(點擊、停留等指標低),就證明這個推斷可能是不準確的,需要返回調整。這樣的反復試驗能夠讓推薦逐漸接近真相。
而這些,說來說去都是硬實力的比拼,比的是誰的平臺大、空間足夠廣闊,這會讓UC這樣早期沒跟上的信息流平臺越來越落后(如果試驗環境不夠充分,下一次迭代的準確性未必比這次好,準確率呈現反復波動而非一致提升),而百度這樣本來就憑借搜索頁面占據用戶眼球的平臺“廟大好念經”。
也即,算法準確性可能不是什么奇巧淫技,比來比去還是看誰的膀子粗。
二、技術下一程,要從冰冷的統計學走向有溫度的內容尊重
上文準確性所行之事,從宏觀層面都是統計學的“花招”。而信息流的下半場競爭,則將更具有尊重內容本身的人文色彩。也即從“量”的上半場進入“質”的下半場。
1、算法不帶價值觀,但產品要有溫度
張一鳴“算法不帶價值觀”被廣為詬病,但從上文的技術推導本身而言,算法可能真的沒有價值觀,這些冰冷的統計學數據不關注也不可能關注到內容本身。
但同樣是推薦系統,網易云音樂在QQ音樂、蝦米音樂等一眾軟件中獨樹一幟,被廣為贊譽。好聽的冷門歌曲、年少時聽過的磁帶、收音機播過的音樂,在恰當的時機跳上來給予用戶驚喜?!坝袦囟取钡漠a品收獲用戶粘性是一種必然,有溫度的產品也一定是企業長久發展的必要。
同樣是內容產業,信息流莫不如是。
2、“人人平等”要變成“生而不平等”
這里的轉化有雙重含義,首先是推薦機制不再只局限于“博眼球”的統計學需求指標,從而丟掉了優質內容。其次是打擊套路寫作,讓上百萬的內容創作者們實現真正的創作豐富化,而不是束縛于推薦機制的繭房中。
想要實現這種轉化,完全寄希望于人工不太現實(雖然百度這些平臺都在強調自己的人工投入),最終還是要通過技術本身去甄別內容,打入內容的“內部”,自主判斷什么是好文章、什么是好圖片、什么是好視頻、什么是好音樂、甚至什么是好人(內容源)。
今日頭條在公開算法末尾就如何判斷內容好壞做了一個章節,但該章節并沒有太多驕傲的“技術”宣揚,說明它仍在發力被社會期許的“好內容”。因此,如果說百度或者其他信息流平臺下一階段要徹底超越今日頭條,“好內容”將是最合適、最必要的角力點。
百度發力“人工智能皇冠上的明珠”NLP(自然語言處理)或許就是在走這條路。雖然同時強調自己的AI技術,但百度作為綜合性科技公司相對頭條,在AI的寬度、深度上公認更有優勢,在利用自然語言處理技術,對內容的質量、新穎度、情感傾向等進行深度理解和挖掘方面,較今日頭條可能更有先機。
百度先于今日頭條搞出的“創作大腦”,表面上是為了更好地留住作者,而深層次可能更在于百度想在理解、區分內容好壞方面更先一步。畢竟,AI輔助寫作首先需要的就是對知識、對圖像的理解,將是錘煉內容識別技術的恰當機會。
無論如何,信息流的技術競爭一定要回到尊重作者、尊重內容的“供給側競爭”(相對于只關心用戶需求的需求側競爭,它本質上文提及的統計指標集合)上來,讓每一個內容個體“生而不平等”,由他評走向自我價值認同。
如果”澳網出線局勢深度分析”與“李娜3歲時干的事你絕對不知道”這樣的文章不再被同等對待,最終所謂“信息繭房”等表面問題也將迎刃而解。
而這方面,雖然百度已經占得先機,但頭條、天天快報甚至手握公認優質內容的微信入局,必將引致一場新的技術惡戰。
三、算法流派眾多,但一切歸于貝葉斯
基于前文,我們能發現,在信息流推薦中,數據仍然是決勝點,而信息流也必然要更加尊重內容。而從底層技術角度,當我們回到算法的起源,也同樣可以印證這些。
以目前主流的算法為例歸類分析:基于內容的推薦、協同過濾推薦、基于關聯規則的推薦、基于社會化網絡分析的推薦等,用通俗的語言即可解釋。
1、基于內容的推薦算法
即用戶喜歡什么東西,推薦一些相似的東西。該推薦算法簡單有效,推薦結果符合人們的認知;無須用戶的歷史評分信息。但是,該算法必須知道內容的特征,界定“什么才是相似”,比如體育里的籃球、NBA、耐克……如果不能得到足夠的信息,則推薦效果較差、結果較單一。
2、協同過濾技術
即把興趣差不多的用戶群體歸類,然后給他們推薦相同偏好的內容。它通過協作的方式分析用戶之間的喜好,避免特征提取不完全的情況。但存在冷啟動問題,無法準確對新用戶進行推薦,存在數據稀疏性問題。有從用戶出發和從內容出發兩種協同,如圖所示:
圖:從用戶出發和從內容出發的協同過濾推薦(來源:CSDN“數據挖掘工人”博客)
3、關聯規則推薦
即通過某些技術挖掘大數據,建立內容之間的關聯規則,起初用在實體零售,比如經典案例尿不濕與啤酒的搭售。在信息流領域中,主要是用統計學的方式發掘那些表面上看不出關聯的內容與內容之間的某些相關性,及相關程度。
4、社會化網絡分析
即身邊的人喜歡什么,就給該用戶推薦類似的內容。例如親戚、朋友、同學等雙邊關系,微博關注、微信公眾號訂閱等單邊關系,織就一個由用戶組成的節點網絡,探索與分析各節點、邊的重要程度,利用這些重要關系來進行推薦。
上述這些主要的推薦算法,都源于貝葉斯理論。其主要解決的就是根據已發生的事實推斷關聯事件發生的概率。
而信息流算法核心推薦系統正是通過利用用戶的歷史行為數據,分析用戶的興趣愛好并構建相應的用戶模型,從待推薦的項目中選擇與其興趣偏好相符的項目進行推薦。例如,在一個極簡化的模型中,已知一個喜歡李娜的用戶喜歡網球的概率為x,那么就可以得出喜歡網球的用戶喜歡李娜的概率y,藉此推薦內容。這
種推斷的準確性,就是信息流算法能夠達到的準確性,其基礎框架就是貝葉斯理論??梢钥闯?,不管是基于何種類型的推薦,在算法前的機器學習層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來。不管最終構筑成多么龐大的體系,但它們開始的基點卻是一樣的,這也使得算法推薦容易陷于“信息繭房”的怪圈。
四、“人人平等”造就信息流“創作繭房”
在業務層面,貝葉斯的特性也不可避免地造就了“創造繭房”現象。而打破“創造繭房”,就唯有跳出當下的貝葉斯框架,靠的就是上文所言的內容尊重,從“人人平等”變成“生而不平等”,最終也給出信息流算法技術演化的應有方向。
1、概率統計基礎上的算法,都是“他評體系”
主流算法,就是通過推斷個體與個體之間的關系(方式可以有上文提到的多種),參考熱度等評價指標,從而有目的進行推薦。例如,對一個喜歡李娜的用戶推薦澳網的資訊,在推薦時就已經根據復雜的計算(基礎是貝葉斯)。由一個預期的點擊率、停留時間、點贊、評論情況計算,計算不達標的,就不會推薦出去。
在今日頭條算法發布會上,曹歡歡在講到今日頭條的數據量時,稱其有幾十億“向量特征”。所謂向量,指的是帶方向,例如喜歡李娜和喜歡網球是兩個“原始特征”,而“喜歡李娜→喜歡網球”才構成一個向量特征(帶概率數據)。
但事實上,向量不過就是從一個點到另一個點,是點與點之間的數據關系,每一個內容個體(一篇文章、一個短視頻等)都被當作一個點存在。是否被推薦,是由各種外圍向量關系決定,是典型的“他評體系”(數學上,點已經不可再分割)。
2、“人人平等”后,“創作繭房”成信息流頑疾根源
這意味著,內容和內容,在算法這里是“人人平等”的,一篇精心編撰的圖文與一個拼湊熱文會被一視同仁,都依據向量特征進行推薦。但這也造成了內容質量的“參差不齊”。
可以說,在當下的算法體系下,內容個體真正缺乏的是“自我認可”,高質量內容源不被重視;算法更多地是“世俗評價”,算法為上,人人都在追求曝光量。
于是,在當前算法模式下,創作導向被冰冷的統計學規則限制,越來越收斂到某些高推薦、高曝光、高點擊的范圍內(褥羊毛有意為之,或者被環境脅迫),最終形成“創作繭房”。
算法推薦直觀上造成了用戶層面的“信息繭房”現象,更深層次看,則引發了內容生產者的“創作繭房”問題。
誠然,他評體系確實對增強推薦內容與用戶的匹配有重要意義,提升準確性仍然是算法的重要任務,但解決“創作繭房”問題,不再把內容個體當做一個不能分割的點,而把算法擴展到內容的內部,尊重每一個內容,會是下一階段信息流技術突破的重點。
2898站長資源平臺網站排行榜:http://www.2898.com/ranklist.htm