好奇?每天必看的SEO大數據是怎么來的


    自2014年底開始5118運營,我們結識了SEO業內很多朋友,在和他們聊天中,對大數據認可的同時也對這些數據是如何產生表示濃厚的興趣,經常被問到每天是如何分析如此龐大的數據,這些數據的理論依據是什么?

    為了讓更多的朋友對這些大數據背后運作的原理有一個完整的認識,今天我們就來聊一聊這個話題:每天必看的SEO大數據是怎么來的?



    熟悉5118的朋友都知道,5118首頁已經羅列出所有常用功能:網站和熊掌號搜索引擎排名趨勢監控、網站和熊掌號SEO內參、長尾詞挖掘和需求圖譜、移動流量詞挖掘、相似網站、子域名挖掘、歷史競價詞挖掘、素材搜索、偽原創工具,接下來我將逐一介紹這些功能的數據來源和背后的算法。


01

網站和熊掌號排名趨勢監控



http://www.bemdhg.tw/seo/m.tmall.com


http://www.bemdhg.tw/xz/name/%E6%98%93%E7%8E%A9


    做為5118小伙伴每日必看的一項數據,經常給大家帶來排名增長的歡喜和排名暴跌的憂傷,為什么5118會掌握這些數據呢?


    其實5118是不能窮盡所有關鍵詞在百度中排名的,因為這樣消耗的成本太大,畢竟百度后臺的數據是保密的,加上中文博大精深,用戶每天在百度的查詢詞是一個無法企及的數量級,所以我們要用一套效率和成本上比較可行的方案,于是我們利用了樣本詞庫的方法。


    這個方法大致是這樣的,我們選擇了在百度上每天查詢量最靠前的360萬關鍵詞,其中包含了百度指數大于0的所有關鍵詞,數量超過一百多萬個,另外包含了百度競價后臺關鍵詞規劃大師中搜索量靠前的關鍵詞兩百多萬個,這基本涵蓋了各行各業最多人查詢的詞匯,然后通過爬蟲程序,每天凌晨12點到早上8點,自動在百度中模擬人進行查詢,并且記錄下每詞查詢前100名的域名,這樣360萬次查詢乘以100,我們每天需要把3億6千萬的排名數據在8個小時內處理完成,要完成這樣的工作量,光在服務器上我們就投入了百萬資金,以盡量滿足用戶能在8點上班之前看到新一輪的數據,當然這還僅僅是百度PC排名一項。

    


    為了讓大家更直觀的了解這些數據,才有5118首頁大家看到的進度條,這里能夠看到樣本詞庫的規模3600000個,能夠看到三個搜索引擎每天采集排名的進度與大概預估的時間,能夠看到我們每天會把新的流量關鍵詞加入,把不好的樣本關鍵詞淘汰,通過可視化的數據讓大家大致的了解數據采集分析的工作進度與狀態。


    有的時候我們會發現當日呈現數據過晚或者卡在99%不動,這可能是因為我們遇到了某些技術問題導致數據處理超出常規時間,技術人員一般會在當天介入努力修復好,讓接下來新的一天采集周期恢復正常。


    有的時候我們發現一些排名和自己本地的查詢有些出入,這可能是由于地區不同的原因,也可能是時間不同的原因,還可能是百度分配的緩存服務器不同的原因,我們無法做到100%準確,就算人工查詢,因為百度自身的復雜性,前一分鐘和后一分鐘的排名都有一定的區別,所以我們建議排名趨勢數據主要用于網站趨勢的監控,例如我的SEO策略是否讓整體排名趨勢向上,例如我的網站最近是不是受到了新算法的影響。

    如果需要更加精準的對特定關鍵詞的準確監控,可以用5118專門排名監控工具:https://monitor.5118.com/keywords

    

02

網站和熊掌號SEO內參


    像第1點所說,監控著如此龐大的排名數據,可以輕易掌握整個搜索引擎波動的情況,計算出波動最劇烈的網站是哪些,排名掉落最多的網站是那些,于是我們將這些數據自動整理歸納成幾個大的分類,讓大家能夠從中吸取經驗,改善自身的SEO運營。

    

http://www.bemdhg.tw/xz/best/day


03

長尾詞挖掘與需求圖譜


    作為5118核心數據之一,長尾詞在SEO中扮演舉足輕重的角色,能玩轉長尾詞是每個網站運營者需要掌握的技能,隨著搜索引擎權重格局越來越固化,熱門詞匯的排名基本難以撼動,通過長尾詞來獲取更多的流量,是一門重要的功課。



    5118截至到2018年12月8日擁有51.87億關鍵詞和長尾詞數據,每天以千萬級別在增長,基本能夠監控互聯網上所有的熱門查詢和詞匯,我們的數據來自于:百度、360、搜狗、百度競價、今日頭條、微信公眾號、淘寶、京東,這些查詢數據代表著用戶的需求,代表著用戶希望尋找什么,掌握了這些關鍵詞,就像戰爭中破譯了密碼,可以更高效率的進行流量運營的工作,知道如何用最少的精力來獲取最大的流量。


    從上圖的右側也看到,我們會周期性的對所有的關鍵詞的百度指數數據和競價流量數據進行更新,從2018年10月開始基本上1-2周會對這些指數和流量數據完成一次更新,我們掌握的流量關鍵詞數據已經過千萬,所以大家在此獲得的流量數據是相對比較及時的。
    

http://www.bemdhg.tw/seo/newwords/%E5%B0%8F%E7%A8%8B%E5%BA%8F


另外我們會把所長尾詞歸納到一起進行高頻詞和疑問詞分析,得出結論供大家直接使用。





http://www.bemdhg.tw/naotu/detail/0abf2c09c9394126b2c4e40e8b9bd890


04

移動流量詞挖掘


    眾所周知,現在是移動時代,網民大部分上網時間都是和手機一起度過,手機流量已經超越PC流量,所以移動端SEO對流量運營來說至關重要,如何從百度和其他移動搜索引擎獲得更多的流量,有別于PC端的技巧,例如下圖來自于百度的推薦關鍵詞。
    


    我們在使用百度移動時經常能夠看到這樣的推薦出現在搜索結果的中間,這類推薦比起PC端是非常容易被點擊的(人類手賤),具有非常高的SEO價值,只要做好這些內容將會獲得大量流量。


    5118的移動流量詞挖掘就是針對這些詞進行挖掘,并且是深層次累積挖掘,也就是說從1個詞挖出10個詞,再從10個詞挖出1000個詞,在從1000個詞挖出10000個詞,然后觀察每個詞在推薦中的次數,推薦次數越多就證明被用戶看到的概率也就越高,做了這些內容越容易帶來流量。

    

http://www.bemdhg.tw/traffic


    這套理論已經被數萬用戶證明是行之有效的,用這些關鍵詞作為文章標題為移動網站帶來了大量流量,這個功能也是用戶用的最頻繁的工具之一。


05

相似網站


    說到相似網站,其實原理很簡單,兩個網站講述的內容相似,我們就認為兩個網站是相似的,但是面對全互聯網數以千億計的網頁,如何統計得了這么多數據呢?


    這里我們就要利用百度關鍵詞排名來進行統計了,也就是說我們換了一種比較投機取巧的方法,我們將“講述的所有網頁內容相似”改為了“排名的所有關鍵詞相似”,也就是說兩個網站擁有相似的關鍵詞排名,那么我們就認為兩個網站相似。


    5118恰恰掌握了所有網站的排名數據,這項工作就變得異常輕松,我們利用2年的累積記錄了50億關鍵詞前20名的排名,把1000億排名利用Spark分布式計算工具進行聚合,得出了每個網站關鍵詞相似比率最高的那些網站并記錄到數據庫里,這樣就看到了下面這些數據了(to8to.com的相似網站)。


http://www.bemdhg.tw/seo/relatedsites/www.to8to.com


06

子域名挖掘


    我們在每天記錄所有網站排名的同時,也記錄了所有網站子域名的排名,這樣我們將所有根域名相同的域名合并在一起,就形成了某個根域名的子域名列表,這樣用戶查詢某個域名的子域名時,我們可以從數據庫中非常輕松的提取。

    

http://www.bemdhg.tw/seo/subdomains/www.to8to.com


08

歷史競價詞挖掘


    5118爬蟲每天要采集數百萬的關鍵詞排名數據,此時所有的競價排名數據也正好在這些網頁當中,我們每次都將這些競價網站和標題都記錄下來,久而久之就形成了一個超大的競價詞數據庫,可以知道某個網站歷史上都投入過哪些關鍵詞競價,將這些詞導出后,可以快速進行競價實驗,減少自己競價摸索時間。

    


http://www.bemdhg.tw/seo/bidrank/www.to8to.com


09

素材搜索


    在SEO過程中,內容為王、鏈接為皇,尋找優質的內容作為自己文章的靈感來源,是非常花費時間的,我們經常切換各種媒體中搜索,知乎、頭條、公眾號等等,而5118素材搜索(http://www.5ce.com/sc/)的原理,就是利用爬蟲程序模擬人類將各個媒體中的搜索引擎中的結果按照一定規律匯總合并到一個搜索結果中,供需要尋找內容靈感的朋友高效的進行整合查詢,找到自己想要呀的內容。


http://www.5ce.com/sc/%E9%99%88%E7%BE%BD%E5%87%A1


10

偽原創工具

    

    本工具的原理是通過對文章進行智能短語切割,而非詞匯切割,對文章進行整體分析,得出哪些詞匯是可以被其他詞匯最準確的替換。


    5118通過對全網100億文章進行智能分析,將中文短語分詞準確率提高到新的高度,同時利用GPU云計算來加快對海量數據的智能總結,能在幾天內從幾十T的大數據中得出類似“驚呆了”和“嚇尿了”這類短語的關聯性數值。

轉換前:

小龍女吳卓林一直生活跌宕起伏之中,與母親吳綺莉吵吵鬧鬧更讓吃瓜群眾吃得津津有味,后又被爆與31女網紅相戀驚呆了一群吃瓜群眾


轉換后:

小龍女吳卓林總是家庭生活起起伏伏當中,與媽媽吳綺莉磕磕絆絆更讓鍵盤俠吃得興致勃勃,后又被爆與31美女網紅同床共枕嚇尿了成群網絡噴子


轉換列表:

跌宕起伏 ---- 起起伏伏

吵吵鬧鬧 ---- 磕磕絆絆

吃瓜群眾 ---- 鍵盤俠

津津有味 ---- 興致勃勃

女網紅 ---- 美女網紅

相戀 ---- 同床共枕

驚呆了 ---- 嚇尿了

吃瓜群眾 ---- 鍵盤俠


    更詳細的介紹,大家可以參閱下面文章:干貨 | 提高轉載文章SEO收錄率的智能工具




    通過本篇文章的介紹,大家應該對5118整體功能的數據來源有了一個清晰的認識,別看這些功能通過幾百個字就能描述清楚,但是其實有的時候為了一個功能要忙碌2-3個月,因為有些數據量達到了百億級別,而且每天要計算,所以很多簡單的事情就變得不那么簡單了,希望大家能夠認真研究這些功能,將有價值的部分善加利用到自己的工作當中,也別忘了向您的朋友推薦一下5118,我們會繼續本著嚴謹的態度為大家奉獻更多好的產品,謝謝!


前方高能產品推出預警
  • 2018年12月底將推出 海量關鍵詞 在線分析管理功能

  • 2019年初推出 偽原創工具(https://wyc.5118.com/)二期

  • 2019年初推出 5118SEO瀏覽器插件:SEO強大的外掛

  • 2019年初推出行業流量暴漲詞功能:了解行業中暴漲的詞匯

  • 2019年初推出內容運營智能編輯器:內容運營終極武器



近期干貨


原創高流量蹭熱點文章實操


什么是接近完美的SEO流量文章?其實一學就會


干貨 | 提高轉載文章SEO收錄率的智能工具


SEO大神分析這么多關鍵詞最后干啥?


長尾關鍵詞修煉是SEO大神必經之路


SEO要從行業流量根詞出發


以“網絡營銷“行業為例,破解流量運營密碼


用神器精準做知乎問答營銷


23個網站數據分析常用功能,像大神一樣思考!



www.bemdhg.tw

享受大神級運營視野

關注一個,我們只推有用的





各排名數據更新進度:
  • 百度PC:
    下次更新
    0%
  • 百度移動:
    下次更新
    0%
  • 360搜索:
    下次更新
    0%
码报资料2019龙生肖