㈠ 為什麼知乎上 winter、趙劼、vczh三人常常被相提並論
這個問題很有意思,因為這個趙溫輪三人,其實他們本人有對此進行一些解釋,因為他們本身在知乎上也有自己的評論,所以他們本人來回答關於他們本人的問題的時候,就會讓人產生有一定的搞笑的感覺。。比如說我下面找到一些資料給你截圖一下。
字幕君表示,我要為溫兆倫打廣告。強勢吧。反正大致就是這樣,這三位大佬,牛逼人物。
㈡ 我現在是大二,軟體工程專業。現在只學習C語言,java,只是學了基礎,我選前端還是後台
這個最好還是你自己做決定,別人的建議都只能作為參考。
後端中Java體系比較龐大,有Spring框架。
前端主要是HTML,CSS,JavaScript。最重要還是JavaScript。目前主流框架有React,Angular,Vue
我建議你都先接觸下,看自己擅長哪個。
另外,和學術或者就業有關的問題,建議去知乎提問。那裡人均985/211,說不定還會遇上你的校友。而且編程大佬有很多,前端的有尤雨溪(Vue作者),C/C++有輪子哥(vczh)....
㈢ 千萬知乎用戶數據分析報告
最近爬取了知乎1000萬的用戶數據,耗時一周。
使用 ElasticSearch + Kibana 實現數據存儲,可視化。
數據爬取時間為 2019年7月 (3-9)日
抓到的數據大部分都是資料不完善,以下分析會過濾掉資料為空的那部分。
涉及到性別:-1:未知,0:女, 1;男
本文思路參考 這里
可以看到北京上海用戶數量領跑其它城市,所有城市都是男用戶稍佔多一點。出現了深圳,深圳市 還有 廣州,廣州市,因為在知乎的個人資料中,居住地這個選項是手動填寫而不是選擇。
(這里由於kibana用的不熟,暫時不知道怎麼把合並,歡迎知道的朋友告知)
可以裂和看出互聯網行業一騎絕塵,領先第二名一倍;而第二名計算機軟體也是兄弟行業。比較有意思的是以行業劃分的話,有比較多行業女性數量占優(高等教育、臨床醫學、創意藝術、財務、法律、基礎教育、教育、廣播電視、廣告游差、培訓)。而反觀計算機軟體、電子游戲、機械設備、電子電器、計算機硬體這些行業男性數量大幅占優。比較意外的是有這么多人從事電子游戲行業,超過了很多傳統行業(當然有可能這個職業的人在知乎上比較活躍)。
有了行業分布,我們順便再看看按照職業劃分如何。與參考文章不同的是,現在知乎上學生佔比最多,可能是知乎當前目標群體為學生,加大校園推廣力度。這里我理解是資本入股後的營收壓力,使知乎選擇了這樣的戰略。(另外軟體工程師,前端,程序員和演算法工程師那誇張的男女比例是什麼鬼=.=)
可以看到各高校間的差距並不是特別明顯,跟現居城市相對應,北京的清北在前三占據兩個席位。杭州在城市中排第三,浙大的學子功不可沒。比較有意思的是 克萊登大學(「克萊登大學」原本是錢鍾書先生小說《圍城》里虛構的騙子學校),另外 中國傳媒大學 是前50里邊唯一女生數量比男生多的學校。
看完學校,我們最後來看一下專業分布。計算機相關行業占據絕對優勢,我想到原因有二:近年來市場對計算機相關人才需求巨大;同時計算機相關人員玩知乎佔比較大。法學在前排是讓我比較意外的。
看了那肆磨盯么多各種類型的分布,我們來關注一些不一樣的
這里列出了關注者數量前30的用戶,第一知乎日報應該是知乎官方推薦的賬號,張佳偉,丁香醫生緊隨其後。劉看山也是知乎官方賬號,關注者數量似乎還在猛漲,從拉取數據到我寫此文幾天時間,關注數量漲了20w。輪子哥驚人的22k+回答數顯得格外活躍(或許是機器人回答的,誰知道呢。另外經統計輪子哥是目前知乎上回答數量最多的)。
再來看一下被贊的數量最多的有哪些人
可以看到張佳偉,丁香醫生還是前排,輪子哥屈居第三。後面又好多用戶回答數量並不多,同樣收獲了好多贊。看看這裡面有沒有你關注的人吧~
再來對比一下哪些高校被贊數量最多。可以看出清北,浙大,復旦,上交,武大等Top N 學校影響力還是比較大的。另外克萊登大學很頑皮的排到的第三。
看了那麼多柱狀圖,搞個餅圖來看一下被關注者數量分布,看看自己在知乎屬於什麼水平
可以看到大部分知乎用戶是沒人關注的,如果你擁有一個以上關注者,那麼恭喜你打敗了75.37%的知乎用戶。看來還是很多人跟我一樣,是一個知乎小透明~
來一個具體的表格
數據里邊有個is_active欄位,看起來是一個時間戳。我猜這個欄位記錄的是用戶最後一次登錄時間,就這么拿來用咯。
這里從紅色開始,逆時針依次是10天,一個月,三個月,半年,一年,兩年,三年以上。
可以看出三個月內活躍用戶大概佔比30%,另外有30%用戶近三年沒登錄過了。
最後我們以一張詞雲結束本文,大夥可以看看自己專業在圖中什麼位置
截止目前抓取了 9433740 條數據。今天7小時抓了不到5k條數據,數據增長已經非常緩慢了。帶寬佔用有10M左右,說明還是在不停的爬取,只是爬到的重復率已經很高了。餘下的用戶可能在不同的一片森林裡,與目前爬取數據沒有交集,或者根本就是0關注;也有可能數據接近爬完了。目前程序佔了6G內存。今晚再觀察一下,如果增長速率還是如此緩慢,明天就把它停掉了~
想了解更多爬取心路歷程 請看這篇
這是我第一次搞數據爬取,不足之處 請各大神多多指導 。另外關於數據分析,各位可以想想更多不同的維度,得更有多有趣的內容。結尾附上一條抓取的數據樣本。
以上,完...