亚洲,欧美,中文字幕,小婕子伦流澡到高潮视频,无码成人aaaaa毛片,性少妇japanesexxxx,山外人精品影院

從底層到應(yīng)用 那些數(shù)據(jù)人的必備技能

  根據(jù)數(shù)據(jù)應(yīng)用的不同階段,筆者將從數(shù)據(jù)底層到最后應(yīng)用,來談?wù)勀切?shù)據(jù)人的必備技能。

  大數(shù)據(jù)平臺

  大數(shù)據(jù)平臺目前很火,是數(shù)據(jù)源頭,涌現(xiàn)出各種炫酷新技術(shù),包括搭建Hadoop、Hive、Spark、Kylin、Druid等。不過做這些的前提是你要懂Java,因為很多平臺都是用Java開發(fā)的。目前很多企業(yè)都把數(shù)據(jù)采集下來了,對于傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)是完全夠用的,可是對于用戶行為和點(diǎn)擊行為這些數(shù)據(jù)或者很多非結(jié)構(gòu)化的數(shù)據(jù),包括圖像和文本類的,由于數(shù)據(jù)量太大,很多公司都不知道怎么進(jìn)行存儲。

  這其實(shí)要解決的是實(shí)時、近實(shí)時和離線的大數(shù)據(jù)框架如何搭建,各數(shù)據(jù)流之間如何耦合和解耦,如何進(jìn)行容災(zāi)的問題,平臺穩(wěn)定、可用是需要重點(diǎn)考慮的。

  筆者的感覺是:最近兩三年中,這方面的人才還是很稀缺的,因為大數(shù)據(jù)概念炒作得非常厲害,很多企業(yè)被忽悠著開始進(jìn)入大數(shù)據(jù)行業(yè)。而進(jìn)入的前提之一就是需要把數(shù)據(jù)存儲下來。很多用戶行為方面的數(shù)據(jù),對于業(yè)務(wù)的提升比較明顯的,如果你能很好地刻畫用戶,那么對你的產(chǎn)品設(shè)計、市場營銷、開發(fā)市場都是有幫助的。現(xiàn)階段,很多公司都要做第一步:存儲更多的數(shù)據(jù)。

  和傳統(tǒng)的SQL不同的是,針對大數(shù)據(jù)量的非結(jié)構(gòu)式數(shù)據(jù),我們所想的就是:用最廉價的成本存儲數(shù)據(jù)同時能夠達(dá)到容災(zāi)、擴(kuò)展性高、高性能、跨域,從目前來看,分布式已經(jīng)被證明是很好的一個方式。

  另外,云端會是個很好的方向,因為不是每個公司都養(yǎng)得起這么多、這么貴的大數(shù)據(jù)平臺開發(fā)人員和運(yùn)維人員。這也提醒從事這個行業(yè)的我們,要有很好的危機(jī)意識,及時貢獻(xiàn)出自己的價值,積極主動地學(xué)習(xí)新技術(shù),否則就可能被淘汰了。

  此外,花點(diǎn)錢把數(shù)據(jù)托管給云服務(wù)提供商是對于創(chuàng)業(yè)公司或者一些傳統(tǒng)的企業(yè)來說是個很好的思路,這樣能夠最快速地確定數(shù)據(jù)對你的價值是什么,并不用采購這么多的服務(wù)器、雇傭這么多的運(yùn)維人員和網(wǎng)站開發(fā)人員。

  接下來,給未來會從事這方面的人或者想存儲數(shù)據(jù)的公司一點(diǎn)建議。目前這塊工作最被吐槽的一點(diǎn)就是:Hive速度好慢,SQL查詢好慢,集群怎么又掛掉了,Hadoop版本升級后,怎么數(shù)據(jù)跑出來不對了等等。

  因此,在這個領(lǐng)域內(nèi)工作,需要有強(qiáng)大的攻堅能力,并且還需要有快速定位和解決bug的能力,因為有很多工具都是開源的。因為是開源的,所以會出現(xiàn)各種“坑”,甚至出現(xiàn)無法向下兼容的情況,所以需要強(qiáng)大的Java開發(fā)能力。

  如果想在這塊做得很好,還需要有整個系統(tǒng)架構(gòu)的設(shè)計能力、較強(qiáng)的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區(qū),這樣就可以隨時跟進(jìn)最新的潮流和技術(shù)。

  數(shù)據(jù)倉庫-ETL

  確實(shí)做倉庫的人很辛苦,單單Oncall就會讓人望而卻步。有很多數(shù)據(jù)庫工程師,晚上睡覺的時候經(jīng)常被Oncall電話吵醒。因為數(shù)據(jù)流程出問題,需要第一時間去排查,是哪個數(shù)據(jù)源出問題,并且要立即解決,否則整個數(shù)據(jù)流程都會受到影響。

  如果數(shù)據(jù)流程受到了影響,你就可能會被大領(lǐng)導(dǎo)隨時叫到辦公室說:“我要的數(shù)據(jù)怎么還沒有準(zhǔn)備好,我的業(yè)務(wù)報表今天怎么沒有發(fā)出來?”

  這是個很重要的崗位,因為數(shù)據(jù)流程很重要,決定了數(shù)據(jù)從源頭雜亂無章的狀況,通過ETL之后變成了整齊的數(shù)據(jù),這些整齊一致性的數(shù)據(jù)可以讓你很方便地把各業(yè)務(wù)的統(tǒng)計結(jié)果計算出來,并且能夠統(tǒng)一口徑。要不然就會變成有幾個部門,就有幾種統(tǒng)計結(jié)果的情況。至少在以下幾點(diǎn)上,筆者覺得數(shù)據(jù)倉庫人員應(yīng)該要做好:

  數(shù)據(jù)字典的完整性。用的人都希望能夠清晰地知道這個字段的邏輯是什么。字段要保持很好的一致性,不要同樣一個字段在不同表里有不同的定義。

  核心流程的穩(wěn)定性。不要讓每天訂單主表能夠使用的時間很不穩(wěn)定,有的時候很早,有的時候要中午才出來,如果不穩(wěn)定就會導(dǎo)致使用數(shù)據(jù)的人對你很沒有信心。

  倉庫版本迭代不要過于頻繁,要保持不同版本之間的兼容性。不要做好了倉庫1.0,很快就把原來的推倒重來,變成了2.0。在數(shù)據(jù)倉庫中需要考慮到延續(xù)性,主表的變動不要太頻繁,否則使用的人會非常痛苦,好不容易才用習(xí)慣了1.0的表結(jié)構(gòu),沒辦法這么快進(jìn)行切換。簡單地說,要能向下兼容。

  保持各業(yè)務(wù)邏輯的統(tǒng)一性。不要出現(xiàn)同樣的業(yè)務(wù)邏輯,同一個組別的人統(tǒng)計出來的結(jié)果不同。原因在于共同的邏輯沒有落地成通用的東西,所以導(dǎo)致每個人寫法不同。這點(diǎn)其實(shí)需要特別注意。

  這個崗位的技能要求是,不要成為僅僅會寫SQL的人?,F(xiàn)在工具都很發(fā)達(dá),如果你的技能很單一的話,那么可替代指數(shù)是非常高的,并且你自身也沒有什么成就感。這里并不是說會寫SQL的人水平很低,只是說應(yīng)該多學(xué)一些技能,否則會很危險。

  倉庫人員應(yīng)該常常思考如何進(jìn)行架構(gòu)設(shè)計是最合理的,你要考慮是否需要字段冗余、行存儲還是列存儲、字段如何擴(kuò)展最有效、熱數(shù)據(jù)和冷數(shù)據(jù)如何拆分等,所以需要有架構(gòu)思維。

  技能上,除了SQL熟練之外,還需要知道如何寫Transform、MapReduce。因為有很多業(yè)務(wù)邏輯用SQL實(shí)現(xiàn)起來非常復(fù)雜,但是如果你會其他腳本語言,那么就能給你提供便利,讓你的效率提升很多。另外,好的數(shù)據(jù)倉庫人員需要寫Java或者Scala,通過寫UDTF或者UDAF來提升你的效率是很有必要的。

  數(shù)據(jù)倉庫人員也應(yīng)該常常考慮自動化和工具化方面的事情,需要很好的工具或者模塊的抽象能力,動手實(shí)現(xiàn)自動化的工具來提高整個組織效能。針對經(jīng)常碰到的數(shù)據(jù)傾斜問題,需要很快定位問題并進(jìn)行優(yōu)化。

  說完了數(shù)據(jù)存儲,接下來是數(shù)據(jù)應(yīng)用的幾個關(guān)鍵職位。數(shù)據(jù)應(yīng)用最關(guān)鍵的前提是數(shù)據(jù)質(zhì)量。因為在每次闡述觀點(diǎn)、分析結(jié)論或者用算法的時候,都需要先檢查源頭數(shù)據(jù)正確性,否則任何結(jié)論都是偽命題。

  數(shù)據(jù)可視化

  這是個很炫的工作,從業(yè)者最好是能懂點(diǎn)前端,比如js。數(shù)據(jù)可視化人員需要有很好的分析思維,不能為了炫技而忽視對業(yè)務(wù)的幫助程度。筆者覺得這個崗位需要有分析的能力,才能把可視化做好。

  從另外一方面來說,做數(shù)據(jù)應(yīng)用的人都應(yīng)該懂點(diǎn)數(shù)據(jù)可視化,要知道觀點(diǎn)表達(dá)的素材順序是:圖片>表格>文字。一個能夠用圖片來闡述的機(jī)會千萬別用文字來描述,因為這樣更易于讓別人理解。要知道,給大領(lǐng)導(dǎo)講解事情的時候,需要把大領(lǐng)導(dǎo)設(shè)想成是個“數(shù)據(jù)門外漢”,這樣才能把一件事情說得比較生動。

  數(shù)據(jù)分析師

  現(xiàn)在對數(shù)據(jù)分析的需求是很大的,因為大家都想說:數(shù)據(jù)有了,但是能做些什么呢?這就需要有數(shù)據(jù)分析師,對數(shù)據(jù)進(jìn)行分析和挖掘,然后做數(shù)據(jù)應(yīng)用。

  對數(shù)據(jù)分析師吐槽最多的是:分析出來的不就是正常的業(yè)務(wù)邏輯嗎,還需要分析什么?或者是分析的結(jié)論不對,跟業(yè)務(wù)邏輯不符合,等等。特別是當(dāng)ABTest的結(jié)果與最初設(shè)定的預(yù)期不相符合的時候,分析師會常常被拉過去說:分析一下,為什么AB實(shí)驗結(jié)果不顯著,里面肯定有原因的。

  很多時候,分析師的心里獨(dú)白是:心里苦啊,這個轉(zhuǎn)化率下降了,從數(shù)據(jù)上可以看出哪個細(xì)分渠道下降了,至于為什么客戶不下單,得去問用戶去,很多時候,數(shù)據(jù)上也體現(xiàn)不出來為什么,只能告訴你現(xiàn)狀是什么。

  如果一個數(shù)據(jù)分析師一直在寫分析報告、給結(jié)論中持續(xù),周而復(fù)始,而沒有直接在業(yè)務(wù)中體現(xiàn)成績,那么,這位數(shù)據(jù)分析師該醒醒了,想想這個是你要的崗位嗎?

  對于數(shù)據(jù)分析師的定位,筆者認(rèn)為,成為優(yōu)秀的數(shù)據(jù)分析師是非常難的?,F(xiàn)在行業(yè)也沒有多少優(yōu)秀的分析師。數(shù)據(jù)分析師的技能要求,除了會數(shù)據(jù)分析、提煉結(jié)論、洞察數(shù)據(jù)背后的原因之外,還需要了解業(yè)務(wù),懂算法。只有這樣,當(dāng)面對一個業(yè)務(wù)問題時,數(shù)據(jù)分析師們才可以針對問題抽絲剝繭,層層遞進(jìn)去解決問題,再根據(jù)定位的問題進(jìn)行策略的應(yīng)對。比如是先做上策略進(jìn)行測試還是應(yīng)用算法進(jìn)行優(yōu)化,用算法用在哪個場景上,能不能用算法來解決問題。

  一個優(yōu)秀的數(shù)據(jù)分析師,是個精通業(yè)務(wù)和算法的全能數(shù)據(jù)科學(xué)家,不是那個只會聽從業(yè)務(wù)的需求而進(jìn)行拉數(shù)據(jù)、做報表、做分析的閑雜人等。我們都說分析要給出結(jié)論,優(yōu)秀分析師的結(jié)論就是一個能解決問題的一攬子策略和應(yīng)對措施,而且很多需求是分析師去主動發(fā)現(xiàn),并通過數(shù)據(jù)挖掘出來的。

  從上述描述中,可以看到對數(shù)據(jù)分析師的要求是:會寫sql拉數(shù)據(jù),精通業(yè)務(wù)、會數(shù)據(jù)洞察、精通算法,主動性強(qiáng)。要求還是很高的。

  大部分不落地的分析都是偽分析。有一些探索性的可行性研究可以不考慮落地,但是其他的特定業(yè)務(wù)需求的分析都需要考慮落地,然后通過實(shí)踐來反推作用,如此反復(fù),才能慢慢地肯定價值,同時提升你的分析技能,也只有這樣才能證明你作為分析師、數(shù)據(jù)落地者的價值。

  數(shù)據(jù)挖掘/算法

  筆者在這方面經(jīng)過這三年的摸爬滾打,感觸很多,體會比較深的吐槽主要有以下幾點(diǎn):一個規(guī)則搞定了,還用什么算法?你的準(zhǔn)確率怎么這么低?你的準(zhǔn)確率可以到99%嗎?你的推薦有價值嗎?你不推薦客人也會下那個產(chǎn)品的訂單的。幫我做個大數(shù)據(jù)預(yù)測,看他想要什么?

  很多時候,不同的場景對準(zhǔn)確率的要求是不同的,所以在一定合理的場景下和業(yè)務(wù)進(jìn)行據(jù)理力爭是必要的,不要害怕讓業(yè)務(wù)吐槽,更多的時候要管理好他們的預(yù)期。

  有些場景下,推薦的價值在于“長期復(fù)購率”,所以不要每次都盯著ABTest的轉(zhuǎn)化率來說事,讓客人的費(fèi)力度降低也是很有前景的。一個智能的產(chǎn)品會讓客人用起來愛不釋手,雖然在這一次的轉(zhuǎn)化中沒有明顯的差別,但是觀察長期復(fù)購率才能體現(xiàn)價值。特別是要區(qū)分高頻和低頻產(chǎn)品,頻次比較低的產(chǎn)品就特別難體現(xiàn)出短期價值。

  對于這個崗位的技能要求來說,沒有要求你一定要從零開始實(shí)現(xiàn)所有的算法,現(xiàn)在有很多現(xiàn)成的算法包進(jìn)行調(diào)用。最基本的要求是,你要知道每個場景會用到哪個算法,比如分類場景,常用的分類算法就有LR/RF/Xgboost/ET等等。此外,你還要知道每個算法的有效優(yōu)化參數(shù)是什么、模型效果不好的時候怎么優(yōu)化。還需要有算法的實(shí)現(xiàn)能力,語言方面可以用Scala/python/R/Java等。我們常說,工具不重要,重要的是你玩工具,不是工具玩你。

  另外,針對有監(jiān)督式學(xué)習(xí)算法,算法工程師最好有很好的業(yè)務(wù)敏感度,這樣在功能設(shè)計的時候才能更有針對性,設(shè)計的功能才有可能有很好的先驗性。

  深度學(xué)習(xí)(NLP,CNN,語音識別)

  在這方面筆者沒有具體商用過,只是曾經(jīng)動手實(shí)踐過。個人感覺商業(yè)化是重點(diǎn)。大家都在觀望,都說聊天機(jī)器很有用,可是siri做了這么久反響也一般。

  現(xiàn)在客服機(jī)器人又很火,大家又在吐槽說:這個上下文理解的太差了,機(jī)器人的語義識別做得怎么這么差。誰做誰知道,對于中文的語義識別,難度比外語產(chǎn)品大,因為中文的一種否定說法有太多種變體,你不知道我們會說哪種。

  另外,常常有人吐槽說,CNN這么復(fù)雜,線上需要滿足100ms內(nèi)返回,搞得這么復(fù)雜,實(shí)時調(diào)用怎么整,肯定來不及了,最后只能考慮線下預(yù)測了。常常說這話的人是不會自己寫底層代碼的。很多時候筆者覺得,不是你沒有解決問題的辦法,而是你沒有去思考怎么解決問題,心智決定了你的產(chǎn)出。

  筆者認(rèn)為,在這方面需要有比較強(qiáng)的算法改造和優(yōu)化能力,盡量提高算法預(yù)測的速度,同時不斷提高算法的外延性,提高精度。目前整個行業(yè)也都是朝著好的方向在發(fā)展。在應(yīng)聘時要記得和招聘上的要求核對一下,看自己哪塊技能需要補(bǔ)充,這樣你才能成為人中之龍鳳。

  相關(guān)鏈接

  如何用數(shù)據(jù)創(chuàng)造價值,如果你沒有用數(shù)據(jù)創(chuàng)造價值的能力,那么就只能等著被數(shù)據(jù)淹沒,被數(shù)據(jù)拍死在職場上,早早到達(dá)職業(yè)的天花板。

  體現(xiàn)數(shù)據(jù)價值的層面上,越往數(shù)據(jù)應(yīng)用層靠攏,對數(shù)據(jù)產(chǎn)生價值的要求就越高,從事這塊領(lǐng)域的人要常常自省是否有好的商業(yè)敏感度,畢竟在工業(yè)界,沒人關(guān)心你是否比傳統(tǒng)的基線提高了一個百分點(diǎn),他們關(guān)心的是你提高了一個百分點(diǎn)之后,對公司的價值是什么。

  而越往底層越?jīng)]有強(qiáng)制要求和業(yè)績綁定在一起,更多的是從流程上進(jìn)行約定。對于這塊的價值體現(xiàn),主要從技術(shù)層面上的創(chuàng)新為主,你如果解決了現(xiàn)存架構(gòu)的問題,那么你就可以成為一個專家。所以多學(xué)學(xué)編程吧,別太約束自己,故步自封。

  攜程技術(shù)中心 潘鵬舉

關(guān)注讀覽天下微信, 100萬篇深度好文, 等你來看……