久久精品123,午夜国产欧美理论在线播放,国产精品影视天天线,国内自拍亚洲

您的位置:首頁>新聞 > 數據 >

火山引擎Dataleap:降低數倉建設成本

2023-06-30 23:43:41    來源:技術聯盟

字節跳動技術團隊 2023-06-28 12:01 發表于北京

干貨不迷路

背景

存儲與計算資源是數倉建設的基礎,也是數倉建設中的重要成本支出。而隨著數倉建設規模逐漸擴大、時間跨度逐漸拉長,將不可避免的出現數據表、任務、字段的冗余。為了減輕資源負擔,降低數倉維護成本,需要對數倉建設成本進行治理與優化。


(資料圖)

技術路線

針對數倉建設成本治理的粒度從大到小可以分為:數據表、數據任務、數據表字段。從粗到細的治理優化思路如下:

當發現低頻使用的數據表時,下線對應數據表的同時也刪除對應數據任務; 當數據任務資源浪費嚴重,針對任務進行對應的代碼與資源優化; 當發現一張表中個別字段使用使用頻率很低,停止相關字段的計算與存儲。

根據以上的優化思路,首先要解決如何定位低頻使用數據表、高資源浪費率任務、低頻使用字段的問題,在此基礎上,針對不同的場景通過不同的手段進行優化。

\"數倉建設成本分析\"看板總覽

技術方案

低頻使用數據表優化方案

定位低頻使用數據表

火山引擎Dataleap提供了Hive表的資源治理功能,包括Hive表的存儲與訪問次數等基本信息查詢,用戶可以根據該功能直接定位低頻使用數據表并進行優化。

但是以上的優化存在以下缺陷: 使用 Hive 表的直接查詢次數無法準確衡量用戶對于數據的實際使用次數 :為了保障查詢速度,數據一般會由Hive表導入到ClickHouse等查詢速度較快的介質中,而不會直接查詢Hive表。因此,一張Hive表的直接訪問次數一般是由下游的日常數據任務產生,而不是真正的用戶查詢。 缺少了對數據表生產過程中計算資源的統計 :數據表在生產的過程中,除了占用存儲資源,計算資源是不可或缺的一部分:存在經過復雜計算過程后,產出很小數據量的數據表。因此,當希望對成本進行快速優化時需要瞄準高成本的數據表時,只著眼于數據表占用的存儲資源是不夠全面的。

Hive表成本分析看板

https://data.bytedance.net/aeolus/#/dashboard/437272?appId=555186&sheetId=440345

為了解決以上兩個問題,火山引擎Dataleap研發人員進行了Hive表成本分析看板的開發建設:

首先,對數據表進行血緣關系的梳理,從上(Hive表)至下(ClickHouse) 建立數據表血緣關系樹 進一步將所有葉子節點的 訪問次數累加 到相應根節點上,作為該根節點的使用次數(直接訪問+間接訪問) 再統計數據表計算資源,關聯數據表存儲資源,獲得該 數據表的總生產成本 最后關聯數據表的總生產成本與總使用次數,評價該數據表實際的ROI

數據表的生產成本vs使用次數

優化手段與思路

優化手段

針對數據表的優化手段有:

① 下線 數據表及對應任務

在火山引擎Dataleap下線相關任務,并刪除對應數據表。

② 縮減數據表 TTL

根據「表分區查詢熱度分布圖」在火山引擎Dataleap修改對應數據表TTL對應數據表。

火山引擎DataLeap數據表生命周期配置

③ 對歷史數據進行溫存配置

在火山引擎Dataleap配置歷史數據溫存天數。

優化思路

基于「Hive表成本分析看板」,根據不同的使用成本與使用次數閾值(如數據表的生產成本1000元/月,使用次數100次/月)將看板分為四個象限,其中各個象限的數據表的含義及推薦的優化手段為:

根據優化收益進行治理的順序為:第二象限>第三象限>第一象限>第四象限。

低資源利用率任務優化方案

定位低資源利用率任務數據任務

計算資源分為CPU資源和內存資源,可以利用火山引擎Dataleap進行高浪費任務的定位與探查。

任務資源使用監控

通過高浪費率任務監控看板定位到的高資源浪費率任務

優化手段與思路

對于新增任務

基于大數據研發治理套件火山引擎DataLeap,在新建數據任務與數據表時,要求需求方提供數據的服務時限,設置數據任務的壽命。當壽命到期,會提醒相關負責人確認是否可下線當前數據任務。

數據任務壽命控制

對于歷史任務

目前離線數據任務的主要計算引擎為Apache Spark。

低頻使用字段優化方案

相比于數據表與任務,針對數據表中的低頻使用的字段進行優化是一種更加細粒度的方式。

定位低頻使用字段

在離線數倉建設中,原始日志一般會從消息隊列中直接不加處理的存儲到原始數據層,再通過明細數據層對原始日志進行字段清洗與解析。在實踐中,火山引擎DataLeap研發人員發現處于明細數據層中的原始埋點明細表由于數據量巨大(單表PB量級):在某些數據庫中,僅三張表格就占據了所在數據庫75%的存儲大小,個別數據表的字段平均存儲大小約為150TB。因此,為了更加高效地完成數據表字段優化,研發人員從埋點明細表的埋點字段入手。

和Hive數據表類似,埋點字段也具有以下特點:

埋點字段一般也不會對外直接提供查詢,而是以清洗后的維度和指標的形式對外使用。 衡量一個埋點字段的ROI具有也兩個方面:使用次數與生產成本(存儲+計算成本)。

因此,首先也需要構建埋點的血緣關系樹來統計其使用次數,再以存儲+計算資源消耗來衡量其生產成本,最終才能準確地評價埋點的價值。

為了解決以上兩個問題,研發人員進行了埋點成本分析看板的開發建設:

首先,以原始埋點明細表的埋點字段為根節點,從上(埋點明細Hive表)至下(服務層提供維度、指標查詢的ClickHouse表) 建立埋點字段的血緣關系樹 進一步將所有葉子節點的維度、指標字段的 訪問次數累加 到相應根節點埋點字段上,作為該根節點埋點字段的使用次數 再統計埋點明細數據表的計算資源與存儲資源,獲得該埋點字段的的 平均生產成本 最后關聯埋點字段的總生產成本與總使用次數,評價該埋點字段的實際的ROI

埋點字段的生產成本vs使用次數

優化手段與思路

優化手段

① 停止解析和存儲 埋點 字段

為了減少明細數據層字段的的計算與存儲成本,可以直接對一些低頻使用埋點停止解析與存儲。

但是低頻字段并不等于不使用字段,即如果要下線低頻使用字段,需要保證用戶在偶爾使用時仍然可以獲取。雖然使用頻次不同,但是同一張表中的埋點字段不能分別設置不同的存儲方式或者TTL,只能選擇存儲或者不存儲。

因此,對于低頻使用埋點,結合用戶的實際使用情況與開發維護成本,可以通過搭建采樣鏈路、從原始數據層臨時獲取等方式滿足偶爾的少量使用場景,從而可以減少明細數據層的字段解析與存儲。

② 拆解 埋點 字段中常用的部分

還有一些被高頻使用的埋點常常以復雜的url、json的格式上報存儲。而實際在下游的使用過程中只會解析獲取部分屬性提供服務。因此,基于準確的獲取下游的使用方式,將大字段拆解為小字段,不解析存儲不使用的部分。

優化思路

配合「埋點成本分析看板」,根據不同的使用成本與使用次數閾值將看板分為四個象限,其中各個象限的數據表的含義及推薦的優化手段為:

根據優化收益進行治理的順序為:第二象限>第三象限>第一象限>第四象限。

總結

基于數據成本分析看板,結合以上技術方案,如果是累計下線20+張數據表及對應任務,優化10+高成本任務,停止200+數據埋點解析,結合數據表溫存與TTL縮減,初步測算能節省數倉總成本的36%費用。

在梳理了數據表、字段的血緣樹的基礎上,建立了Hive表成本分析看板、任務成本分析看板、埋點成本分析看板等看板,結合大數據研發治理套件火山引擎DataLeap對數倉建設過程中的數據表、數據任務、埋點字段的成本的進行了由粗到細的梳理與優化,提升了現有資源的承載能力,降低了建設成本。

Hive表成本分析看板

https://data.bytedance.net/aeolus/#/dashboard/437272?appId=555186&sheetId=440345

任務成本分析看板

https://data.bytedance.net/aeolus/#/dashboard/437272?appId=555186&sheetId=475871

埋點成本分析看板

https://data.bytedance.net/aeolus/#/dashboard/437272?appId=555186&sheetId=431267

關鍵詞:

相關閱讀

久久精品123,午夜国产欧美理论在线播放,国产精品影视天天线,国内自拍亚洲
夜夜嗨av一区二区三区四区| 亚洲精品日韩激情在线电影| 宅男在线国产精品| 日韩一级免费| 国产精品久久久久aaaa樱花| 亚洲人成艺术| 亚洲午夜激情免费视频| 欧美激情第1页| 国产精品夜夜夜| 国模套图日韩精品一区二区| 欧美理论电影在线观看| 欧美精品久久久久a| 日韩视频免费| 久久夜色精品国产欧美乱极品| 亚洲一区二区三区四区中文| 在线 亚洲欧美在线综合一区| 日韩视频免费在线观看| 欧美一区日本一区韩国一区| 久热国产精品| 欧美日韩免费观看一区三区| 亚洲最快最全在线视频| 欧美精品二区| 亚洲视频中文| 亚洲一区三区电影在线观看| 欧美视频在线观看一区二区| 国产精品少妇自拍| 影音先锋亚洲精品| 亚洲一级特黄| 欧美日本亚洲视频| 亚洲乱码国产乱码精品精可以看| 久久另类ts人妖一区二区| 最新亚洲电影| 亚洲午夜伦理| 欧美精品尤物在线| 一区二区视频免费在线观看| 亚洲一区二区三区四区在线观看| 亚洲欧美偷拍卡通变态| 国产精品欧美日韩一区| 欧美日韩国产天堂| 性欧美1819sex性高清| 狠狠色伊人亚洲综合成人| 亚洲国产美女精品久久久久∴| 欧美色中文字幕| 久久国产精品黑丝| 欧美亚洲免费高清在线观看| 亚洲视频精品| 久久久久久免费| 亚洲欧美国产va在线影院| 国产精品视频久久一区| 亚洲图中文字幕| 午夜久久影院| 免费精品99久久国产综合精品| 国产欧美日本在线| 制服丝袜亚洲播放| 久久亚洲免费| 一区二区三区在线免费视频| 99re在线精品| 欧美一区二区三区在线| 老司机一区二区三区| 亚洲精品综合精品自拍| 一区二区三区在线视频免费观看| 亚洲在线视频观看| 亚洲欧美国产日韩中文字幕| 亚洲在线一区| 亚洲美女黄色片| 亚洲精品一品区二品区三品区| 噜噜噜躁狠狠躁狠狠精品视频| 欧美一区二区三区视频在线观看| 久久九九久精品国产免费直播| 欧美日韩国产精品一卡| 黑人巨大精品欧美黑白配亚洲| 欧美视频在线观看视频极品| 一区二区亚洲精品国产| 欧美成年人网站| 国产伦精品一区二区三区免费迷| 最近中文字幕mv在线一区二区三区四区| 欧美日韩国产黄| 国外成人网址| 欧美有码视频| 欧美视频久久| 怡红院精品视频| 欧美日韩精品免费观看视频完整| 一区二区国产精品| 麻豆av福利av久久av| 亚洲麻豆国产自偷在线| 欧美日韩妖精视频| 99精品国产福利在线观看免费| 在线一区日本视频| 欧美日韩亚洲精品内裤| 国产亚洲精品aa| 欧美精品99| 欧美精品一级| 欧美激情一区二区三区成人| 亚洲精品欧美激情| 亚洲欧美久久久久一区二区三区| 亚洲精品久久久久中文字幕欢迎你| 久久精品国产在热久久| 韩日欧美一区| 亚洲国产精品一区二区三区| 国产精品色一区二区三区| 欧美日韩综合视频| 亚洲特黄一级片| 欧美在线free| 乱人伦精品视频在线观看| 久久一区二区三区国产精品| 亚洲精品自在在线观看| 久久精品欧美日韩| 欧美一区二区在线免费播放| 亚洲国产精品久久久久秋霞不卡| 国产精品高潮视频| 一本久久综合亚洲鲁鲁| 欧美另类女人| 久久国产日韩| 国产欧美一区二区三区国产幕精品| 国产精品激情av在线播放| 亚洲国产三级网| 国产精品视频免费观看www| 亚洲一区免费看| 99精品福利视频| 久久精品国产96久久久香蕉| 欧美成年人网| 99成人免费视频| 欧美夫妇交换俱乐部在线观看| 亚洲激情第一区| 欧美电影在线观看完整版| 99国产精品久久| 美女福利精品视频| 麻豆成人小视频| 国产欧美一区二区精品仙草咪| 一区二区三区视频在线播放| 欧美一区二区三区四区视频| 国产精品日韩在线播放| 欧美日韩免费观看一区二区三区| 蜜桃视频一区| 亚洲毛片一区| 欧美日精品一区视频| 久久国产精品毛片| 久久亚洲欧美国产精品乐播| 亚洲欧美另类在线| 欧美日本一区二区高清播放视频| 亚洲永久免费av| 国产女主播视频一区二区| 国产亚洲女人久久久久毛片| 欧美激情一区二区三区全黄| 在线观看欧美亚洲| 性久久久久久久久久久久| 欧美色图五月天| 久热精品视频在线观看一区| 欧美成人精品不卡视频在线观看| 欧美亚洲网站| 黑人一区二区三区四区五区| 亚洲在线视频观看| 99人久久精品视频最新地址| 美女久久一区| 亚洲精品一区二区三区99| 亚洲欧美另类中文字幕| 国产欧美精品va在线观看| 黄色成人av在线| 亚洲日本中文字幕免费在线不卡| 免费观看欧美在线视频的网站| 一区二区三区欧美成人| 欧美吻胸吃奶大尺度电影| 在线观看欧美亚洲| 麻豆精品传媒视频| 欧美日韩免费网站| 欧美经典一区二区三区| 亚洲国产欧美一区二区三区丁香婷| 国产亚洲欧美另类一区二区三区| 小辣椒精品导航| 国产一级久久| 国产精品美女久久久浪潮软件| 国产中文一区二区| 国产农村妇女精品一区二区| 亚洲电影下载| 亚洲日本一区二区三区| 亚洲综合日本| 国产在线视频欧美一区二区三区| 欧美在线综合视频| 久久亚洲春色中文字幕| 国产亚洲人成a一在线v站| 欧美福利电影在线观看| 国产综合久久久久影院| 欧美日韩三级一区二区| 136国产福利精品导航网址| 亚洲国产国产亚洲一二三| 国产农村妇女毛片精品久久麻豆| 国产一区二区精品久久91| 在线电影欧美日韩一区二区私密| 国产婷婷97碰碰久久人人蜜臀| 久久成人精品视频| 午夜精品视频在线观看一区二区| 免费观看亚洲视频大全| 欧美视频亚洲视频| 国产精品视频福利| 欧美日本韩国一区二区三区| 欧美—级高清免费播放| 欧美激情综合| 影音先锋欧美精品| 亚洲日本久久| 亚洲国产一区在线观看|