久久精品123,午夜国产欧美理论在线播放,国产精品影视天天线,国内自拍亚洲

您的位置:首頁>新聞 > 創投 >

【聚看點】比HuggingFace快24倍!伯克利神級LLM推理系統開源,碾壓SOTA,讓GPU砍半

2023-06-23 12:02:12    來源:清一色財經

打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推理系統——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU數量減半。


(資料圖片)

過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。

GPT-4等大語言模型玩家打起了「排位賽」,通過隨機battle,根據Elo得分來排名。

這一過程中,每當一個用戶訪問并使用網站,就需要同時讓兩個不同的模型跑起來。

他們是如何做到的?

這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務系統vLLM。

簡之,vLLM是一個開源的LLM推理和服務引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。

配備全新算法的vLLM,重新定義了LLM服務的最新技術水平:

與HuggingFace Transformers相比,它提供高達24倍的吞吐量,而無需進行任何模型架構更改。

值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。

正如研究者所稱,vLLM最大的優勢在于——提供易用、快速、便宜的LLM服務。

這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團隊也能輕松部署自己的LLM服務。

項目地址:https://github.com/vllm-project/vllm

現在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發布。

性能全面碾壓SOTA

今天,這個由UC伯克利創立的開放研究組織LMSYS介紹道:

「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數量減少了一半,同時每天平均提供3萬次請求?!?/p>

vLLM的性能具體如何?

UC伯克利團隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術水平進行了比較。

團隊在兩個設置中進行評估:在NVIDIA A10G GPU上運行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運行LLaMA-13B模型。

然后,研究人員從ShareGPT數據集中抽樣請求的輸入/輸出長度。

在實驗中,vLLM的吞吐量比HF高達24倍,并且比TGI高達3.5倍。

在每個請求只需要一個輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍

在每個請求需要3個并行輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍

秘密武器:PagedAttention

在vLLM中,團隊發現LLM服務的性能受到內存的限制。

在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內存中以生成下一個token。

這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點:

1. 內存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達1.7GB的內存。

2. 動態化:其大小取決于序列長度,而序列長度高度易變,且不可預測。

因此,有效管理KV緩存是一個重大挑戰。對此,研究團隊發現現有系統由于碎片化和過度保留而浪費了60%至80%的內存。

用團隊的導師Joey Gonzalez的一句話來講:GPU內存碎片化=慢。

為了解決這個問題,團隊引入了PagedAttention,一種受到操作系統中虛擬內存和分頁經典概念啟發的注意力算法。

與傳統的注意力算法不同,PagedAttention允許在非連續的內存空間中存儲連續的鍵和值。

具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數量token的鍵和值。在注意力計算過程中,PagedAttention內核能夠高效地識別和提取這些塊。

PagedAttention:KV緩存被分割成塊,這些塊在內存中不需要連續

由于這些塊在內存中不需要連續,因此也就可以像操作系統的虛擬內存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節,序列看作進程。

序列的連續邏輯塊通過塊表映射到非連續的物理塊。隨著生成新的token,物理塊會按需進行分配。

使用PagedAttention的請求生成過程示例

PagedAttention將內存浪費控制在了序列的最后一個塊中。

在實踐中,這帶來了接近最優的內存使用——僅有不到4%的浪費。

而這種內存效率的提升,能讓系統將更多的序列進行批處理,提高GPU利用率,從而顯著提高吞吐量。

此外,PagedAttention還具有另一個關鍵優勢:高效的內存共享。

比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內存可以在輸出序列之間共享。

并行采樣的示例

PagedAttention通過塊表自然地實現了內存共享。

類似于進程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。

為了確保安全,PagedAttention會跟蹤物理塊的引用計數,并實現了寫時復制機制。

采樣多個輸出的請求示例生成過程

PagedAttention的內存共享極大減少了復雜采樣算法(如并行采樣和束搜索)的內存開銷,將它們的內存使用量減少了高達55%。這可以將吞吐量提高多達2.2倍。

總結而言,PagedAttention是vLLM的核心技術,它是LLM推斷和服務的引擎,支持各種模型,具有高性能和易于使用的界面。

GitHub上,團隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構:

– GPT-2(gpt2、gpt2-xl等)

– GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)

– LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)

– OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)

小羊駝和排位賽的「幕后英雄」

4月初,UC伯克利學者聯手UCSD、CMU等,最先推出了一個開源全新模型——130億參數的Vicuna,俗稱「小羊駝」。

從那時起,Vicuna已在Chatbot Arena為數百萬用戶提供服務。

最初,LMSYS的FastChat采用基于HF Transformers的服務后端來提供聊天demo。

但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。

為了解決這一挑戰,LMSYS與vLLM團隊緊密合作,全力開發出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。

根據LMSYS內部微基準測試的結果,vLLM服務后端可以實現比初始HF后端高出30倍的吞吐量。

4月-5月期間,Chatbot Arena的后端已經部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務的

自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務。

FastChat作為多模型聊天服務前端,vLLM作為推理后端,LMSYS能夠利用有限數量的GPU(學校贊助的),以高吞吐量和低延遲為數百萬用戶提供Vicuna服務。

現在,LMSYS正在將vLLM的使用擴展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。

vLLM使用教程

使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):

$ pip install vllm

vLLM可用于離線推理和在線服務。要使用vLLM進行離線推理,你可以導入vLLM并在Python腳本中使用LLM類:

from vllm import LLMprompts = ["Hello, my name is", "The capital of France is"]  # Sample prompts.llm = LLM(model="lmsys/vicuna-7b-v1.3")  # Create an LLM.outputs = llm.generate(prompts)  # Generate texts from the prompts.

要使用vLLM進行在線服務,你可以通過以下方式啟動與OpenAI API兼容的服務器:

$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3

你可以使用與OpenAI API相同的格式查詢服務器:

$ curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d "{        "model": "lmsys/vicuna-7b-v1.3",        "prompt": "San Francisco is a",        "max_tokens": 7,        "temperature": 0    }"

有關使用vLLM的更多方法,請查看快速入門指南:

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html

團隊介紹

Zhuohan Li

Zhuohan Li是加州大學伯克利分校計算機科學專業的博士生,研究興趣是機器學習和分布式系統的交叉領域。

在此之前,他在北京大學獲得了計算機科學學士學位,指導老師是王立威和賀笛。

Woosuk Kwon

Woosuk Kwon是加州大學伯克利分校的博士生,研究興趣是為大語言模型等新興應用建立實用、靈活和高性能的軟件系統。

團隊其他成員包括莊思遠、盛穎、鄭憐憫、Cody Yu。團隊導師包括Joey Gonzalez,Ion Stoica和張昊。

其中,團隊的大部分成員同時也是LMSYS成員。

關鍵詞:

相關閱讀

久久精品123,午夜国产欧美理论在线播放,国产精品影视天天线,国内自拍亚洲
一区国产精品| 黄色精品一二区| 欧美一区二区成人| 一区二区三区免费在线观看| 久久精品国产清高在天天线| 91久久精品日日躁夜夜躁国产| 国产精品久久久久秋霞鲁丝| 国产精品毛片大码女人| 久久婷婷色综合| 91久久久久久国产精品| 男人天堂欧美日韩| 一区二区三区福利| 可以免费看不卡的av网站| 亚洲视频视频在线| 亚洲黄色在线观看| 久久精品国产96久久久香蕉| 久久精品国内一区二区三区| 亚洲欧美偷拍卡通变态| 久久国产精品一区二区三区| 国内精品美女在线观看| 国产一区二区日韩精品| 欧美aa在线视频| 午夜亚洲伦理| 蘑菇福利视频一区播放| 欧美一区二区在线免费观看| 久久综合成人精品亚洲另类欧美| 欧美日韩国产综合新一区| 欧美人成免费网站| 亚洲香蕉伊综合在人在线视看| 国产日韩在线视频| 欧美日韩国产成人在线91| 亚洲视频香蕉人妖| 国产精品都在这里| 一区二区三区国产精品| 欧美本精品男人aⅴ天堂| 欧美性片在线观看| 99re8这里有精品热视频免费| 欧美在现视频| 一区二区免费在线播放| 欧美在线观看一区二区三区| 欧美精品一区二区三区很污很色的| 亚洲图片在线观看| 国内成人精品2018免费看| 最新中文字幕亚洲| 一区二区三区在线免费观看| 久久久久久久激情视频| 亚洲香蕉伊综合在人在线视看| 欧美aⅴ一区二区三区视频| 国产一区二区三区久久久久久久久| 国产精品电影在线观看| 小辣椒精品导航| 亚洲激情自拍| 国产一区二区三区在线免费观看| 欧美激情精品久久久久久免费印度| 亚洲承认在线| 亚洲在线一区二区| 狠狠色综合网站久久久久久久| 亚洲国产第一页| 亚洲国产另类精品专区| 一区二区三区三区在线| 国产自产2019最新不卡| 亚洲片区在线| 欧美日韩在线播| 欧美精选在线| 免费观看成人网| 欧美成人一区二区三区片免费| 一区电影在线观看| 1024成人| 日韩一级精品| 亚洲性人人天天夜夜摸| 亚洲精品日韩久久| 免费欧美高清视频| 在线观看欧美一区| 国产精品永久免费在线| 欧美福利视频一区| 黄色亚洲免费| 米奇777超碰欧美日韩亚洲| 国产综合久久久久久| 欧美极品aⅴ影院| 精品动漫一区二区| 欧美日韩视频不卡| 一区二区三区免费观看| 欧美一区二区精品在线| 欧美日韩亚洲激情| 欧美激情视频网站| 国产精品自拍网站| 亚洲经典视频在线观看| 国产精品永久在线| 国产精品美女| 国产在线国偷精品产拍免费yy| 国产欧美精品一区二区三区介绍| 国产午夜一区二区三区| 亚洲一区久久久| 国产精品成人aaaaa网站| 欧美日韩另类字幕中文| 国产精品99一区| 亚洲中午字幕| 国产精品推荐精品| 久久嫩草精品久久久久| 国产精品久久久亚洲一区| 亚洲欧美激情视频在线观看一区二区三区| 在线观看免费视频综合| 亚洲国产美女精品久久久久∴| 激情视频一区二区三区| 伊人久久大香线蕉综合热线| 另类欧美日韩国产在线| 欧美全黄视频| 亚洲一区二区三区成人在线视频精品| 国产视频久久久久| 亚洲成色www8888| 欧美aaaaaaaa牛牛影院| 在线播放视频一区| 国产在线精品一区二区中文| 欧美日韩一区二区在线| 欧美xxx成人| 99在线视频精品| 国产日韩专区在线| 亚洲丰满少妇videoshd| 国产精品久久久久一区二区三区共| 玖玖精品视频| 国产精品蜜臀在线观看| 久久国产日韩欧美| 国产精品亚发布| 午夜在线精品偷拍| 久久久久久自在自线| 最新日韩中文字幕| 欧美日韩系列| 一区二区三区黄色| 午夜免费久久久久| 欧美一区二区播放| 亚洲在线不卡| 欧美一区二区三区久久精品| 国产有码在线一区二区视频| 91久久在线播放| 欧美fxxxxxx另类| 久久这里只有精品视频首页| 国产精品区免费视频| 国产一区二区精品久久| 亚洲成人在线| 美女视频一区免费观看| 国产精品热久久久久夜色精品三区| 久久网站免费| 国产精品激情电影| 国语自产精品视频在线看8查询8| 香蕉久久久久久久av网站| 99re热精品| 久久狠狠一本精品综合网| 欧美日韩在线一二三| 精品av久久707| 99亚洲伊人久久精品影院红桃| 国产精品久久中文| 欧美精品在欧美一区二区少妇| 国产精品高清一区二区三区| 欧美一区二区日韩| 欧美在线日韩在线| 亚洲欧美成人一区二区在线电影| 欧美日韩国产精品一卡| 久久国产精品99精品国产| 欧美日韩国产小视频在线观看| 国产一区二区三区成人欧美日韩在线观看| 欧美一级日韩一级| 国产欧美短视频| 亚洲精选大片| 黑人巨大精品欧美黑白配亚洲| 亚洲一区bb| 韩国亚洲精品| 一二美女精品欧洲| 久久久女女女女999久久| 国产欧美1区2区3区| 欧美刺激性大交免费视频| 国产婷婷色一区二区三区在线| 欧美高清你懂得| 欧美不卡一区| 国内外成人免费视频| 免费日韩成人| 欧美成人黄色小视频| 欧美性猛交xxxx免费看久久久| 99精品视频免费观看视频| 欧美黑人在线观看| 亚洲麻豆一区| 欧美精品偷拍| 欧美在线999| 国产精品一区二区你懂得| 夜夜夜精品看看| 国产精品永久| 蜜臀av性久久久久蜜臀aⅴ四虎| 伊人久久综合| 亚洲欧美视频在线观看| 欧美国产一区二区在线观看| 亚洲精品一区二区三区99| 久久国产精品一区二区| 亚洲网站视频福利| 亚洲精品在线免费观看视频| 欧美视频福利| 一本到12不卡视频在线dvd| 国产日韩欧美一二三区| 欧美黄污视频| 欧美久久久久久久| 国产精品私人影院| 校园春色国产精品|