2行代碼，“三體”一次讀完！港中文賈佳亞團隊聯手MIT發布超長文本擴展技術打破LLM遺忘魔咒-紫荊網

2行代碼，“三體”一次讀完！港中文賈佳亞團隊聯手MIT發布超長文本擴展技術打破LLM遺忘魔咒

日期：2023-10-09 來源：新智元瀏覽量：字號：大中小

分享到

大模型上下文從此不再受限！港中文賈佳亞團隊聯手MIT發布了全新超長文本擴展技術LongLoRA，只需2行代碼，讓LLM看小說，讀論文，輕鬆拿捏。中途迷失、模型偷懶、上下文越長大模型越笨……體驗過LLM的人，多少都會對文本輸入長度帶來的限制有所感觸：

想和大模型討論一些稍長的內容，就需要拆分輸入，而前面輸入的要點，很快就會被大模型忘記。

實際上，這些都是典型的大語言模型對話缺陷。就像先天有注意力缺陷的兒童，難以專注看完一本新書。而缺陷的關鍵，在於模型缺乏長文本處理能力。如今，這個局面已經被打破了！就在近日，由賈佳亞團隊聯合MIT發布的新技術和新模型，悄然登上各大開源網站的熱榜：Hugging Face熱榜第一、Papers With Code熱度第一，Github全部Python項目熱度第五、Github Stars一周內破千，Twitter上的相關技術帖子瀏覽量近18萬......

論文地址：https://arxiv.org/abs/2309.12307

代碼和Demo地址：https://github.com/dvlab-research/LongLoRA

GitHub Stars已達1.3k

Twitter上的相關技術帖子瀏覽量近18萬這項名為LongLoRA的技術實用但卻簡單得令人驚訝：只需兩行代碼、一臺8卡A100機器，便可將7B模型的文本長度拓展到100k tokens，70B模型的文本長度拓展到32k tokens。同時，該研究團隊還發布了首個擁有70B參數量的長文本對話大語言模型LongAlpaca。

全球首個70B長文本大語言模型發布

LongLoRA的提出，讓全球大語言模型的對話缺陷第一次得到解決，自此，幾十頁的論文、幾百頁的報告、鴻篇鉅製不再成為大模型盲區。對此，有專業人士激動地表示，LongLoRA是大語言模型迷宮中的希望之燈！它代表着業界對長文本大語言模型的重新思考和關注，有效擴展了大語言模型的上下文窗口，允許模型考慮和處理較長的文本序列，是大語言模型的革新性發明。

除了技術革新外，大語言模型處理長文本問題的一大難點還在於缺少公開的長文本對話數據。為此，研究團隊特意收集了9k條長文本問答語料對，包含針對名著、論文、深度報道甚至財務報表的各類問答。光會回答長問題還不夠，該團隊又挑選了3k的短問答語料與9K的長問答語料混合訓練，讓長文本大模型同時具備短文本對話能力。這個完整的數據集被稱為LongAlpaca-12k，目前已經開源。在LongAlpaca-12k數據集基礎上，研究團隊對不同參數大小7B、13B、70B進行了訓練和評測，開源模型包括LongAlpaca-7B、LongAlpaca-13B和LongAlpaca-70B。

看小說、改論文、指點經濟堪稱全能王

話不多說，盲選幾個demo，一起看看應用了LongLoRA技術疊加12K問答語料的大模型LongAlpaca效果。

讓系統新讀一篇論文，並根據ICLR的審查指南，對其提出修改意見，從而提升該論文的接收率：

LongAlpaca的意見是：通過更精確地闡明新穎性，提供更嚴格和更有對比性的實驗結果(包括具體的數據集和指標)、更廣泛的應用和未來發展方向，重點呈現關鍵貢獻和影響，論文被接受的機會將得到提高。

現在，讓系統讀兩篇新的不同的論文，讓LongAlpaca概括ICLR和CVPR兩個會議之間的風格區別：

LongAlpaca總結認為，CVPR論文傾向更具結構性和實驗性的風格，專注於實用性和技術性。而ICLR的論文風格更加靈活，側重關鍵的理論分析和數學推導，而非標準格式。

可以看出，經過訓練的LongAlpaca模型已經可以很輕鬆地接受新的長篇學術論文，在學術相關問題的回答上相當精準。

接下來，再看看LongAlpaca模型在頗高閱讀和理解門檻的經濟領域的解讀表現。

根據國際貨幣基金組織從2012年到2023年的全球經濟展望的概述合集，對經濟形勢進行逐年總結以及對未來經濟趨勢進行預測：

LongAlpaca告訴我們，2023年全球經濟形勢不明朗，跟2022年相比，增長預計放緩；未來幾年，全球經濟擴張速度偏溫和並將低於預期，而地緣政治緊張、金融市場波動等大的挑戰依然存在，需通過多邊合作和結構性改革小心應對。

此外，LongAlpaca還可以讀新的長篇小說，讀完後對內容進行分析。下面選取的對比模型是13B參數的LongAlpaca和Llama2，且看各自表現。

名著《西遊記》中，為什麼孫悟空在大鬧天宮時很厲害，但取經路上卻屢屢受挫？

LongAlpaca給出了5點原因，大概可總結為：“孫悟空的不成熟、強大的對手、力量的限制、敵人的欺騙、最初缺少同伴等因素導致了他在旅途中的失敗。但隨着時間推移，他獲得了智慧、經驗和戰友，使他最終戰勝了最強大的敵人。”

而Llama2並沒有給出正確答案：“雖然他確實大鬧天宮，但說他代表着不敗的力量並不一定準確。事實上，他最終在西遊記中被強大的唐三藏打敗。”

這一次讓系統新讀一次《三體》，然後問第一部中，葉文潔為什麼要聯繫外星人，而後期又為什麼後悔？

LongAlpaca認為，葉文潔最初接觸外星人是出於理想主義和復仇，但隨着時間的推移，她對人類的看法發生了變化，意識到自己可能給全人類帶來的危險，她的悔恨與日俱增。回答得十分清晰。

而Llama2的回答則是，“通過與外星人的互動，她希望能更深入地瞭解宇宙的本質，以及自己在宇宙中的位置。葉文潔逐漸意識到，外星人和他們的技術並不能解決她的問題。”回答籠統，之後開始對小說整體進行評論，答非所問。

從模型給出的答案可發現，一些模型如Llama2[2]可能在預訓練過程中見過相關小說，但如果在提問時進行僅根據小說題目進行短文本提問的話，回答並不理想。

兩個模型的回答對比，高下立見。LongAlpaca改學術論文、點評全球經濟大勢和讀小說，都是一把好手，完勝Llama2。

兩行代碼和三個關鍵結論

Llama2可以說是AI社區內最強大的開源大模型之一，行業位置領先，LongAlpaca居然可以完勝。其背後的LongLoRA技術成功引起網友們的注意，到底是怎麼做到的？原來大語言模型對長文本處理過程中，計算量的主要開銷集中在自注意力機制(self-attention)，其開銷隨着文本長度成平方次地增加。針對這個問題，研究團隊提出LongLoRA技術，並用分組和偏移的方式來對全局自注意力機制進行模擬。

簡單來說，就是將長文本對應的tokens拆分成不同的組，在每組內部做自注意力計算，而分組的方式在不同注意力頭（attention head）上有所偏移。這樣的方式既可以大幅度節約計算量，又可以維持全局感受野的傳遞。而且，這個實現方法也非常簡潔，僅兩行代碼即可完成！

除此之外，LongLoRA還探索了低秩訓練的方式。原有的低秩訓練方式，如LoRA[5]，無法在文本長度遷移上取得良好的效果。而LongLoRA在低秩訓練的基礎上，引入嵌入層（Embedding layer和 Normalization layers）進行微調，從而達到可以和全參數微調（Full fine-tune）逼近的效果。

進行不同長度文本擴展和訓練時，LongLoRA、LoRA和全參數微調不同技術的具體效果如何，可以參考三個維度表現：

在Perplexity-困惑度上，原有LoRA方法的性能在不斷惡化，而LongLoRA和全參數微調都能在各種文本長度下維持很好的效果；

在顯存消耗上，相比於全參數微調，LongLoRA和原有LoRA都有大幅度的節省。例如，對於8k長度的模型訓練，相比於全參數微調，LongLoRA將顯存消耗從46.3GB降低到25.6GB。

在訓練時間上，對於64k長度的模型訓練，相比於常規LoRA，LongLoRA將訓練時間從90～100小時左右降低到52.4小時，而全參數微調超過1000小時。

極簡的訓練方法、極少的計算資源和時間消耗，以及極佳的準確性，令LongLoRA大規模推廣成為可能。目前，相關技術與模型已全部開源，感興趣的用戶們可以自己部署感受。值得一提的是，這是賈佳亞團隊繼8月9日發布的“可以分割一切”的多模態大模型LISA後的又一力作。相距不過短短兩個月，不得不說，這研究速度和能力跟LongLoRA一樣驚人。

參考文獻：

[1] LLaMA team. Llama: Open and efficient foundation language models. Arxiv, 2302.13971, 2023a.

[2] Llama2 team. Llama 2: Open foundation and fine-tuned chat models. Arxiv, 2307.09288, 2023b.

[3] Shouyuan Chen, Sherman Wong, Liangjian Chen, and Yuandong Tian. Extending context window of large language models via positional interpolation. Arxiv, 2306.15595, 2023.

[4] Szymon Tworkowski, Konrad Staniszewski, Mikolaj Pacek, Yuhuai Wu, Henryk Michalewski, and Piotr Milos. Focused transformer: Contrastive training for context scaling. Arxiv, 2307.03170, 2023.

[5] Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. In ICLR, 2022.

2行代碼，“三體”一次讀完！港中文賈佳亞團隊聯手MIT發布超長文本擴展技術 打破LLM遺忘魔咒

2行代碼，“三體”一次讀完！港中文賈佳亞團隊聯手MIT發布超長文本擴展技術打破LLM遺忘魔咒