華為盤古團隊嚴遵開源要求,爭議與待解之謎
爭議背景與華為回應
爭議緣起
2025年6月30日,華為正式開源部分盤古大模型體系,涵蓋70億參數(shù)的盤古稠密模型和720億參數(shù)的盤古ProMoE混合專家模型,以及配套的昇騰模型推理技術體系。此舉被視為構(gòu)建昇騰生態(tài)的關鍵舉措。然而,僅隔四天,爭議便隨之而來。 GitHub上的一項研究指出,華為盤古ProMoE模型與阿里通義千問Qwen-2.5的注意力參數(shù)分布高度相似,平均相關性達0.927,且代碼文件中含有阿里版權(quán)聲明,從而引發(fā)“非獨立開發(fā)”的質(zhì)疑。
華為官方回應
面對質(zhì)疑,華為諾亞方舟實驗室于7月5日發(fā)布聲明,明確指出盤古ProMoE是基于昇騰硬件平臺開發(fā)、訓練的基礎大模型,并非基于其他廠商模型增量訓練。華為強調(diào),該模型在架構(gòu)設計、技術特性等方面做了關鍵創(chuàng)新,特別是提出了分組混合專家(MoGE)架構(gòu),有效解決了大規(guī)模分布式訓練的負載均衡難題,提升了訓練效率。 針對代碼相似性問題,華為表示,部分基礎組件代碼參考了業(yè)界開源實踐,并嚴格遵循了開源協(xié)議,清晰標注了開源代碼的版權(quán)聲明。華為堅稱,這一做法符合開源社區(qū)的通行做法及業(yè)界倡導的開源協(xié)作精神。
爭議焦點與待解問題
爭議焦點一:是否抄襲
分析:抄襲爭議的核心在于盤古ProMoE與Qwen-2.5的高度相似的注意力參數(shù)分布。盡管華為強調(diào)其模型的獨立性和創(chuàng)新性,但高達0.927的平均相關性確實引發(fā)了廣泛關注。值得注意的是,這種高相似性可能源于多種因素,如相似的訓練目標、相近的模型規(guī)模,或設計上采用了類似的注意力機制。然而,在無明確代碼或權(quán)重直接復制記錄的情況下,僅憑統(tǒng)計參數(shù)相關性無法斷定抄襲。 待解問題:如何科學界定開源模型的邊界?在Transformer架構(gòu)被廣泛共享的背景下,如何平衡創(chuàng)新與借鑒的關系?
爭議焦點二:開源協(xié)議遵守情況
分析:華為聲稱嚴格遵循了開源協(xié)議,并在代碼中清晰標注了開源代碼的版權(quán)聲明。這一做法符合開源社區(qū)的通行規(guī)則。然而,爭議的核心在于,即便遵循了開源協(xié)議,高度相似的參數(shù)分布仍可能引發(fā)公眾對模型獨立性的質(zhì)疑。 待解問題:在開源協(xié)議框架下,如何確保模型的獨立性和創(chuàng)新性?如何避免開源代碼的“洗水印”現(xiàn)象?
爭議焦點三:技術回應的透明度
分析:華為在回應中強調(diào)了其MoGE架構(gòu)的獨特性和創(chuàng)新性,但并未詳細解釋為何在架構(gòu)存在獨特性的前提下,參數(shù)相似度還依然如此之高。此外,華為也未對GitHub上“LLM-Fingerprint”分析的不科學性進行充分說明,導致回應缺乏反證數(shù)據(jù)支撐。 待解問題:如何提高技術回應的透明度?如何通過多層級、多模型對比、顯著統(tǒng)計差異分析等手段增強回應的說服力?
行業(yè)趨勢與未來展望
開源模型邊界模糊化
隨著AI技術的快速發(fā)展,開源模型在推動技術創(chuàng)新和產(chǎn)業(yè)發(fā)展方面發(fā)揮了重要作用。然而,開源模型的邊界日益模糊,協(xié)議規(guī)則與法律界定尚不完善。這導致在模型相似性問題上,往往難以形成統(tǒng)一的判斷標準。
開源協(xié)作精神的重要性
盡管爭議不斷,但開源協(xié)作精神仍然是推動AI技術發(fā)展的重要動力。華為在回應中強調(diào)了尊重第三方知識產(chǎn)權(quán)、提倡包容、公平、開放、團結(jié)和可持續(xù)的開源理念。這一精神有助于促進技術創(chuàng)新和產(chǎn)業(yè)升級。
加強技術透明度與開放性
為了增強公眾對開源模型的信任度,未來應進一步加強技術透明度與開放性。這包括提供完整的模型權(quán)重、開放在線API和推理接口等,以便接受社區(qū)和用戶的檢驗。同時,行業(yè)也應積極探索更加科學、客觀的模型相似性評估方法。
專業(yè)見解與預測
- 開源模型邊界界定將更加清晰:隨著行業(yè)對開源模型邊界問題的關注加深,未來將有更多專業(yè)機構(gòu)和專家參與到這一領域的討論和研究中,推動形成更加清晰、科學的界定標準。
- 技術創(chuàng)新與借鑒將更加平衡:在尊重知識產(chǎn)權(quán)的前提下,未來AI技術的創(chuàng)新與借鑒將更加平衡。企業(yè)將在借鑒開源模型的基礎上,注重自主研發(fā)和創(chuàng)新,以提升模型的獨特性和競爭力。
- 技術透明度與開放性將不斷提升:為了增強公眾對開源模型的信任度,未來企業(yè)將更加注重提升技術透明度與開放性。這將有助于推動AI技術的健康有序發(fā)展。
結(jié)語
華為盤古團隊針對開源代碼爭議的回應,展現(xiàn)了其對開源協(xié)作精神的堅守和對技術創(chuàng)新的追求。然而,爭議也暴露出當前開源模型邊界模糊、協(xié)議規(guī)則待完善等問題。未來,行業(yè)應共同努力,推動形成更加清晰、科學的開源模型界定標準,加強技術透明度與開放性,促進AI技術的健康有序發(fā)展。
文章評論 (2)
發(fā)表評論