問題定義
近期,華為盤古團隊在開源其AI大模型時,遭遇了關于是否嚴格遵循開源要求的爭議。爭議的焦點主要集中在盤古Pro MoE模型是否基于其他廠商模型增量訓練,以及是否合規引用開源組件。華為盤古團隊已對此進行回應,但仍有部分問題待進一步厘清。
爭議背景
爭議起因
華為在6月30日正式開源了部分盤古大模型體系,包括70億參數的盤古稠密模型和720億參數的盤古Pro MoE混合專家模型,以及配套的昇騰模型推理技術體系。然而,僅隔四天,GitHub上的一項研究指出盤古Pro MoE與阿里通義千問Qwen-2.5的注意力參數分布高度相似,平均相關性達0.927,且代碼文件中含有阿里版權聲明,從而引發“非獨立開發”的質疑。
華為回應
針對上述質疑,華為諾亞方舟實驗室于7月5日發布聲明稱,盤古Pro MoE是基于昇騰硬件平臺開發、訓練的基礎大模型,并非基于其他廠商模型增量訓練。同時,團隊強調其創新了全球首個面向昇騰硬件的分組混合專家(MoGE)架構,解決分布式訓練負載均衡難題,提升訓練效率。對于開源組件的引用,華為表示已嚴格遵循開源許可證的要求,并在開源代碼文件中清晰標注了開源代碼的版權聲明。
解決方案
澄清誤解
明確開發基礎
- 方案描述:華為應進一步強調盤古Pro MoE模型是基于昇騰硬件平臺自研訓練的混合專家模型,而非基于其他廠商模型增量訓練。同時,詳細闡述MoGE架構的創新性和獨特性,以證明其技術獨立性。
- 實施步驟:
- 發布官方聲明,明確盤古Pro MoE的開發基礎和訓練過程。
- 舉辦技術分享會,邀請專家解讀MoGE架構的技術細節和創新點。
- 在官方渠道和社交媒體上廣泛傳播這些信息,以消除公眾誤解。
公開透明引用開源組件
- 方案描述:華為應公開透明地展示其引用開源組件的情況,包括引用的組件名稱、版本、開源許可證類型等信息,并說明為何選擇這些組件以及它們對盤古Pro MoE模型的貢獻。
- 實施步驟:
- 在開源代碼倉庫中添加README文件,詳細列出引用的開源組件及其相關信息。
- 在官方網站上發布關于開源組件引用的公告,解釋引用原因和合規性。
- 邀請開源社區成員審核和驗證引用的開源組件,以增強公信力。
加強溝通與合作
與開源社區互動
- 方案描述:華為應加強與開源社區的互動,積極參與開源項目,分享技術成果,共同推動AI技術的發展。通過互動,增進社區對華為開源實踐的信任和理解。
- 實施步驟:
- 定期在開源社區發布技術文章和博客,分享盤古大模型的開發經驗和創新成果。
- 參與開源項目的技術討論和貢獻代碼,與社區成員建立良好的合作關系。
- 舉辦或參與開源技術會議和研討會,與業界專家進行深入交流。
與阿里等廠商溝通
- 方案描述:華為應主動與阿里等廠商進行溝通,就開源代碼引用和模型相似性等問題進行解釋和說明,尋求共識和理解。通過溝通,消除誤解和分歧,共同維護開源生態的健康和穩定。
- 實施步驟:
- 向阿里等廠商發送正式函件,解釋盤古Pro MoE模型的開發過程和合規性。
- 邀請阿里等廠商的技術專家進行技術交流,共同探討開源代碼引用的合規性和模型相似性的評估方法。
- 根據溝通結果,調整和完善開源代碼引用的合規性措施,確保符合業界標準和最佳實踐。
待厘清的問題
開源代碼引用的合規性邊界
- 問題描述:在開源生態中,如何界定開源代碼引用的合規性邊界是一個復雜而敏感的問題。一方面,開發者需要充分利用開源代碼來加速技術創新和產品開發;另一方面,也要尊重原創者的知識產權和開源協議的要求。
- 解決方案:華為應加強與開源社區的互動和溝通,共同制定和完善開源代碼引用的合規性標準和最佳實踐。同時,加強內部培訓和審核機制,確保開發者在引用開源代碼時嚴格遵守相關法律法規和開源協議的要求。
模型相似性的評估方法
- 問題描述:模型相似性的評估方法是一個技術難題。目前,業界還沒有一個統一、科學、客觀的評估標準來準確衡量不同模型之間的相似性。這導致在開源代碼爭議中,往往難以準確判斷模型是否存在抄襲或套殼現象。
- 解決方案:華為應積極參與業界關于模型相似性評估方法的研究和討論,推動建立科學、客觀、統一的評估標準。同時,加強內部技術研發和創新,提升盤古大模型的技術獨立性和獨特性,降低與其他模型的相似性風險。
預防建議與后續措施
預防建議
- 加強內部培訓和審核:定期對開發者進行開源協議和知識產權方面的培訓,提升其對合規性的認識和重視程度。同時,建立完善的審核機制,對引用的開源代碼進行嚴格審查,確保符合合規性要求。
- 建立合規性自查機制:鼓勵開發者在引用開源代碼前進行自查和評估,確保引用的代碼符合開源協議和知識產權的要求。同時,定期對已引用的開源代碼進行復查和更新,確保合規性持續有效。
后續措施
- 持續跟蹤和回應爭議:華為應持續關注開源社區和公眾對盤古大模型的反饋和爭議,及時回應和解釋相關問題。通過積極溝通和互動,增進公眾對華為開源實踐的信任和理解。
- 推動開源生態建設:積極參與開源生態建設,與業界伙伴共同推動開源技術的創新和發展。通過合作和交流,共同提升開源生態的健康度和穩定性。
Q&A
Q1:華為盤古團隊是如何回應開源代碼爭議的? A1:華為盤古團隊發布聲明稱,盤古Pro MoE是基于昇騰硬件平臺自研訓練的混合專家模型,并非基于其他廠商模型增量訓練。同時,團隊強調已嚴格遵循開源許可證的要求,并在開源代碼文件中清晰標注了開源代碼的版權聲明。 Q2:如何界定開源代碼引用的合規性邊界? A2:開源代碼引用的合規性邊界是一個復雜而敏感的問題。華為建議加強與開源社區的互動和溝通,共同制定和完善開源代碼引用的合規性標準和最佳實踐。同時,加強內部培訓和審核機制,確保開發者在引用開源代碼時嚴格遵守相關法律法規和開源協議的要求。
文章評論 (5)
發表評論