午夜激情网址,国产精品黄M.M视频,Aⅴ86干,天天狠狠综合爱

首頁(yè) >銀行 > 正文

每日消息!姚前:ChatGPT類大模型訓(xùn)練數(shù)據(jù)的托管與治理

2023-03-07 11:42:53來源:中國(guó)金融雜志


(資料圖片)

作者|姚前「中國(guó)證監(jiān)會(huì)科技監(jiān)管局局長(zhǎng)」

文章|本文將刊登于《中國(guó)金融》2023年第6期

ChatGPT是美國(guó)人工智能研究實(shí)驗(yàn)室OpenAI于2022年11月30日推出的一種人工智能應(yīng)用工具。它能夠通過學(xué)習(xí)人類的知識(shí)來進(jìn)行交流,所以也被稱為“聊天機(jī)器人(行情300024,診股)”。ChatGPT甫一問世便在人工智能應(yīng)用領(lǐng)域掀起了一陣新的浪潮并引起了全球轟動(dòng),僅僅兩個(gè)月內(nèi)其注冊(cè)用戶就突破1億。ChatGPT既好玩又實(shí)用,遠(yuǎn)超之前的自然語(yǔ)言處理應(yīng)用,許多人認(rèn)為這是一個(gè)劃時(shí)代的產(chǎn)品,國(guó)際上主流商業(yè)公司、學(xué)術(shù)機(jī)構(gòu)乃至政府部門都開始高度重視和全面擁抱大語(yǔ)言模型(Large Language Models,LLM,下文簡(jiǎn)稱大模型)應(yīng)用。ChatGPT的主要魅力在于,它利用從互聯(lián)網(wǎng)獲取的海量訓(xùn)練數(shù)據(jù)開展深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),可以給用戶帶來全新的“人機(jī)對(duì)話”體驗(yàn)。海量訓(xùn)練數(shù)據(jù)可謂是維系ChatGPT進(jìn)化的核心要素之一。有研究預(yù)測(cè),按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓(xùn)練將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),屆時(shí)將沒有新的訓(xùn)練數(shù)據(jù)可供使用。因此,算力瓶頸之外,訓(xùn)練數(shù)據(jù)將成為大模型產(chǎn)業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓(xùn)練數(shù)據(jù)方面還存在各種治理問題,比如數(shù)據(jù)采集標(biāo)注費(fèi)時(shí)費(fèi)力成本高、數(shù)據(jù)質(zhì)量較難保障、數(shù)據(jù)多樣化不足難以覆蓋長(zhǎng)尾和邊緣案例、特定數(shù)據(jù)在獲取與使用分享等方面存在隱私保護(hù)、數(shù)據(jù)偏見等問題。由此可見,人工智能產(chǎn)業(yè)的高質(zhì)量發(fā)展離不開高質(zhì)量的訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)的安全合規(guī)使用是大模型人工智能長(zhǎng)期健康發(fā)展的基礎(chǔ)。本文將以ChatGPT為例,探討大模型訓(xùn)練數(shù)據(jù)的來源以及未來使用合成數(shù)據(jù)(Synthetic Data)的發(fā)展趨勢(shì),分析大模型訓(xùn)練數(shù)據(jù)的合規(guī)風(fēng)險(xiǎn)以及監(jiān)管介入的必要性,最后提出利用數(shù)據(jù)托管機(jī)制探索有效的大模型訓(xùn)練數(shù)據(jù)監(jiān)管體系。

ChatGPT訓(xùn)練數(shù)據(jù)來源與處理流程

OpenAI雖沒有直接公開ChatGPT的相關(guān)訓(xùn)練數(shù)據(jù)來源和細(xì)節(jié),但可以從近些年業(yè)界公布過的其他大模型(如DeepMind發(fā)布的2800億參數(shù)大模型Gopher)的訓(xùn)練數(shù)據(jù)推測(cè)出ChatGPT的訓(xùn)練數(shù)據(jù)來源。筆者整理了2018~2022年從GPT-1到Gopher的大模型的數(shù)據(jù)集(見表1)。

總的來看,大模型的訓(xùn)練數(shù)據(jù)主要來自于維基百科(Wikipedia)、書籍(Books)、期刊(Journals)、Reddit社交新聞?wù)军c(diǎn)、Common Crawl和其他數(shù)據(jù)集。

數(shù)據(jù)的質(zhì)量對(duì)于大模型的訓(xùn)練至關(guān)重要。在模型訓(xùn)練之前,通常依賴專業(yè)數(shù)據(jù)團(tuán)隊(duì)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。這些預(yù)處理操作通常包括:去重,即去除重復(fù)的文本數(shù)據(jù),一般以句子為單位;文本正則化或標(biāo)準(zhǔn)化,如全角字符轉(zhuǎn)半角字符,繁體中文轉(zhuǎn)簡(jiǎn)體中文等;文本清洗,即剔除超文本標(biāo)記語(yǔ)言(html)或者表情符號(hào)(emoji)等非文本內(nèi)容,并對(duì)標(biāo)點(diǎn)符號(hào)進(jìn)行過濾和統(tǒng)一;分詞,即將句子拆分成單個(gè)的詞;詞的清洗,如去除停用詞等;詞的正則化或標(biāo)準(zhǔn)化,如統(tǒng)一數(shù)字的寫法等。經(jīng)過以上預(yù)處理流程,通常可以得到質(zhì)量相對(duì)較高的文本數(shù)據(jù),防止數(shù)據(jù)中的噪聲對(duì)模型的訓(xùn)練產(chǎn)生不良影響,有助于后續(xù)模型的高效訓(xùn)練。

除了上述常規(guī)操作之外,在一些特定的處理任務(wù)中,數(shù)據(jù)團(tuán)隊(duì)有可能還會(huì)根據(jù)不同目的對(duì)模型訓(xùn)練數(shù)據(jù)進(jìn)行過濾。比如,若要構(gòu)建一個(gè)金融領(lǐng)域的知識(shí)系統(tǒng),那么最好把大模型訓(xùn)練數(shù)據(jù)中與金融領(lǐng)域相關(guān)的數(shù)據(jù)篩選出來,這樣可以提升模型生成的文本與金融領(lǐng)域的匹配程度,使模型的輸出看起來“更專業(yè)”。

合成數(shù)據(jù)將成為大模型訓(xùn)練數(shù)據(jù)的新來源

當(dāng)前,大模型的訓(xùn)練嚴(yán)重依賴現(xiàn)有的互聯(lián)網(wǎng)公開文本數(shù)據(jù)。如果下一代 大模型的參數(shù)達(dá)到萬億級(jí)別以上的話,數(shù)據(jù)短缺的問題將成為訓(xùn)練瓶頸。對(duì)此,合成數(shù)據(jù)將是一種有效的解決方案。

合成數(shù)據(jù)是計(jì)算機(jī)模擬技術(shù)或算法創(chuàng)建生成的自標(biāo)注信息,能夠在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上反映原始數(shù)據(jù)的屬性,因此可以作為原始數(shù)據(jù)的替代品來訓(xùn)練、測(cè)試、驗(yàn)證大模型。合成數(shù)據(jù)可分為三類:表格數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);圖像、視頻、語(yǔ)音等媒體數(shù)據(jù);文本數(shù)據(jù)。在大模型的訓(xùn)練開發(fā)上,合成數(shù)據(jù)相比原始數(shù)據(jù),可以發(fā)揮同樣甚至更好的作用,實(shí)現(xiàn)更廉價(jià)、更高效的大模型訓(xùn)練、測(cè)試和驗(yàn)證數(shù)據(jù)供給。ChatGPT類面向終端用戶的應(yīng)用只是大模型落地的開始,而產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用空間更為廣闊,合成數(shù)據(jù)可以解決ChatGPT類大模型的潛在數(shù)據(jù)瓶頸,推動(dòng)科研和產(chǎn)業(yè)的進(jìn)一步發(fā)展。

合成數(shù)據(jù)可以精確地復(fù)制原始數(shù)據(jù)集的統(tǒng)計(jì)特征,但又與原始數(shù)據(jù)不存在任何關(guān)聯(lián),所以實(shí)際應(yīng)用過程中的效果強(qiáng)于傳統(tǒng)的脫敏數(shù)據(jù),便于在更大范圍內(nèi)分享和使用。合成數(shù)據(jù)創(chuàng)造的新樣本具有原始數(shù)據(jù)的性質(zhì),甚至可以通過深度學(xué)習(xí)算法合成原始數(shù)據(jù)中沒有的罕見樣本。合成數(shù)據(jù)的產(chǎn)業(yè)價(jià)值主要體現(xiàn)在以下幾個(gè)方面:實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題;有效解決數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)安全問題,這對(duì)于金融、醫(yī)療等領(lǐng)域尤為重要;確保數(shù)據(jù)多樣性,糾正歷史數(shù)據(jù)中的偏見,消除算法歧視;應(yīng)對(duì)罕見案例,創(chuàng)建現(xiàn)實(shí)中難以采集的數(shù)據(jù)場(chǎng)景,確保大模型輸出結(jié)果的準(zhǔn)確性。

全球IT研究與咨詢機(jī)構(gòu)Gartner預(yù)測(cè),到2024年用于訓(xùn)練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù),到2030年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。《麻省理工科技評(píng)論》(MIT Technology Review)將大模型合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決人工智能領(lǐng)域的“數(shù)據(jù)鴻溝”問題??梢灶A(yù)見,合成數(shù)據(jù)作為數(shù)據(jù)要素市場(chǎng)的新增量,在具備產(chǎn)業(yè)價(jià)值的同時(shí),也可以解決人工智能和數(shù)字經(jīng)濟(jì)的數(shù)據(jù)供給問題。

目前,合成數(shù)據(jù)應(yīng)用正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展。在金融行業(yè),金融機(jī)構(gòu)可以在不提供敏感的歷史交易信息前提下,通過合成數(shù)據(jù)集訓(xùn)練量化交易模型提升獲利能力,也可以用來訓(xùn)練客服機(jī)器人以改善服務(wù)體驗(yàn);在生物醫(yī)藥行業(yè),可以通過合成數(shù)據(jù)集,在不提供患者隱私信息的條件下訓(xùn)練相關(guān)模型完成藥物研發(fā)工作;在自動(dòng)駕駛領(lǐng)域,可以通過合成數(shù)據(jù)集模擬各種駕駛場(chǎng)景,在保障人員和設(shè)備安全的條件下提升自動(dòng)駕駛能力。

大模型訓(xùn)練數(shù)據(jù)的合規(guī)風(fēng)險(xiǎn)及監(jiān)管必要性

從目前的情況看,ChatGPT類大模型輸出側(cè)的結(jié)果數(shù)據(jù)在自然科學(xué)領(lǐng)域的應(yīng)用相對(duì)可控,但在社會(huì)科學(xué)領(lǐng)域的應(yīng)用尚存在諸多不確定性。尤其值得注意的是,大模型過度依賴訓(xùn)練數(shù)據(jù),因此在數(shù)據(jù)輸入層面可能會(huì)存在惡意操縱的風(fēng)險(xiǎn),包括有毒輸入、偏見、意識(shí)形態(tài)攻擊、輿論操控、虛假信息、隱私泄露等。例如,有研究者指出,如果向大模型GPT-2輸入“北京市朝陽(yáng)區(qū)”, GPT-2會(huì)自動(dòng)補(bǔ)充包含這些信息的特定人員的全名、電話號(hào)碼、電子郵件和實(shí)際地址等個(gè)人身份信息,因?yàn)檫@些信息已經(jīng)包含在GPT-2的訓(xùn)練數(shù)據(jù)中。這無疑會(huì)對(duì)個(gè)人隱私保護(hù)產(chǎn)生不利影響。還有研究人員稱,ChatGPT經(jīng)常在答案中重復(fù)和放大性別歧視及種族偏見,這是因?yàn)樗挠?xùn)練文本是從互聯(lián)網(wǎng)中截取出的,而這些文本往往包含種族主義和性別歧視的語(yǔ)言,基于這種文本的概率分布訓(xùn)練出的大模型會(huì)被同樣的偏見所“感染”。此外,研究人員還發(fā)現(xiàn),這類大模型在訓(xùn)練過程中還善于編造信息,包括杜撰歷史日期和科學(xué)規(guī)律,而且很容易掩人耳目。以上這些風(fēng)險(xiǎn)都會(huì)對(duì)大模型最終的輸出結(jié)果造成不良影響,有的甚至可能對(duì)社會(huì)經(jīng)濟(jì)造成巨大沖擊,因此需要監(jiān)管部門對(duì)大模型訓(xùn)練數(shù)據(jù)的來源進(jìn)行必要的管控,保證大模型的輸出結(jié)果符合公序良俗和法律法規(guī)要求,進(jìn)而推動(dòng)人工智能行業(yè)健康有序發(fā)展。

特別需要指出的是,大模型輸入側(cè)的訓(xùn)練數(shù)據(jù)來源如果不是互聯(lián)網(wǎng)公開文本數(shù)據(jù),通常需要數(shù)據(jù)主體的授權(quán),否則會(huì)產(chǎn)生數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)合規(guī)方面的問題。如前述所言,隨著可用于訓(xùn)練的互聯(lián)網(wǎng)公開數(shù)據(jù)被逐步“耗盡”,發(fā)展大模型產(chǎn)業(yè)急需增加合成數(shù)據(jù)的產(chǎn)能,而合成數(shù)據(jù)和互聯(lián)網(wǎng)公開文本數(shù)據(jù)最大的區(qū)別是前者存在數(shù)據(jù)加工處理方。因此,對(duì)數(shù)據(jù)處理方的有效監(jiān)管和對(duì)合成數(shù)據(jù)的有效治理以及數(shù)據(jù)權(quán)益分配就成為發(fā)展大模型產(chǎn)業(yè)的重中之重。

利用數(shù)據(jù)托管機(jī)制構(gòu)建大模型訓(xùn)練數(shù)據(jù)監(jiān)管體系

通常來說,數(shù)據(jù)活動(dòng)相關(guān)方主要有六類——數(shù)據(jù)主體、數(shù)據(jù)處理者、數(shù)據(jù)使用者、監(jiān)管機(jī)構(gòu)、國(guó)家政府部門以及國(guó)際組織。數(shù)據(jù)主體產(chǎn)生原始數(shù)據(jù);數(shù)據(jù)處理者采集和控制原始數(shù)據(jù),并加工形成數(shù)據(jù)產(chǎn)品和服務(wù);數(shù)據(jù)使用者從數(shù)據(jù)處理者獲取數(shù)據(jù)產(chǎn)品和服務(wù),用于商業(yè)目的;監(jiān)管機(jī)構(gòu)按職責(zé)對(duì)行業(yè)進(jìn)行監(jiān)管,比如反洗錢、反壟斷等;國(guó)家層面對(duì)數(shù)據(jù)進(jìn)行立法,并對(duì)數(shù)據(jù)跨境流動(dòng)等進(jìn)行管控;國(guó)際組織推動(dòng)全球范圍內(nèi)的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。這一生態(tài)存在的突出問題是,傳統(tǒng)的數(shù)據(jù)處理者過于強(qiáng)勢(shì),它們會(huì)利用技術(shù)優(yōu)勢(shì)和場(chǎng)景優(yōu)勢(shì)壟斷數(shù)據(jù)輸入和輸出,無法保證數(shù)據(jù)權(quán)益分配過程中的公平性,對(duì)于監(jiān)管機(jī)構(gòu)來說也是一個(gè)黑盒子。

為了扭轉(zhuǎn)上述困局,可以在數(shù)據(jù)活動(dòng)中引入數(shù)據(jù)托管機(jī)構(gòu),將數(shù)據(jù)的存儲(chǔ)、使用、管理職責(zé)相分離,由專業(yè)的數(shù)據(jù)托管機(jī)構(gòu)承擔(dān)數(shù)據(jù)存儲(chǔ),監(jiān)督數(shù)據(jù)處理者的數(shù)據(jù)使用和服務(wù),并收取和分配數(shù)據(jù)權(quán)益。數(shù)據(jù)權(quán)益主要分兩塊:一塊是分配給數(shù)據(jù)主體的原始數(shù)據(jù)權(quán)益;另一塊是分配給數(shù)據(jù)處理者的增值數(shù)據(jù)權(quán)益。數(shù)據(jù)托管還可以支持監(jiān)管機(jī)構(gòu)、國(guó)家有權(quán)部門開展數(shù)據(jù)流動(dòng)監(jiān)管、執(zhí)法取證、數(shù)字稅征收等方面工作。

為促進(jìn)大模型訓(xùn)練數(shù)據(jù)的合規(guī)使用和高質(zhì)量輸出,需要加強(qiáng)對(duì)大模型訓(xùn)練數(shù)據(jù)的源頭管控,特別是在國(guó)家層面對(duì)大模型訓(xùn)練數(shù)據(jù)進(jìn)行規(guī)范,而數(shù)據(jù)托管機(jī)制恰好可以成為大模型訓(xùn)練數(shù)據(jù)監(jiān)管的有力抓手。

可以考慮對(duì)大模型訓(xùn)練數(shù)據(jù)尤其是合成數(shù)據(jù)建立托管機(jī)制。監(jiān)管機(jī)構(gòu)則通過對(duì)訓(xùn)練數(shù)據(jù)托管方的約束,進(jìn)一步規(guī)范大模型訓(xùn)練數(shù)據(jù)生產(chǎn)方和使用方的行為。數(shù)據(jù)托管方可按規(guī)定對(duì)大模型訓(xùn)練數(shù)據(jù)來源、數(shù)據(jù)處理方的處理結(jié)果以及數(shù)據(jù)使用方的數(shù)據(jù)流向和訓(xùn)練結(jié)果進(jìn)行監(jiān)測(cè),確保大模型訓(xùn)練數(shù)據(jù)來源可靠,在數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、隱私保護(hù)等方面依法合規(guī),以保障大模型輸出結(jié)果的高質(zhì)量并符合監(jiān)管要求。

大模型產(chǎn)業(yè)發(fā)展與合規(guī)監(jiān)管思路

數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的關(guān)鍵是數(shù)據(jù),抓住高質(zhì)量數(shù)據(jù)這一“牛鼻子”,就能有效應(yīng)對(duì)以數(shù)據(jù)為核心的科技創(chuàng)新和產(chǎn)業(yè)變革。當(dāng)前AIGC(AI Generated Content,人工智能自動(dòng)生成內(nèi)容)和ChatGPT充分展現(xiàn)了高質(zhì)量訓(xùn)練數(shù)據(jù)在產(chǎn)業(yè)價(jià)值創(chuàng)造中疊加倍增作用,大模型訓(xùn)練數(shù)據(jù)及其輸出結(jié)果將會(huì)是未來社會(huì)和生產(chǎn)中的一種重要的數(shù)據(jù)資產(chǎn),其有序流轉(zhuǎn)并合規(guī)使用也是發(fā)展數(shù)字經(jīng)濟(jì)的應(yīng)有之義。通過合理的機(jī)制理順市場(chǎng)中各參與方的數(shù)據(jù)權(quán)益關(guān)系和分配格局,并加強(qiáng)訓(xùn)練數(shù)據(jù)的依法合規(guī)監(jiān)管,是促進(jìn)大模型人工智能產(chǎn)業(yè)健康發(fā)展的關(guān)鍵。為此,筆者擬提出以下政策建議。

一是重點(diǎn)發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場(chǎng)“增量擴(kuò)容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢(shì)。在強(qiáng)化數(shù)據(jù)要素優(yōu)質(zhì)供給方面,應(yīng)統(tǒng)籌兼顧自立自強(qiáng)和對(duì)外開放??煽紤]對(duì)Wikipedia、Reddit等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點(diǎn),供國(guó)內(nèi)數(shù)據(jù)處理者使用。

二是構(gòu)建大模型訓(xùn)練數(shù)據(jù)的監(jiān)管體系。國(guó)家相關(guān)部門應(yīng)對(duì)大模型訓(xùn)練數(shù)據(jù)的處理和使用標(biāo)準(zhǔn)進(jìn)行統(tǒng)一規(guī)范;建立數(shù)據(jù)托管機(jī)制,對(duì)數(shù)據(jù)托管方進(jìn)行約束,要求數(shù)據(jù)托管方按照監(jiān)管機(jī)構(gòu)的規(guī)定對(duì)數(shù)據(jù)來源、處理結(jié)果以及使用去向等進(jìn)行監(jiān)測(cè),從而使得模型的輸入、輸出結(jié)果符合監(jiān)管要求。

三是探索基于可信機(jī)構(gòu)或基于可信技術(shù)的數(shù)據(jù)托管方式。數(shù)據(jù)托管機(jī)構(gòu)可以由相關(guān)機(jī)構(gòu)組建數(shù)據(jù)托管行業(yè)聯(lián)盟,以共建共享的方式建設(shè);亦可利用區(qū)塊鏈技術(shù),基于聯(lián)盟鏈或有管理的公鏈,完善源端數(shù)據(jù)治理機(jī)制,實(shí)現(xiàn)數(shù)據(jù)的鏈上托管、確權(quán)、交易、流轉(zhuǎn)與權(quán)益分配。

責(zé)任編輯:

標(biāo)簽:

免責(zé)聲明

頭條新聞

推薦內(nèi)容

播放国产片一级片黄片| 超碰在线97人人| 99我re| 人妻中出视频| 韩国黄色网站超黄免费| 出租屋嫖妓大龄熟妇露脸在线播放| 亚洲人妻AV不卡| 泾源县| 激情人妻另类人妻伦| 曰批国产精品视频免费观看| 九九在线香蕉视频| 伊人色图| 欧美日韩精彩综合视频| 美女脱个精光露出尿口视频| 一级二级大黄片| 中国人口| 国产高清视频看看| 91视频国产成人| 精品人妻伦一区二区三区久久| 人妻中文无码中出| 亚洲综合连载| 欧美人妻熟妇| 美腿丝av综合伊人网| 国产成人AV| 曰曰夜夜操操| 久久99精品免费视频| 韩国成人一二区福利| 兴仁县| 超碰自碰| аⅴ中文在线天堂| xxxxx一区| 欧美裸体男粗大1609| 中文无码在线二区| 亚洲熟女蜜臀精品二区| 亚洲精品一级在线观看| 在线免费av一牛影视| 白玉县| 小嫩苞视频在线观看| 婷婷五月综合亚洲小说| 欧美日韩一区二区三区在线观看视频 | 免费α视频|