新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

從哲學(xué)概念到科技概念,再到經(jīng)濟(jì)概念,Token的前世今生

導(dǎo)語(yǔ):當(dāng)主流模型皆以Token計(jì)費(fèi)、企業(yè)設(shè)立專門Token預(yù)算、政府政策文件也寫入“詞元交易”時(shí),Token正成為無(wú)需爭(zhēng)論的新經(jīng)濟(jì)單位。

圖片

王劍/作者  礪石商業(yè)評(píng)論/出品

2026年3月,發(fā)生了兩件看似不相關(guān)的事。

英偉達(dá)CEO黃仁勛在GTC大會(huì)上預(yù)測(cè),公司到2027年的營(yíng)收將至少達(dá)到1萬(wàn)億美元。

演講中,他還順手將數(shù)據(jù)中心重新定義,介紹“那是生產(chǎn)AI智能Token的工廠”。

而同一個(gè)月,中國(guó)國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏在中國(guó)發(fā)展高層論壇上發(fā)言時(shí)說(shuō),“Token不僅是智能時(shí)代的價(jià)值錨點(diǎn),更是連接技術(shù)供給與商業(yè)需求的結(jié)算單位”。

并且,他代表官方給“Token”定下了中文譯名:“詞元”。

一位是全球最大芯片公司的掌舵人,一位是中國(guó)數(shù)據(jù)領(lǐng)域的最高主管官員,卻用幾乎一致的口吻,將Token描述為了一個(gè)經(jīng)濟(jì)單位。

那么,如今火爆全球,甚至有可能成為新時(shí)代的貨幣的Token,究竟是什么?

1

什么是Token?

1906年,美國(guó)哲學(xué)家Charles Sanders Peirce(查爾斯·桑德斯·皮爾士)正在琢磨一個(gè)看似簡(jiǎn)單的問(wèn)題:一頁(yè)書上印了20個(gè)“the”,這到底算是一個(gè)詞,還是20個(gè)不同的詞?

這并非是皮爾士心血來(lái)潮,故意在咬文嚼字。

作為哲學(xué)家,他認(rèn)為那個(gè)作為抽象概念的“the”,其實(shí)代表了一種普遍的規(guī)則或形式。

對(duì)此,他稱其為“類型”(Type);而書中每一個(gè)具體可見(jiàn)的“the”,則是這個(gè)類型的一次具體呈現(xiàn),可以叫做“實(shí)例”(Token)。

也就是說(shuō),20個(gè)“the”是同一個(gè)“類型”的20個(gè)不同“實(shí)例”。

他就此指出:“類型(Type)本身并不存在,但它卻決定了哪些具體的東西能夠存在。”

這個(gè)看似玄奧的觀念在哲學(xué)圈流傳了很久,但當(dāng)時(shí)沒(méi)人想到,它未來(lái)會(huì)和計(jì)算機(jī)產(chǎn)生什么關(guān)聯(lián)。

直到1936年,哈佛大學(xué)的語(yǔ)言學(xué)家喬治·齊普夫在研究詞頻時(shí),再次對(duì)Token進(jìn)行了數(shù)學(xué)上的解釋。

彼時(shí),齊普夫在對(duì)各種語(yǔ)言中詞頻的統(tǒng)計(jì)時(shí),發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:一個(gè)詞的排位和它詞頻的乘積,幾乎是一個(gè)常數(shù)。舉個(gè)例子,在漢語(yǔ)中,“的”是最常用的字,排第一,它的字頻大約是6%。

這時(shí),排名(1)乘以字頻(6%)約等于6%。

接下來(lái),排第二的字是“是”,它的字頻約3%,2乘以3%也約等于6%;然后是排第三的字“一”,字頻約2%,3乘以2%同樣約等于6%。

可以看到,這里的排序和字頻的乘積近似為一個(gè)常數(shù)。

因此,排第一的“的”的字頻大約是排第二的“是”的兩倍,更是排第三的“一”的三倍。

這種“頻率與排名成反比”的規(guī)律,后來(lái)被命名為“齊普夫定律(Zipf's law)”。

誰(shuí)也沒(méi)想到,這個(gè)看似枯燥的數(shù)學(xué)理論,會(huì)在三十年后,成為計(jì)算機(jī)語(yǔ)言處理的一項(xiàng)重要理論基礎(chǔ)。

時(shí)間來(lái)到1960年代,“Token”的概念終于在計(jì)算機(jī)世界得到了應(yīng)用。

比如,當(dāng)程序員寫下int x = 5;這樣的代碼時(shí),早期的計(jì)算機(jī)會(huì)像一個(gè)認(rèn)真的“語(yǔ)法拆解員”,從頭到尾把這串字符逐個(gè)拆開(kāi)理解。

在此過(guò)程中,計(jì)算機(jī)先認(rèn)出“int”是一個(gè)表示整數(shù)類型的關(guān)鍵詞,接著把“x”標(biāo)記為一個(gè)變量名稱,之后看到“=”是賦值符號(hào),最后的“5”則被識(shí)別為一個(gè)具體的數(shù)字值。

而每一個(gè)這樣被識(shí)別出來(lái)、并貼上明確含義標(biāo)簽的獨(dú)立單元,就是一個(gè)Token。

如此一來(lái),Token終于完成了從人文概念到機(jī)器語(yǔ)言的轉(zhuǎn)身,成為了計(jì)算機(jī)“讀懂”指令和信息的基本單位。

圖片

從默默支撐數(shù)字世界的語(yǔ)法基石,到后來(lái)被賦予全新的價(jià)值與共識(shí),Token的含義仍在不斷延伸。

2017年,隨著區(qū)塊鏈與ICO熱潮的興起,冷門的Token也因披上了“數(shù)字代幣”的華麗外衣,被世人逐漸熟知。

盡管那輪熱潮逐漸冷卻,許多項(xiàng)目悄然退場(chǎng),但Token這個(gè)概念卻穩(wěn)穩(wěn)地留了下來(lái)。

它不再只是一個(gè)技術(shù)名詞,而是帶著“可流通的數(shù)字權(quán)益憑證”這層新身份再次被人提及。

可以說(shuō),無(wú)論身處什么樣的背景,Token的核心始終是:把復(fù)雜事物標(biāo)準(zhǔn)化,變成系統(tǒng)可識(shí)別、可處理、可流轉(zhuǎn)的最小單元。

也正是這個(gè)貫穿始終的基因,才使得在大規(guī)模語(yǔ)言模型崛起的今天,Token成為了人機(jī)交互中最基礎(chǔ)、也是最重要的“語(yǔ)言單元”。

那么,當(dāng)AI面對(duì)人類語(yǔ)言時(shí),又是如何運(yùn)用這把“尺子”來(lái)學(xué)會(huì)“理解”與“思考”的呢?

2

AI學(xué)會(huì)思考的底層邏輯

我們首先要厘清,AI理解人類的指令,并非只是我們想象中的“閱讀”或“推理”,而是一次精準(zhǔn)的“外科手術(shù)”——“切割”。

這意味著,你輸入的任何一句話,AI都會(huì)做一次精密的“拆解手術(shù)”。

在指令發(fā)出后,所有文字都會(huì)被切割成一系列Token碎片,隨即轉(zhuǎn)化為計(jì)算機(jī)數(shù)據(jù)。

換句話說(shuō),AI模型所有的“思考”與“推理”,其實(shí)都是在這些數(shù)字的復(fù)雜運(yùn)算中完成,再“翻譯”成人們能讀懂的語(yǔ)言。

這聽(tīng)起來(lái)簡(jiǎn)單,實(shí)際操作卻異常復(fù)雜。

比如,最常見(jiàn)的就是AI的歧義困境。

舉個(gè)例子,“羽毛球拍賣了多少錢”這句話,AI模型想理解的話,究竟是該在“羽毛球拍”后斷開(kāi),還是在“拍賣”后斷開(kāi)?

前者是體育用品詢價(jià),后者卻變成賽事競(jìng)拍,語(yǔ)義天差地別,AI僅憑字符根本無(wú)法判斷。

所以,指令該“切什么、怎么切”,就成為AI最底層的核心問(wèn)題。

更麻煩的是,如果某個(gè)詞從未在訓(xùn)練數(shù)據(jù)中出現(xiàn),模型便無(wú)法識(shí)別,只能標(biāo)記為“未知”跳過(guò),意味著系統(tǒng)出現(xiàn)了一個(gè)BUG(漏洞)。

因此,如何讓AI模型既能處理歧義,又能“認(rèn)出”從未見(jiàn)過(guò)的字詞組合,成為困擾計(jì)算機(jī)語(yǔ)言處理領(lǐng)域多年的難題。

而這個(gè)難題被克服,則來(lái)自一篇被遺忘多年的技術(shù)論文。

1994年,美國(guó)程序員Philip Gage(菲利普·蓋奇)在一本C語(yǔ)言技術(shù)雜志上發(fā)表文章,介紹了一種名為BPE(字節(jié)對(duì)編碼)的壓縮算法。

蓋奇的思路很簡(jiǎn)單,即通過(guò)反復(fù)掃描文本,把最常相鄰出現(xiàn)的兩個(gè)字符(如"th")焊成新符號(hào),一輪輪迭代壓縮。

經(jīng)過(guò)反復(fù)迭代后,常用詞組會(huì)越壓越小,解壓端只需保存這張“打包對(duì)照表”即可,讓整個(gè)程序的體積變得極小。

然而,因其壓縮效率并不突出,業(yè)內(nèi)并沒(méi)人關(guān)心幾KB內(nèi)存的變化,因此這個(gè)算法在當(dāng)時(shí)并未引起太大關(guān)注。

這篇論文很快被人遺忘,這一忘就是22年。

直到2016年,愛(ài)丁堡大學(xué)的研究員里Rico Sennrich(科·森里希)在研究機(jī)器翻譯的分詞難題時(shí),偶然檢索出了這篇舊文。

他敏銳地意識(shí)到,BPE這種基于頻率的合并策略,恰好是分詞的絕佳方案:無(wú)需預(yù)先定義詞典,完全讓數(shù)據(jù)自己“說(shuō)話”,高頻組合就像滾雪球一樣,逐漸凝結(jié)成Token。

如此一來(lái),即使面對(duì)“未見(jiàn)過(guò)”的生僻詞,計(jì)算機(jī)語(yǔ)言也能將其拆解為更細(xì)致的字節(jié),從而徹底規(guī)避了“未知”困境。

圖片

2019年,OpenAI在發(fā)布GPT-2時(shí),也是借用了這個(gè)概念。

研發(fā)團(tuán)隊(duì)將分詞起點(diǎn)直接設(shè)定在“字節(jié)”——計(jì)算機(jī)存儲(chǔ)的最小單元,從底層統(tǒng)一了所有語(yǔ)言的表示方式,從而使模型理論上能夠處理任何語(yǔ)言文字。

一篇塵封二十余年的短文,就此成為驅(qū)動(dòng)萬(wàn)億級(jí)AI產(chǎn)業(yè)的底層邏輯之一。

這個(gè)結(jié)果,恐怕連蓋奇本人也未曾料到。

然而,當(dāng)這種“處理一切文字”的能力與效率至上的算法結(jié)合時(shí),一種全新的“算法霸權(quán)”悄然出現(xiàn)。

3

算法與編碼霸權(quán)

如今AI所用的這套分詞方法,表面上看很“公平”:哪種語(yǔ)言用得多,處理起來(lái)就更高效、更完整;用得少的語(yǔ)言,就會(huì)被切得比較零碎,處理起來(lái)也更“費(fèi)勁”。

可這種效率至上的“公平”,卻悄悄地把全世界的語(yǔ)言分成了兩種待遇:有的語(yǔ)言是“快速通道”,有的卻像走在碎石路上。

簡(jiǎn)單來(lái)說(shuō),由于BPE算法的核心邏輯是“頻率優(yōu)先”,哪種語(yǔ)言最常見(jiàn),那么相關(guān)詞匯就會(huì)被更高效地合并為Token。

而英語(yǔ)作為互聯(lián)網(wǎng)的絕對(duì)主流,自然是最優(yōu)先的表述語(yǔ)言,其他語(yǔ)言則只能依據(jù)其“數(shù)字能見(jiàn)度”依次排序。

因此,AI模型中實(shí)際上形成了一套隱性的“語(yǔ)言稅”體系:表達(dá)相同的意思,英文最省Token、成本最低;中文通常需要1.5~2倍;而像祖魯語(yǔ)、藏語(yǔ)等資源較少的語(yǔ)言,開(kāi)銷可達(dá)英文的5~10倍。

這意味著,在按Token計(jì)費(fèi)的規(guī)則下,使用英文與AI對(duì)話不僅更快,同等預(yù)算下能調(diào)用的算力也遠(yuǎn)多于其他語(yǔ)言。

這也不是什么新鮮事,信息時(shí)代一直如此。

從莫爾斯電碼到鍵盤設(shè)計(jì),幾乎每一次信息技術(shù)的底層變革,都會(huì)默認(rèn)為英文鋪平道路,而讓其他語(yǔ)言的使用者不得不付出額外的“轉(zhuǎn)碼”代價(jià)。

因此,Token的效率差距,只是這條歷史規(guī)律在AI時(shí)代的重演罷了。

值得警惕的是,這種“起跑線”上的不公一旦寫進(jìn)AI的初始詞表,就幾乎無(wú)法再進(jìn)行修正。

因?yàn)椋衷~規(guī)則是AI模型認(rèn)知世界的地基,大樓蓋得越高,地基就無(wú)法更換。

可喜的是,隨著中國(guó)在大模型領(lǐng)域快速進(jìn)步,即便是英文語(yǔ)料主導(dǎo)的模型,也開(kāi)始顯著優(yōu)化對(duì)中文的處理效率。

這一點(diǎn),在OpenAI的模型迭代中體現(xiàn)得非常明顯。

比如同一句中文,在GPT-3中需要38個(gè)Token,到GPT-4降為26個(gè),而GPT-5僅需15個(gè)。

說(shuō)明通過(guò)幾代GPT的演進(jìn),處理同一中文內(nèi)容所需的Token數(shù)量下降超過(guò)60%,中文的識(shí)別效率顯著提升。

圖片

而通義千問(wèn)、DeepSeek等國(guó)產(chǎn)大模型,更是從設(shè)計(jì)之初就將中文的高頻詞組、成語(yǔ)等作為原生Token納入詞表,從而在相同模型規(guī)模下,實(shí)現(xiàn)了對(duì)中文更高效、更“母語(yǔ)”級(jí)的處理。

換句話說(shuō),在AI時(shí)代,誰(shuí)掌握了“語(yǔ)義切分權(quán)”,即定義語(yǔ)言基本單元的權(quán)力,誰(shuí)就在很大程度上掌握了該語(yǔ)言在數(shù)字世界的表達(dá)效率與成本優(yōu)勢(shì)。

而這種定義Token的權(quán)力,實(shí)質(zhì)上已構(gòu)成一種數(shù)字時(shí)代的“基礎(chǔ)鑄幣權(quán)”。

其戰(zhàn)略意義,甚至不亞于掌握芯片的設(shè)計(jì)與制造。

這種效率上的差距看似是道坎,實(shí)際上更像一張門票:只要你有足夠的算力和數(shù)據(jù),完全可以不走別人的老路,自己打下最結(jié)實(shí)的地基。

而要把這種“定義語(yǔ)言基本單元”的優(yōu)勢(shì),真正變成產(chǎn)業(yè)上的話語(yǔ)權(quán),還需要一整套從能源、芯片到算力的硬支撐。

這條路上,中國(guó)恰好都站在了起跑線前。

4

中國(guó)鑄造Token硬通貨

如果要為中國(guó)在全球Token經(jīng)濟(jì)中的位置畫一條鏈路,起點(diǎn)是能源,終點(diǎn)則是全球AI服務(wù)市場(chǎng)。

不妨想象個(gè)畫面:西北戈壁的風(fēng)機(jī)將風(fēng)能轉(zhuǎn)為電力,電流又沿特高壓線路匯入數(shù)據(jù)中心;GPU再把電能轉(zhuǎn)化為算力,源源不斷生產(chǎn)出Token。

而這些數(shù)字單元最終通過(guò)海底光纜,流向全球各地,再換回以美元計(jì)價(jià)的API調(diào)用收入。

事實(shí)上,中國(guó)在這條鏈條上的體量,早已大到可以獨(dú)立成勢(shì)。

公開(kāi)數(shù)據(jù)顯示,截至2026年3月,我國(guó)日均Token調(diào)用量已達(dá)140萬(wàn)億,兩年間增長(zhǎng)超千倍。

同期全球監(jiān)測(cè)更顯示,中國(guó)大模型每周調(diào)用量已連續(xù)數(shù)周超越美國(guó),領(lǐng)先幅度超過(guò)兩倍,穩(wěn)居全球首位。

那么,中國(guó)的Token經(jīng)濟(jì)為何這么強(qiáng)?

這要從成本說(shuō)起,但最關(guān)鍵的變量是電價(jià)。

圖片

在貴州、云南等水電豐富的地區(qū),以及甘肅、新疆等風(fēng)光資源充沛的省份,工業(yè)用電價(jià)格長(zhǎng)期處于低位。專門供給算力中心的綠色電力,部分地方甚至低至每度電0.15元。

反觀歐美大部分地區(qū),工業(yè)電價(jià)普遍是中國(guó)的數(shù)倍甚至更高。

舉個(gè)例子,生成100萬(wàn)個(gè)Token大約需消耗15到20度電。如果按中國(guó)西北的低價(jià)綠電計(jì)算,成本僅數(shù)元人民幣;而同樣的計(jì)算任務(wù),在國(guó)際市場(chǎng)上對(duì)應(yīng)的電價(jià)則通常在60到200美元之間。

這樣一比,中國(guó)憑借在能源與算力成本上的優(yōu)勢(shì),構(gòu)筑了一條從“電”到“Token”的成本護(hù)城河。

更關(guān)鍵的是,中國(guó)將大量難以被完全消納的綠色電力,與持續(xù)爆發(fā)的算力需求精準(zhǔn)對(duì)接,形成了獨(dú)特的產(chǎn)業(yè)閉環(huán)。

2025年,中國(guó)全年發(fā)電量突破10萬(wàn)億度,占全球總量近三分之一。

其中,風(fēng)電、光伏等新能源曾因儲(chǔ)能不足、外送受限而產(chǎn)生明顯的“棄風(fēng)棄光”現(xiàn)象。

而數(shù)據(jù)中心作為可調(diào)節(jié)的負(fù)荷大戶,可以在風(fēng)光發(fā)電高峰時(shí)段提升運(yùn)行負(fù)荷,高效消納這些原本被浪費(fèi)的綠色電力。

這樣一來(lái),不僅降低了用能成本,也提升了能源利用效率,構(gòu)成了其他國(guó)家難以復(fù)制的系統(tǒng)性優(yōu)勢(shì)。

近年來(lái)推行的“東數(shù)西算”工程,更是將這一邏輯提升至國(guó)家戰(zhàn)略層面,引導(dǎo)數(shù)據(jù)中心向貴州、內(nèi)蒙古、寧夏等可再生能源富集地區(qū)布局。

這相當(dāng)于將算力中心直接接入“綠電插座”,將過(guò)去可能被棄用的風(fēng)電、光伏電力,高效轉(zhuǎn)化為可用的AI計(jì)算力,持續(xù)產(chǎn)出Token。

因此,這場(chǎng)AI競(jìng)賽看似是算法與模型的比拼,實(shí)則是能源轉(zhuǎn)型與數(shù)字基建深度融合的全新答卷。

而中國(guó),恰好在這條賽道上占據(jù)了交匯點(diǎn)。

與此同時(shí),隨著AI從技術(shù)探索走向產(chǎn)業(yè)深處,傳統(tǒng)制造業(yè)的質(zhì)檢排產(chǎn)、金融業(yè)務(wù)的風(fēng)控合規(guī)、政務(wù)系統(tǒng)的文書處理等場(chǎng)景,正快速成長(zhǎng)為Token消耗的新主力。

這類需求體量龐大、持續(xù)穩(wěn)定且對(duì)價(jià)格高度敏感,恰恰又與中國(guó)Token產(chǎn)業(yè)的低成本結(jié)構(gòu)高度適配,讓中國(guó)在全球Token競(jìng)爭(zhēng)中,始終占據(jù)著難以復(fù)制的供給優(yōu)勢(shì)。

正是因?yàn)橛辛藦哪茉础⑺懔Φ綄?shí)際應(yīng)用的完整支撐,Token也逐漸從純粹的技術(shù)單元,演變?yōu)榭稍跀?shù)字世界中承載和交換價(jià)值的通用載體。

這就意味著,Token完全有可能在未來(lái)成為數(shù)字經(jīng)濟(jì)的“基礎(chǔ)貨幣”。

5

當(dāng)Token成為不可替換的結(jié)算單位

回望歷史不難發(fā)現(xiàn),任何一種新計(jì)量單位最終占據(jù)主導(dǎo),靠的都不是完美,而是越用越離不開(kāi),到最后切換成本高到?jīng)]人愿意換。

而Token恰恰具備這種“一旦用上就難以離開(kāi)”的特性。

首先,是其精準(zhǔn)的可度量性。

Token天生就是AI服務(wù)的計(jì)費(fèi)單元,每一次調(diào)用都有清晰的消耗記錄,比電價(jià)更易核算,也比流量更直接對(duì)應(yīng)價(jià)值產(chǎn)出,而這一屬性從誕生之初便已根植其中。

其次,是要有可交換性。

而就在近期,國(guó)家數(shù)據(jù)局在征求意見(jiàn)稿中已首次提出“詞元交易”,探索構(gòu)建以詞元為核心的可量化、可定價(jià)數(shù)據(jù)價(jià)值體系。

這意味著,Token在國(guó)內(nèi)終于有了一個(gè)“價(jià)值標(biāo)準(zhǔn)”,不再只是技術(shù)文檔里的計(jì)量單位。

與此同時(shí),一個(gè)看似矛盾的趨勢(shì)正在發(fā)生:用戶端感受到的AI服務(wù)價(jià)格不斷下降,但上游的算力成本卻持續(xù)上漲。

比如,2025年10月至2026年3月,H100芯片年租價(jià)上漲近40%,且一卡難求;國(guó)內(nèi)外主要云廠商也在2026年初集體提價(jià)。

這背后,正是AI從“對(duì)話”轉(zhuǎn)向“自主執(zhí)行”這一結(jié)構(gòu)性轉(zhuǎn)變,推動(dòng)了算力需求的重構(gòu),也使得Token作為核心價(jià)值載體的地位愈發(fā)凸顯。

關(guān)鍵是,AI的使用方式已經(jīng)變了。

圖片

過(guò)去與AI助手聊天,一問(wèn)一答,消耗的資源很少;但現(xiàn)在,企業(yè)讓AI去自動(dòng)完成寫報(bào)告、做分析這些任務(wù),消耗的資源一次可能就是聊天的幾百倍。

當(dāng)原來(lái)按使用次數(shù)收費(fèi)的方式,已經(jīng)覆蓋不了飛速增長(zhǎng)的計(jì)算成本時(shí),漲價(jià)就成了必然,相當(dāng)于市場(chǎng)在給AI“越來(lái)越能自動(dòng)干活”這個(gè)能力,重新標(biāo)價(jià)。

Token如今的處境,其實(shí)與當(dāng)年的美元有幾分相似。

1971年美元脫離金本位之后,本質(zhì)上靠的已是“共同相信它有價(jià)值”。

它能沿用至今,根本原因在于替換它的協(xié)調(diào)成本高到難以承受——全球的貿(mào)易、金融、儲(chǔ)備體系都已圍繞它建立。

今天,同樣的邏輯又在Token身上重演。

當(dāng)主流模型皆以Token計(jì)費(fèi)、企業(yè)設(shè)立專門Token預(yù)算、政策文件也納入“詞元交易”時(shí),Token也如傳統(tǒng)貨幣那樣,因嵌入過(guò)深而難以被取代。

所以,Token是否將成為新的經(jīng)濟(jì)單位,已無(wú)需爭(zhēng)論。

真正的問(wèn)題是:誰(shuí)來(lái)定義Token經(jīng)濟(jì)的規(guī)則?誰(shuí)又在全球算力網(wǎng)絡(luò)中掌握定價(jià)的主動(dòng)權(quán)?

答案,或許正隨著每一個(gè)被生成、被交易、被消耗的Token,寫進(jìn)奔涌的數(shù)據(jù)洪流之中。

參考文獻(xiàn):

1.Peirce, C. S. (1906). Prolegomena to an Apology for Pragmaticism. The Monist, 16(4), 492–546.

2.Zipf, G. K. (1935). The Psycho-Biology of Language: An Introduction to Dynamic Philology. Houghton Mifflin.

3.Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.

4.Gage, P. (1994). A New Algorithm for Data Compression. The C Users Journal, 12(2), 23–38.

5.Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), 1715–1725. https://aclanthology.org/P16-1162

6.Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners [GPT-2 Technical Report]. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

7.Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS 2020), 33, 1877–1901. https://arxiv.org/abs/2005.14165

8.NVIDIA. (2026, March). NVIDIA GTC 2026 Keynote: Jensen Huang. NVIDIA Corporation. https://www.nvidia.com/gtc/

9.劉烈宏. (2026年3月). 在中國(guó)發(fā)展高層論壇2026年年會(huì)上的發(fā)言. 國(guó)家數(shù)據(jù)局.

10.國(guó)家數(shù)據(jù)局. (2026年4月16日). 關(guān)于推進(jìn)行業(yè)高質(zhì)量數(shù)據(jù)集建設(shè)行動(dòng)的實(shí)施方案(征求意見(jiàn)稿).

11.國(guó)家發(fā)展和改革委員會(huì). (2022年2月). 關(guān)于印發(fā)“東數(shù)西算”工程實(shí)施方案的通知. 國(guó)家發(fā)展改革委. https://www.ndrc.gov.cn

12.中國(guó)電力企業(yè)聯(lián)合會(huì). (2026年). 2025年全國(guó)電力工業(yè)統(tǒng)計(jì)快報(bào). 中電聯(lián). https://www.cec.org.cn

13.J.P. Morgan. (2025). AI & Big Data: Token Demand Outlook 2025–2030. J.P. Morgan Research.

14.IDC. (2025). China AI Agents and Autonomous Task Forecast, 2026–2031. International Data Corporation.

15.Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. arXiv preprint arXiv:2203.15556. https://arxiv.org/abs/2203.15556

16.Touvron, H., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971. https://arxiv.org/abs/2302.13971

       原文標(biāo)題 : 從哲學(xué)概念到科技概念,再到經(jīng)濟(jì)概念,Token的前世今生

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)