消除繁體中文缺字的困擾

2022-03-15 09:32:07.0

分類: Font Technology

流行音樂創作歌手陶喆,常看到他的名字是用「陶吉吉」的方式顯示,而非直接寫出「喆」,為什麼有一些字型「喆」呈現不出來?必須用兩個吉來表示呢? 

繁體中文最常使用的字體規格為Big5-2003(大五碼),共收錄13,060個漢字。但是,身處數位時代的使用者,文字的使用大多透過輸入法的方式呈現在軟體上,有時候有可能是因為使用者輸入文字時,選字錯誤,積非成是,有時候也有可能是當下標新立異,選型不選字,取「意」不取「義」,透過輸入法輸入、貼文複製,而用到非Big5字集的字元,而造成缺字的情形。

為了降低使用者用字缺字的機率,文鼎字型以現有Big5-2003字集為基礎,參考教育部字頻總表、中研院現代漢語語料庫詞頻統計、網路流行用字以及行銷與客戶服務所累積的資訊,彙整389個漢字,整合成Big5_AR 2021規格。新增收錄於Big5_AR 2021規格的字元,包含塵蟎的「蟎」、擀麵的「擀」、尊稱神明的「祢」、峰的異體字「峯」以及双、堃、宝、峯、崐、彣、喆、雫、邨……。



文鼎字型已著手規劃,挑選經典、熱銷的字型產品逐步更新為Big5_AR 2021規格,目前已經更新至此規格的字型產品有:文鼎書苑宋體、文鼎書苑黑體、文鼎簽字筆體、文鼎DC蔡燊軒行書體; iFontCloud文鼎雲字庫字體租賃服務的客戶,已下載啟用這些字型的使用者,在租賃期間,字檔會透過字庫管理工具自動地做檔案更新,若您是第一次下載啟用,則會直接取得最新字型檔案。未來,文鼎字型所開發的新產品,也會依此規格做產品化。


Font Technology

GB18030中文編碼字符集

GB18030是中國大陸規範的的漢字編碼字符集標準,GB 18030-2005共收錄漢字70,244個。

目前GB18030有GB18030-2000 及GB18030-2005兩個版本,2000年發佈的GB18030-2000,全名是《信息技術 漢字編碼字符集 基本集的擴充》。GB18030-2000僅規定了常用非漢字符號和27,533個漢字(包括部首、部件等)的編碼,GB18030-2000是一個強制性的標準,市場上銷售的產品用字必須符合其規範。而2005年發佈的GB18030-2005在GB18030-2000的基礎上增加了42,711個漢字和多種中國少數民族文字的編碼,增加的這些內容是推薦性質,無強制規範。

簡要來說,目前若提到GB18030規格的產品,其對應的標準為GB18030-2005,其中27,533個漢字為基本必要的強制規範範圍。

 

什麼時候需要使用到GB18030字集的字體/ GB18030字集的使用範圍

由於GB18030字集的字元數多達兩萬多字,一般來說,在簡體中文的使用情境,基本的GB2312規格已經足夠使用,但在需要顯示中文姓氏、人名、地名等情況時,由於中文漢字的特性,在上述情況可會出現罕用字的使用,這時候就需要使用GB18030字集的字體來做排版,避免出現缺漏字的情況。

2005年11月發佈的GB 18030-2005版本中文編碼字符集,已要求各種電腦作業系統、字型產品、輸入法、應用軟體、及內建嵌入式系統的3C電子、通信設備,如Smart Phone、Tablet、印表機等周邊設備,要支援GB 18030字集。

 

 

中國大陸編碼標準的演進

1980年頒佈了第一個漢字編碼字元集標準,為GB 2312-80《資訊交換用漢字編碼字符集基本集》。此標準總共定義8,836個碼位,收納了6,763個漢字及682個常用符號,總共有7,445個字元。此規格在早期幾乎是唯一的標準,即使到目前為止,在中國大陸也是電腦系統、軟體及各種設備使用最廣泛的中文編碼標準。

1995年中國全國信息技術標準化技術委員會公佈了【漢字內碼擴展規範(GBK)】, GBK(K是"擴展"的漢語拼音第一個字母),總共定義23,940個碼位,收錄了21,003個漢字與884個符號共21,887個字元。

2000年國際標準組織ISO又公佈了ISO 10646-1:2000(Unicode 3.0),主要是增加中日韓統一漢字Extension A的6,582個字元。大陸的GBK規格已無法容納新增的字元,因此GB18030-2000編碼標準就在原來的 GB2312-1980 編碼標準和 GBK 編碼標準的基礎上進行擴充。

 

字型產品與GB 18030的關係

中國政府對中文字型,尤其是簡體中文字型,訂定有國家檢測認證的標準,尤其是最常使用的4種造型字型:宋、仿、楷、黑,要求使用字型於產品顯示的3C通信、資訊、電子等廠商,必須使用政府認證的字型。一般常用的點陣字型(Bitmap Font),如12x12、16x16、32x32、 …等等,都有強制性標準。也就是說要向大陸官方購買取得公司使用授權,再將字型載入嵌入式系統產品上,如手機,電子字典、印表機等,這些產品才能銷售到大陸。

大陸對於向量字型的規範,採取審查核准使用的方式,簡體中文字體的認證,由中國政府的信標委及CESI (中國電子技術標準化研究所)負責,中國政府為避免各家字型公司,所開發的簡體字型品質不一,由中國官方特別指定的認證單位,訂定規範、製作、授權標準,針對在大陸地區使用之簡體字型之完整性、正確性、規範性、風格一致性、結構合理性等進行審核。因此,在中國所有使用於3C通信、資訊、電子等產品上之簡體中文字型,都必需是取得CESI認證的字型。因此對於採用TTF等向量字型的裝置設備,例如智慧手機、平板電腦、DTV/STB…等,就可以使用向量字型來取代需官方授權的點陣字型。

目前為止,文鼎已有11套字型取得CESI認證規範,分別是五套GB18030字集,六套GB2312字集,字型清單如下:

項次

字集

文鼎中文字型

1

GB18030

文鼎報宋二

2

文鼎中楷

3

文鼎晶栩楷體

4

文鼎晶栩黑體

5

文鼎UD晶熙黑體

6

GB2312

文鼎UD晶熙黑體

7

文鼎粗黑

8

文鼎書林黑_L

9

文鼎書林黑_M

10

文鼎Mobile中黑

11

文鼎书苑黑体B

 

總結

在中國市場銷售3C電子、通信產品的國內外廠商,都已了解要進入中國市場,無論是軟體產品或硬體產品,必須採用中國政府標準規範的GB18030中文編碼字符集,及使用中國政府認證的中文字型產品才能順利做銷售。文鼎字型可以提供認證的GB18030字型,授權給3C電子、通信廠商,做產品設計、製造及銷售,將字型內嵌於產品中,廠商不但不用擔心符合規範的問題,又可以取得功能上與成本上無可取代的優勢。

 

 
 
 
 
 
 
 
 

 

 

Font Technology

從名稱認識文鼎可變式字型

可變式字型(Variable Fonts)是OpenType字體格式的一種,這種字型格式可支援字重(weight)、寬度(width)、傾斜(slant, italic)、光學尺寸視覺調整(Optical size)等可變屬性的定義,使用者在應用時可以立即變化出一套字體家族的不同樣式。

可變式字型的特色在於可隨使用者的設定或是依應用程式的自動判斷,變化出將近無限種的字體屬性組合。只需要一個字型檔案,就可以無間段調整該字型提供的字重、字寬或對比等可變屬性,讓設計師用字的創意不再受侷限,同時也減少了龐大字體家族所需要的大量記憶體空間。

從字體名稱認識文鼎可變式字型

繁體中文字體名稱:

文鼎VF晶熙黑體_WrW / AR VF JXHeiB5 WrW

範例說明:

可變式字體 + 字體名稱 + 字集 + 變數軸

繁體中文的晶熙黑可變式字體,包含字重、字寬兩個變數軸

 

※軸代碼定義

Wl, Wr, Wu: 字重(weight)軸的極細段(light), 中間段(regular), 極粗段(ultra)

W: 字寬(width)軸

C: 對比(contrast)軸

G: 中宮(zhong gong)軸

H: 字高(height)軸

O: 光學尺寸視覺調整(optical size)軸(微字型, 標誌用字濃淡度調整)

S: 樣式(style)軸

 

字重字寬變數軸示意圖

以文鼎UD晶熙黑體可變式字體為例:

在設計品質考量下,包含字重、字寬兩個變數軸的「文鼎VF晶熙黑體_WrW」,可在字重Medium至Heavy,標準字寬至80%字寬 (Condense 80)範圍內無間斷調整。

而一個變數軸的文鼎VF晶熙黑體_Wl、文鼎VF晶熙黑體_Wr、文鼎VF晶熙黑體_Wu是做字重無間斷的調整。

Font Technology

units per em

字體設計的工程規格中,有個較少被人提及的專有名詞「UPM」,UPM全名為units per em。Em為字體設計上的一個單位,傳統上,em指的是活字印刷鉛字字身的高度;在現今數位字體設計上,EM化身一個虛擬的數位畫布,依字體設計的精細度需要,畫分出一個座標系統網格,這個座標系統大小的設定值最常見的是1000或2048,這個設定值,就稱為units per em,它決定了字體座標網格的粒度大小。


關於UPM數值的設定,基於TrueType和OpenType TT的字體,UPM的設定值通常為2048,而OpenType PS字體UPM的設定值通常為1000,但是也有設為256或512的情況發生,這樣主要是為了達到降低字體檔案的資料量或在特殊情境所需要的設定。

這些UPM設定值的大小除了與字體應用情境搭配外,在字體品質會有差異嗎?

我們以下方的圖例做說明,我們若將這三個圖形視為「點」來看,右方的點是基於UPM 256的設計,而左方的點是以UPM 2048作設計,我們可以看出兩者都有達到一般所認知「點」的概念,但若前提是「圓點」、「正圓」,那麼就一定是左方UPM 2048所設計的圖形才能符合標準。

也就是說,UPM值設定的越高,可以獲得更多包含曲線、造型等的設計細節,反過來說,若我們想要設計一款具備高品質、有細膩曲線描繪的字體產品,在UPM就會需要相對較高的設定值。

以中文字體產品來說,無論是TrueType或OpenType PS的字體,目前大多數的UPM設定都以1000為主,這是一個在產品品質與檔案量大小可以取得平衡的設定。