2023年4月,一條“奇葩”熱搜吸引了許多網(wǎng)友的目光——#因姓氏太罕見全村集體改姓鴨#。云南省永勝縣的“nia”姓引起一片驚嘆:“原來還有這個讀音的字?”“好神奇,好浪漫的姓氏”。
這個姓氏代表了傈僳族的氏族文化傳統(tǒng),卻因太過生僻給使用者帶來種種不便,改為“鴨”實為無奈之舉。這樣的事也絕非孤例:“(龍?zhí)?”“??(由頁)”“韡(韋華)”“??(王樂)”……這些不算常見的字,或是家族的姓氏傳承,或表達了父母的美好祝愿。它們的使用者,卻因生僻字不被信息系統(tǒng)接受,而在信息世界中“寸步難行”。
名字里的問號——現(xiàn)實的困擾
姓氏、名字有個生僻字,生活中會遇到多少麻煩?
“我中考高考的準(zhǔn)考證都打不出第三個字,我的所有證書、證件和檔案,名字第三個字都是缺失的。學(xué)籍系統(tǒng)打不出我的全名,我孩子的學(xué)籍信息上,母親姓名一欄有代替的符號。”
“我以前的銀行卡都是用拼音跟各種符號辦理的。有一年辦理退稅需要實名銀行卡,辦理實名銀行卡又需要實名手機卡,在幾家公司都辦不了實名手機卡,死循環(huán)了。”
“各大醫(yī)院網(wǎng)絡(luò)掛號系統(tǒng)用的字庫不同,有些醫(yī)院可以認證通過,有些不行,最后只能去窗口掛號。還會因?qū)嵜J證不通過做不了檢查。”
在一個 “姓名生僻字交流群”里,群友們打開了話匣子,迫不及待地傾訴著。
一位名字里帶“??”的群友講述了她與名字生僻字的“恩怨糾葛”。家人從李白《秋夜于安府送孟贊府兄還都序》“鴻??鳳立,不循常流”中選了這個字為她取名,期望她追求卓越,如鳥一般展翅高飛。
隨之而來的煩惱卻數(shù)不勝數(shù):公司發(fā)放工資的系統(tǒng)不識別這個字,發(fā)不出工資;微信經(jīng)常觸發(fā)“需要上傳身份證件”,因身份證姓名無法識別,又需要反復(fù)人工認證。公積金問題則是最麻煩的,“我曾在3家公司就職,每個公司在上報公積金時留了不同的名字寫法,所以存在多個公積金賬戶。我聯(lián)系了好幾位HR,無數(shù)次聯(lián)系公積金辦事處柜臺,終于合并到了一個賬戶。目前能存入了,但還不確定能否取出。”
當(dāng)實名認證、網(wǎng)上辦事為人們提供更多便利,“名字無法輸入、識別和顯示”卻成為攔路虎。生僻字使用者無法享受到信息化帶來的好處,反而在生活中被處處掣肘:有時他們花費更長時間,走“人工通道”解決問題,有時則被徹底斷絕了使用某些服務(wù)的可能。
生僻字——有解的難題
2022年8月,國家發(fā)布了強制性國家標(biāo)準(zhǔn)《信息技術(shù) 中文編碼字符集》(GB18030-2022),并已經(jīng)于今年8月正式開始實施。該標(biāo)準(zhǔn)收錄了88115個漢字,覆蓋我國絕大部分人名、地名用生僻字以及文獻、科技等專業(yè)領(lǐng)域的用字。落實這項強制性國家標(biāo)準(zhǔn),能夠解決目前最急切的生僻字問題。
GB18030-2022是一項漢字編碼標(biāo)準(zhǔn),比前一版本新增了1.7萬個漢字,它為每個漢字確定了唯一的編碼,算是為它們“上了戶口”。
中國科學(xué)院軟件研究所時空數(shù)據(jù)管理與數(shù)據(jù)科學(xué)研究中心高級工程師劉匯丹介紹說,漢字信息化的原理大致為:用戶在輸入法選中漢字,操作系統(tǒng)根據(jù)漢字編碼在字庫中找到它的字形,在顯示屏上“畫”出來。此前無法正常使用的生僻字,可能是因為在當(dāng)時的編碼系統(tǒng)中沒有容身之所,無法輸入、存儲和輸出。
北京北大方正電子有限公司是參與起草GB18030-2022的單位之一。據(jù)方正字庫總經(jīng)理張建國介紹,通過《通用規(guī)范漢字表》補充的漢字,一部分就是為了解決人名生僻字問題。“‘??’,有美好的意思,有的家長會給孩子起這個名字,還有女孩子起得比較多的‘??’,還有‘??’,這些字在新的2022版標(biāo)準(zhǔn)里都擴充進來了。”
關(guān)于批準(zhǔn)發(fā)布《信息技術(shù) 中文編碼字符集》等2項強制性國家標(biāo)準(zhǔn)的公告,圖源:全國標(biāo)準(zhǔn)信息公共服務(wù)平臺
GB18030-2022是一項強制性國家標(biāo)準(zhǔn)。根據(jù)《中華人民共和國標(biāo)準(zhǔn)化法》有關(guān)規(guī)定,強制性標(biāo)準(zhǔn)必須執(zhí)行;我國境內(nèi)生產(chǎn)、銷售、進口、提供的所有具備中文信息處理和交換功能的技術(shù)類產(chǎn)品,均應(yīng)符合標(biāo)準(zhǔn)的要求。
標(biāo)準(zhǔn)中還寫明“用于政務(wù)服務(wù)和公共服務(wù)的產(chǎn)品應(yīng)滿足實現(xiàn)級別3的要求”,即相關(guān)行業(yè)產(chǎn)品須支持文件規(guī)定的全部漢字。依規(guī)落實標(biāo)準(zhǔn)要求,能夠針對性地解決姓名生僻字人群辦事難題,讓技術(shù)成果真正惠及人民群眾。
積弊沉疴——復(fù)雜的現(xiàn)狀
問題理應(yīng)解決了,但現(xiàn)實并非如此。
劉匯丹長期關(guān)注生僻字問題,他是“姓名生僻字處理平臺”的發(fā)起者,也是“姓名生僻字交流群”群主,目前兩個大群里共有六七百人。
第一次了解到生僻字群體的困難時,劉匯丹十分詫異:“技術(shù)上,我們做了很多年漢字和少數(shù)民族語言信息處理的工作,沒有想到還有因為生僻字在日常生活遇到困難的人。”
這反映了真切的現(xiàn)狀:問題的難點不在技術(shù)本身,而在應(yīng)用與推廣。在交流群的老成員文辰看來,解決問題的核心是身份證和人口信息管理系統(tǒng)。當(dāng)這二者與其他服務(wù)系統(tǒng)都采用強制性國家標(biāo)準(zhǔn)漢字編碼,才能實現(xiàn)生僻字在不同領(lǐng)域的互聯(lián)互通。
新標(biāo)準(zhǔn)發(fā)布之前,人名中的生僻字以不規(guī)范的編碼形式儲存在系統(tǒng)中,即“PUA編碼”。過去使用PUA編碼字,是存儲生僻字的一時之策;它不同于國家強制性標(biāo)準(zhǔn)規(guī)定的漢字編碼系統(tǒng),無法用現(xiàn)在的輸入法打出,會在新系統(tǒng)顯示為空格、星號或問號。
早該退出歷史舞臺的PUA編碼字,卻仍廣泛存在。若不專門在派出所進行更名手續(xù),并更換身份證,就無法將PUA編碼字修改為新標(biāo)準(zhǔn)的正式編碼。實名認證時打出的正式編碼字,自然也無法與PUA編碼字“核驗一致”。
“有時我們知道PUA碼的問題,想主動去換證,依然換不了”,文辰介紹了交流群中一些成員的經(jīng)歷。有時基層派出所沒有升級到符合國家標(biāo)準(zhǔn)的字庫,正式編碼字在基層窗口無法顯示。有時問題出現(xiàn)在上一級制證中心,“字庫沒升級,正式碼的數(shù)據(jù)在制證中心那兒顯示不出來,總不能制證時寫個框框。所以有‘好心人’又手動給它改成PUA編碼,把身份證給制出來。”說到這里,他忍不住無奈地笑出聲。
其他服務(wù)系統(tǒng)也存在編碼不規(guī)范的情況。以“全國專業(yè)技術(shù)人員資格考試報名服務(wù)平臺”網(wǎng)站為例:注冊頁面與考試信息填報系統(tǒng),在“考生姓名”一欄設(shè)置了“生僻字輸入”按鈕。這展現(xiàn)了對生僻字使用者的關(guān)懷,表現(xiàn)出較強的服務(wù)意識。但網(wǎng)站生成的生僻字卻暗含玄機。
全國專業(yè)技術(shù)人員資格考試報名服務(wù)平臺的生僻字輸入界面
將平臺上通過“生僻字輸入”生成的“”復(fù)制到電腦文檔中,顯示為空白;通過快捷鍵轉(zhuǎn)換“空格”的編碼,也與正式編碼不一致。它所生成的考試信息、證件信息是否能與使用正式碼的實名系統(tǒng)“互認”?尚不得而知。
還有許多服務(wù)系統(tǒng)采用的仍是1995年的“GBK”編碼,僅包含21003個漢字,早已不能滿足當(dāng)下的需求。有的系統(tǒng)用各種PUA編碼“縫縫補補”,在表面上滿足生僻字使用者的需求。實際上,相同字形背后,不同的漢字編碼無法互認,必然導(dǎo)致核驗失敗。
現(xiàn)實生活中,“GBK+PUA”的編碼組合已經(jīng)應(yīng)用得太久、太廣,根除不合標(biāo)文字編碼的“后遺癥”,還有很長的路要走。
漢字編碼規(guī)范化——共同的期待
交流群成員們在實際體驗中產(chǎn)生了共識:金融行業(yè)是目前對生僻字問題處理最好的行業(yè)。
早在2022年6月22日,中國人民銀行便發(fā)布了《金融服務(wù) 生僻字處理指南》。按照指南要求,生僻字的輸入支持范圍能夠滿足目前對人名、地名生僻字的使用需求,并尤其重視對PUA編碼漢字的處理。
有知情人士透露:“招商銀行、中信銀行、中國工商銀行已基本改好了,有的銀行還在進行中。之前有銀行因為生僻字支持問題收到中國人民銀行科技司發(fā)的整改函,整改進度很快。”
交流群中有幾位不同銀行的技術(shù)人員,會幫忙解決具體問題。“即使頂層設(shè)計做好了,末梢也可能傳導(dǎo)不到??傂械交鶎邮沁b遠的過程,銀行的老師在群里幫忙,是把它扁平化,直接觸達一線用戶,”文辰說。當(dāng)核心系統(tǒng)更新完畢,基層的服務(wù)窗口只需現(xiàn)場下載升級,此前的困難便迎刃而解。
自強制性國家標(biāo)準(zhǔn)GB18030-2022發(fā)布以來,不少公司企業(yè)積極響應(yīng),根據(jù)要求做相應(yīng)升級。
根據(jù)全國信標(biāo)委字符集與編碼分委會發(fā)布的《信息技術(shù)生僻字處理指南》,目前提供生僻字商業(yè)字庫的廠商包括中國電子技術(shù)標(biāo)準(zhǔn)化研究院、方正電子、漢儀、卓瑪之裕等。支持生僻字的輸入法包括騰訊搜狗輸入法、卓碼輸入法、方正超大字庫輸入法、百度輸入法等。
北京北大方正電子有限公司將28款字形做了升級,而“方正人口信息字庫軟件及其輸入法軟件”則依規(guī)升級到包含標(biāo)準(zhǔn)內(nèi)所有漢字。
張建國介紹,“方正一直在跟蹤解決生僻字問題,我們一直參與國家標(biāo)準(zhǔn)的制定工作,所以標(biāo)準(zhǔn)一升級,我們就會盡快去做方案的升級改造。”
他也關(guān)注到了金融行業(yè)在生僻字處理方面的成果,這讓他看到了問題的出路:“我們比較樂觀。只要大家重視這個事情,特別是管理部門,如果像人民銀行這樣發(fā)文去要求,推進的速度就會加快。”
劉匯丹則跟進了生僻字問題的最新情況。作為GB18030-2022第1號修改單工作組成員,他介紹道,國際標(biāo)準(zhǔn)中新增的漢字,與“公安人口信息專用字庫補充漢字”都會作為修改單的一部分,被補充到強制性國家標(biāo)準(zhǔn)中。
在克服生僻字困難的道路上,不同身份、不同行業(yè)的人們都在盡自己的一份力。
對于文辰等生僻字使用者來說,最大的訴求是“信息無障礙”。當(dāng)生僻字問題得到系統(tǒng)性解決,他們可以毫無阻礙地用自己的名字辦理各種事務(wù),無需擔(dān)心自己被某項服務(wù)拒之門外,也無需花費額外的時間、精力“特事特辦”。
對于劉匯丹、張建國等行業(yè)從業(yè)者來說,解決生僻字問題還包含一種特殊的責(zé)任。漢字是中華文化的重要載體,對漢字的規(guī)范收錄也意味著對中華傳統(tǒng)文化的“尋回”。隨著漢字信息化水平提升,中華古籍中的文字內(nèi)容,地名、人名中保留的歷史信息,都能得到更好的傳承和保護。