中文输入法:一份来自自由国度的「赠礼」

2016-10-120阅读0

  您正在阅读 OFFLINE Issue 30《被误解的内向者》,成为离线会员,您将收到每周一期电子杂志,完整阅读会员专享内容。

(点击图片了解会员详情)

  

  

中文输入法,一份来自自由国度的「赠礼」

托马斯·马拉尼

  那是 1959 年的夏天,美国急切地需要在冷战中获得一次成功。此前的 1957 年,苏联集团(the Soviet bloc)凭借 「斯普特尼克 1 号」( Sputinik 1)获得了一次重大技术胜利[1]。次年,中国在全国范围启动了「大跃进运动」。而在 1959 年春的古巴,菲尔德·卡斯特罗的游击战迫使该国总统富尔亨西奥·巴蒂斯塔流亡海外。此时此刻,美国需要重整旗鼓并向世界证明,自己仍然掌握着国际事务。按照计划,艾森豪威尔总统将要揭开世界上第一台中文计算机的面纱。

  第一台中文计算机的发明将会成为一次重大胜利,一件资本主义赠予中国人民的「礼物」。它将带来一次属于「自由世界」的技术和文化胜利,甚至意味着一项新设备的可能,它服务于中文材料译介,并把它们散播全球。那些拥有这一设备的人,可以让中文文本以前所未见的速度淹没这个世界——这可能是一项重要的宣传优势。此外,对于中文和它超过 10 亿人口的使用者们而言,中文计算机将开启一个新的信息技术时代——人们一度以为这是表音文字世界(alphabetic world)的专属——中文并非很多人声称的那样「落后」。

  在这出地缘政治剧本中心的是「Sinotype」,这台机器由「中文输入法之父」萨缪尔·考德威尔(Samuel Hawks Caldwell)设计。

  才华横溢的考德威尔 1904 年生于美国马萨诸塞州,凭借自身本领成为逻辑电路(logical circuits)先驱之前,考德威尔曾在 MIT 师从著名的模拟计算机(analog-computer)发明者万尼瓦尔·布什。在 MIT 教授电器工程以外,考德威尔还喜欢演奏管风琴,甚至偶尔客串 Boston Pops 管弦乐队的演出。

  但考德威尔既不会讲、也不能阅读中文。他第一次接触到中文是在一次晚餐闲谈中,在 MIT 求学的中国学生和他一边吃着炒菜和饺子,一边讨论着汉字。按卡德威尔后来的说法,「中文也有一个『拼法』」这个基本不过的事实,让当时的他大为惊讶。

  原以为中文书法不适用于拼写规则,考德威尔却发现情况正好相反:「奇怪的是,『学中文的学生』学习表意汉字书写的过程,似乎跟表音文字学习者写单词的方法一样……学写汉字过程中,中国人都以一模一样的笔画和顺序来写每一个汉字。」

  作为一个逻辑电路专家,前后一致的汉字「拼写」规则激起了考德威尔的好奇:如果每个汉字都以同样的方式组合,是否可能设计出一个逻辑电路,给定汉字笔画作为输入值,它能够输出汉字?尽管作为一种非表音文字,如果汉字呈现出属于它的「拼写」规则,能否制造出一样困惑工程师们多年的机器——一台为中文量身定制的计算机?

  考德威尔向哈佛大学东亚语言文化系教授杨联陞求助。仰赖杨联陞的帮助,考德威尔对汉字的结构化组成进行了一次详尽分析,确定了大约 2000 个常用汉字逐个笔画的「拼写」规则。考德威尔和杨联陞最终归纳出共 22 个笔画,这个数目的笔画足以分配到标准西式打字机键盘的诸多按键上。

  放弃 QWERTY 键盘的设计,考德威尔把汉字打字员「拼写」——更准确一点来说是描述或检索——汉字所需要的笔画配备到 Sinotype 的键盘上。用考德威尔自己的话来讲,他的目标是「给输入和输出过程配备上开关电路所需要的信息,开关电路将把汉字的拼写转化成为它们在影像记忆母体中的坐标位置(从而确定并输出打字员所需的具体汉字)」。

  研究过程中,考德威尔还获得了一个惊人发现。汉字不仅有拼写规则,并且「汉字拼写规则是高度冗余的」,考德威尔后来写道。考德威尔发现他在打任何一个汉字时,几乎不需要完整键入其中每个笔画,就能够从机器内存中检索到它。例如,对一个有 15 画的汉字来说,打字员需要提供的可能只是前 5 画到 6 画,Sinotype 就能获得正匹配(positive match)。

  在英语中对等的例子可能是单词「xylophone」或「crocodile」的拼写:输入前 5 个字母足够匹配到完整的单词。也就是说,占用 9 个字母才能拼写出的英文单词,可能只需 5 个字母就能检索到。如考德威尔所见,「完整拼写」(spelling in full)和「最小拼写」(minimum spelling)所需的字符数常常差别巨大。测试样本中个别汉字需要 11 画来组成,但只需 5 画就能「找到」。考虑到这些(以及别的)因素,考德威尔推断,「制造一台利用键盘输入中文,并且不比输入英文慢的机器」是有可能的。考德威尔不只是发明了世界上第一台中文计算机。他还在不经意间发明了我们如今所知的「自动补全」技术(autocompletion)。

  Sinotype 项目获得过卡耐基基金会、美国陆军和美国空军的资金支持,三家机构都急切地想要利用这件前景广阔的设备,增发宣传单页产品以在某种程度上武装自己。有了 Sinotype 输入法,大规模输入和印制中文宣传材料的能力终得兑现。但考德威尔并不从冷战这样的刻板视角来看自己的发明。

  「很多人会好奇为什么要做这项工作,或者为什么军方会投入大量的资金和关注到这个项目里,」考德威尔后来写道,「答案似乎简单明了。向军方兜售这个想法,我真正想证明的只有一点……支持中文输入的机器能够让人们更好地沟通,而增进沟通不会有害于人类和平。」我们很难知晓考德威尔如何看待军方对其发明的热情支持。但在他自己看来,Sinotype 是通向更加和平未来的一种手段。

  直到 1959 年 5 月,(还没有造出第一台中文计算机的)美国官方担心,中国科学家正近于取得他们自己的计算技术突破,美国政府内部弥漫着被中国人抢占先机的恐惧。如果中国抢先实现了他们自己的技术突破,Sinotype 带来的精神胜利将大打折扣。政府顾问催促尽早由艾森豪威尔公布 Sinotype,如此一来 Sinotype 将成为中文计算机先导设备,它会是「美国长久以来努力通过更好的沟通增进世界人民互相理解的关键突破」。

  但直到夏天结束 Sinotype 没有取得任何重大进展。艾森豪威尔没有公布这款中文计算机,Sinotype 也并未获得登台亮相的机会。关于这台设备是否准备就绪的怀疑仍在持续,也有人担心它能否经得起国际社会以及军方分析师的检验。对于中文使用来说 Sinotype 称手吗?它确实像设计者设想的那样,拥有足以改变所在领域的潜力?美国政府最终决定推迟 Sinotype 的公布时间,过早公布的风险太大。

  次年 Sinotype 遭遇了有史以来最大的打击:考德威尔去世了。少了这位开拓者的领导,军方热情渐消。

  但 Sinotype 的生命还在延续,几十年来经手该项目的一连串监督方足够熬成一锅名副其实的大杂烩,其中包括军事、工业以及学术机构:中情局,兰德智库,IBM,ITEK(一家美国安防承包商),MIT 和美国无限电公司等。其间这台设备的名称也在不停地转换,从最开始的 Sinowriter,到 Chi-coder,以及后来的 Ideographic Encoder。

  进入 20 世纪 80 年代,考德威尔和他的项目组留下的观念和技术架构仍然在中文输入法中发挥着基础性的作用。原项目以 Sinotype II 的形式重获新生,但新的输入设备也以日益流行的中文拼音输入法——一种 20 世纪下半叶出现的汉字语音系统——取代了考德威尔原来的笔画输入法。尽管经历这些变动,考德威尔的核心设计原则在几乎所有的自动补全技术里保留了下来,它在中文输入法里的这种核心地位持续了 60 年之久。下次当你无法忍受手机输入法上自动补全技术总是匹配到错误的单词时,不妨设想一下:如果表音输入和文本系统的自动补全技术能够像中文输入法一样早开始,那么英文输入法的自动补全技术会比如今完善得多。

  译者:Lobby

  原文刊于 Aeon CC BY-ND 4.0

  [1] 斯普特尼克 1 号是第一颗进入地球轨道的人造卫星。在苏联于 1957 年 10 月 4 日于拜科努尔航天中心发射升空。由于这时正值冷战,斯普特尼克 1 号的发射震撼了整个西方,在美国国内引发了一连串事件,如斯普特尼克危机、华尔街发生小股灾。同时亦开始了美、苏两国之间的太空竞赛。

# 离线 OFFLINE是什么?

  离线OFFLINEhttps://the-offline.com/)是一本科技文化周刊。每周一个深度话题,关注科技如何影响文化、商业和社会生活,发掘技术背后更人性的一面。

# 成为「离线会员」可以获得怎样的体验 ?

(点击图片了解会员计划详情)

  

  点击「阅读原文」开始订阅,优先享受离线会员专属权益。