第一次知道古登堡计划(ProjectGutenberg),是因为北大出版社的《英文名著3000》,后来找到古登堡项目的网站之后才知道买来的两张光盘不过是一个小小的子集,从此可以直接查阅经典作品而不受翻译出版的局限。(我至今都记得高中读《牛虻》时,因为不满意翻译而去查找原文证实揣测的乐趣。在牛虻就义那一节,第一排枪响之后,没有打中,他这样嘲笑行刑队:“……打起精神来,伙计,你拿的是马枪,不是煎锅”,这里的煎锅实在太突兀了,显然作者想用pan和上文的gun押韵,一查原文,果然“Bless your heart, man, it’s a carbine you’ve got in yourhand, not a frying-pan!” 这样的直译真让人伤心,要我就换成“铃铛”:)
发展至今,古登堡主站收录的免费图书接近3万(目录点此查看),也许是因为出现太早,中文社区没有像对待其他国际开源项目那样积极参与其中,只有台湾辅仁大学的图书馆学副教授毛慶禎老师给出了最为详细的中文介绍,而目前古登堡计划中仅有的几百本中文图书恐怕都是他的学生当作业完成的。因为在页面最后有这么一段:
作業
每人準備十本電子書, 奉獻給古騰堡計畫
提示: 必須在 “Project Gutenberg Newsletter”,被公告才算是真正的奉獻。
我忍不住要赞美他,太有爱了~
项目创建的历史不难找到,我这里简单的介绍下网站运作:
- 古登堡项目是美国的非盈利组织,录入校对工作都由志愿者自愿承担。
- 只收录没有版权争议的作品,我国著作权是在作者去世后五十年内有效,图书杂志出版人的作品保护期限为十年。
为在最大范围内保证通用性,收录的格式主要是纯文本TXT,也接受较容易转换的HTML、XML、RTF等。英语文本使用ASCII编码,其他含有特殊字符的语种主要为UTF-8。
为了方便自动化处理,文本的发布格式有严格的规定,比如每行字节不超过75,标题段首不缩进,不允许斜体和加粗之外的其他效果,等等。
为了方便志愿者进行协同校对,古登堡项目专门开发了分布式校对网站 (DistributedProofreaders),即使有高识别率的OCR软件--帮助,一本书在扫描上传之后仍需要经过P1(proofreading round1,粗校)、P2(拼写检查)、P3(精校)、F1(formating round 1,格式修正)、F2(格式审订)、PP(Post-Processing, 审核)、SR(Smooth Reading,试读)七个阶段才最终入库。每一级都需要有上一阶段400页的工作量才能参与。
最终发布的作品提供html,txt,epub,Mobi等多种格式下载,均为zip压缩,除了几个主流的操作系统,在iphone,Palm,Android,Symbian,Blackberry,乃至Kindle的几乎全部移动平台都获得了支持。
我曾经因为TXT的文本质量得不到有效保障而偏爱PDF,但它毕竟有着最广泛的平台支持。虽然无法用于版本的比较研究,用于日常阅读的要求已是绰绰有余了。随着电子墨水的普及,影响也会越来越大。现在澳洲,德国,芬兰,加拿大,卢森堡,甚至菲律宾都建起了古登堡计划的联盟站点,发布的书籍总数超过10万。而我们呢?
亦凡开起了书店,国学网卖起了软件,新语丝文库被人淡忘,读书公园停止更新,读书中文数次关闭,国学数典屡遭攻击……在所有这些努力之后,仍看不到中文古登堡的身影,只有方正和超星在蚕食一个个大学校园……