中文真是复杂啊

January 17, 2008 – 8:37 pm

平时用起来似乎感觉和英文没有什么大的区别,大概是人脑太强大了,中文和英文都是“小菜一碟”,所以不太能感觉得出区别吧,但是放到现在的电脑上就能明显感觉出区别来了。比如说输入,要依靠输入法,而且输入法的学问也很大。输入以后要显示,字体也是一个问题,英文字体文件可以很小,而中文的话通常会很大。最麻烦的应该还是做检索,要做索引的话需要进行分词,英文很方便,直接

text.split

按照空白来进行分词即可,最多再处理一下 -ed 、-ing 之类的变换,而英文那整套信息检索的技术不能直接照搬到中文里面来也主要是因为分词吧,中文分词可以说是相当困难,有许多歧义存在,最基础的使用辞典从左到右或者从右到左寻找最大匹配的算法准确率都不是特别高,用统计概论的方法筛选一下可以提高精度,但是最后越做越复杂的话效率也是一个问题。

另外,有一些歧义如果不是通过理解文本的话,基本上无法处理。例如经常被当作例子的“乒乓球拍卖完了”里,可以是“乒乓球拍”或者“拍卖”两种分法,事实上,仅此一句话的话,即使是人(通过理解句子的方法)也是无法选择一种“正确”的分词方案的,但是理解通常会结合强大的信息库进行推理,就是人的知识了,通常我们可以通过更多的上下文或者是我们的常识选择一种“正确”的(或者说是“更合适”的)方案来。

而现在的计算机却无法做到这一点,且不说什么是“理解”,姑且把统计的方法也称作“理解”的话,计算机也是不够的,因为计算机没有人脑那样海量的知识。现在互联网信息爆炸,海量的信息是有了,却无法当作知识来使用,这也是一个严重的问题,信息互相格式不同,我想“语义网”大概也是想要解决这个问题吧。

如果有一天互联网上的信息能转变为知识被任意一台电脑方便地使用(或者说,全世界的电脑组成了一台分布式的超级电脑)的话,大概就不用担心“中文分词”这种小事情了!不知道那时的电脑在擅长处理抽象的问题之后会不会也像现在的人脑一样不擅长做基础的数值运算了? :p

  1. 7 Responses to “中文真是复杂啊”

  2. 你该不会对 NLP 也有兴趣吧?

    By tchaikov on Jan 17, 2008

  3. 从古汉语发展到现在,好歹有了标点符号,真是不容易啊,不知道以后会不会词语之间也像英语那样有分隔符了? :D

    By pluskid on Jan 17, 2008

  4. @tchaikov:

    其实是学校论坛里面我很久以前开的一个讨论楼,里面许多精彩的讨论,但是也有许多版聊,而学校的论坛又没有提供全文搜索,找东西很不方便,于是想做个小的索引,数据抓下来以后发现分词不会了,找了一些介绍性的文章看了看就来发发牢骚,哈哈! :D
    NLP 是什么我倒是还真不知道,我去查查看。兴趣广泛也是好事啊,趁现在有时间多了解点东西。 :p 不过这几天正在考试,也是没心思复习了。 :)

    By pluskid on Jan 17, 2008

  5. 古代也有句读阿。不过要是像你那样说的那样,读起来书就有点怪怪的了,像是蹩脚的诗人在朗诵。 :)

    By tchaikov on Jan 17, 2008

  6. you can “think about” how your own eyes move when reading Chinese (i.e., seeking forward for an optimistic temporary stop, jumping backward to catch a phrase, etc.) — except that you can’t really reflect about something when you’re doing it, hence the quote…

    By galilette on Jan 18, 2008

  7. 英文的 term 处理面临和中文一样的问题

    By Jack on Jan 24, 2008

  8. @Jack:
    恩,说起来,确实也有这么一个问题。 :-/

    By pluskid on Jan 24, 2008

Post a Comment