Human knowledge 和 Global Information

wshxzt 发表于 2006-07-02 13:06:00

终于把老板布置的paper看掉了
一篇是讲Human knowledge的
一篇是讲Global Information的
Human knowledge这篇主要是讲他预设了很多张表
比如
人名识别增设
姓氏表:这个还是有点道理的,中国人姓氏用到的字不是太多。但是随着现在思想的解放,出现了 陆王天宇 这种名字,那他的姓算什么呢……
名表:名字可能用到的字。我觉得这个没道理,现在连姓都越来越奇怪了,名字的选择显然没有任何限制。
音译字:音译的外来名一般使用的字是有规律的。
地名识别增设
一般地名表:这个还是有必要的。
salient word表:比如“市”、“省”前的一串字符还是很可能是地名的。
一般词表:在“去”、“在”后面的一串字符也是很可能是地名的。
缩写地名表
组织机构名增设
salient word表
一般组织机构名
组织结构名模板:这个还是满重要的,组织机构是嵌套构成的,掌握其构成方法是不是就可以用自动机来做了呢

这样做还是有一定道理的,人类识别时会利用自己的知识。但是该如何利用这些知识呢,这篇paper里也没讲清楚。

还有篇讲Global information,主要是说一些先出现过的专有名词以后就可能以缩写形式出现了,要充分利用整篇文章的信息识别专有名词。问题是这篇文章以英文做实验,提取的特征都是基于英文的。比如英文的大小写等特征。这些特征是中文信息中所没有的。中文文章甚至连词都是没分好的。另外一个问题是,每次识别都要对整篇文章进行特征提取,这样势必会造成效率下降。我暂时没想到好的算法,如何在线性时间内判断某个词之前是否出现过等等。这样做在中文识别中对性能的提高幅度还不清楚,但是牺牲效率去换这些提高是否值得?

接下来要做的是去找那些Human knowledge,不知道qxred大牛你们曾经找过这种东西么?
再不抓紧老板要爆发了-.-


收藏: QQ书签 del.icio.us 订阅: Google 抓虾

最新评论

发表评论

* 昵称

已经注册过? 请登录

新用户请先注册 以便能显示头像及追踪评论回复

Email
网址
* 评论
表情
 
 

分类小组论坛
杂谈, 娱乐、八卦, 文学、艺术, 体育, 旅游、同城, 象牙塔, 情感, 时尚、生活, 星座, 科技

请注意遵守中华人民共和国法律法规, 如威胁到本站生存, 将依法向有关部门报告, 同时本站的相关记录可能成为对您不利的证据.

相关法律法规
全国人大常委会关于维护互联网安全的决定
中华人民共和国计算机信息系统安全保护条例
中华人民共和国计算机信息网络国际联网管理暂行规定
计算机信息网络国际联网安全保护管理办法
计算机信息系统国际联网保密管理规定