wshxzt的北美生活 » 日志 » Human knowledge 和 Global Information
Human knowledge 和 Global Information
wshxzt 发表于 2006-07-02 13:06:00
终于把老板布置的paper看掉了
一篇是讲Human knowledge的
一篇是讲Global Information的
Human knowledge这篇主要是讲他预设了很多张表
比如
人名识别增设
姓氏表:这个还是有点道理的,中国人姓氏用到的字不是太多。但是随着现在思想的解放,出现了 陆王天宇 这种名字,那他的姓算什么呢……
名表:名字可能用到的字。我觉得这个没道理,现在连姓都越来越奇怪了,名字的选择显然没有任何限制。
音译字:音译的外来名一般使用的字是有规律的。
地名识别增设
一般地名表:这个还是有必要的。
salient word表:比如“市”、“省”前的一串字符还是很可能是地名的。
一般词表:在“去”、“在”后面的一串字符也是很可能是地名的。
缩写地名表
组织机构名增设
salient word表
一般组织机构名
组织结构名模板:这个还是满重要的,组织机构是嵌套构成的,掌握其构成方法是不是就可以用自动机来做了呢
这样做还是有一定道理的,人类识别时会利用自己的知识。但是该如何利用这些知识呢,这篇paper里也没讲清楚。
还有篇讲Global information,主要是说一些先出现过的专有名词以后就可能以缩写形式出现了,要充分利用整篇文章的信息识别专有名词。问题是这篇文章以英文做实验,提取的特征都是基于英文的。比如英文的大小写等特征。这些特征是中文信息中所没有的。中文文章甚至连词都是没分好的。另外一个问题是,每次识别都要对整篇文章进行特征提取,这样势必会造成效率下降。我暂时没想到好的算法,如何在线性时间内判断某个词之前是否出现过等等。这样做在中文识别中对性能的提高幅度还不清楚,但是牺牲效率去换这些提高是否值得?
接下来要做的是去找那些Human knowledge,不知道qxred大牛你们曾经找过这种东西么?
再不抓紧老板要爆发了-.-
一篇是讲Human knowledge的
一篇是讲Global Information的
Human knowledge这篇主要是讲他预设了很多张表
比如
人名识别增设
姓氏表:这个还是有点道理的,中国人姓氏用到的字不是太多。但是随着现在思想的解放,出现了 陆王天宇 这种名字,那他的姓算什么呢……
名表:名字可能用到的字。我觉得这个没道理,现在连姓都越来越奇怪了,名字的选择显然没有任何限制。
音译字:音译的外来名一般使用的字是有规律的。
地名识别增设
一般地名表:这个还是有必要的。
salient word表:比如“市”、“省”前的一串字符还是很可能是地名的。
一般词表:在“去”、“在”后面的一串字符也是很可能是地名的。
缩写地名表
组织机构名增设
salient word表
一般组织机构名
组织结构名模板:这个还是满重要的,组织机构是嵌套构成的,掌握其构成方法是不是就可以用自动机来做了呢
这样做还是有一定道理的,人类识别时会利用自己的知识。但是该如何利用这些知识呢,这篇paper里也没讲清楚。
还有篇讲Global information,主要是说一些先出现过的专有名词以后就可能以缩写形式出现了,要充分利用整篇文章的信息识别专有名词。问题是这篇文章以英文做实验,提取的特征都是基于英文的。比如英文的大小写等特征。这些特征是中文信息中所没有的。中文文章甚至连词都是没分好的。另外一个问题是,每次识别都要对整篇文章进行特征提取,这样势必会造成效率下降。我暂时没想到好的算法,如何在线性时间内判断某个词之前是否出现过等等。这样做在中文识别中对性能的提高幅度还不清楚,但是牺牲效率去换这些提高是否值得?
接下来要做的是去找那些Human knowledge,不知道qxred大牛你们曾经找过这种东西么?
再不抓紧老板要爆发了-.-
相关日志:
收藏:
QQ书签
del.icio.us
订阅:
Google
抓虾
