lzkd 发表于 2010-9-16 20:52:00

to jason 关于字库文件

  因为不知道北侠的文件是用的哪种内码,我各做了两份,一个是ANSI的,一个是UTF8的。
  word-UTF8.txt和word-ANSI.txt是500个字库文件,我抄的pds的,只是转了一下内码。
  phrase-ANSI.txt和phrase-UTF8.txt是500个词组的文件。因为网上没有现成的常用两字词组库,我从输入法里导出了大概16000+条两字词组,考虑到全放上来会不会太多?先放个500条吧。如果需要全部的(或者分成几个文件)说一下就是了,转换代码都完成了,整500条和整50000条其实是一回事。

pds 发表于 2010-9-16 20:56:40

沙发!

lkyun 发表于 2010-9-16 20:58:20

小刀威武,pds威武

lxiao 发表于 2010-9-16 21:20:48

沙发没了。。地板没了

那偶现在飘窗窗台坐坐吧

zine 发表于 2010-9-16 21:23:09

刚才有狗狗在飘窗窗台上拉了泡屎,忘记擦了。。。

pds 发表于 2010-9-16 22:09:04

jason,还是改成词语吧,这单字打起来,的确是费劲啊。

jason 发表于 2010-9-16 22:27:39

词组的话就需要500*500等于25w个。否则就打不到500个字出现两次的效果

ivanfox 发表于 2010-9-16 22:32:42

原帖由 jason 于 2010-9-16 10:27 PM 发表 http://pkuxkx.net/forum/images/common/back.gif
词组的话就需要500*500等于25w个。否则就打不到500个字出现两次的效果

看见这个词组就直接想死了……

jason 发表于 2010-9-17 09:23:26

原帖由 lzkd 于 2010-9-16 08:52 PM 发表 http://pkuxkx.net/forum/images/common/back.gif
  因为不知道北侠的文件是用的哪种内码,我各做了两份,一个是ANSI的,一个是UTF8的。
  word-UTF8.txt和word-ANSI.txt是500个字库文件,我抄的pds的,只是转了一下内码。
  phrase-ANSI.txt和phrase-UTF8.t ...

谢谢,小刀真是心细,还准备了utf8de,呵呵。

lxiao 发表于 2010-9-17 09:57:20

原帖由 zine 于 2010-9-16 09:23 PM 发表 http://www.pkuxkx.net/forum/images/common/back.gif
刚才有狗狗在飘窗窗台上拉了泡屎,忘记擦了。。。

投诉城管。。。。yct1yct1yct1yct1yct1
页: [1]
查看完整版本: to jason 关于字库文件