littleknife
发表于 2010-11-17 17:07:50
我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。
hba
发表于 2010-11-17 17:12:54
原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。
有必要弄得这么详细吗?
直接google去找啊。
这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx
ddid
发表于 2010-11-17 17:20:16
原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。
把单字节的编码转成16进制,再连接在一起不就是了么 。。。。。。
ddid
发表于 2010-11-17 17:21:18
这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx
这个东西要收藏。
littleknife
发表于 2010-11-17 18:28:08
我的核心目的是要在字符串里,提取纯的汉字。而如果单纯用函数处理,会把制表符也认为是汉字。所以,才考虑用编码识别。
但是还是不清楚用lua,如何获取指定编码范围的汉字。比如,GBK汉字范围是xxx---xxx。用lua指定这个范围的汉字。如何做到?
ddid
发表于 2010-11-17 18:36:40
就是用 string.byte() 取出每个字符的10进制数,再和 GBK 码表对比,在范围以内就是GBK,不在范围以内就不是。如果要排除 GBK 中的特殊符号,那在设定GBK 码表范围的时候,把特殊符号这部分去除,或单独做对比就是了。