littleknife 发表于 2010-11-17 17:07:50

我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。

hba 发表于 2010-11-17 17:12:54

原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。

有必要弄得这么详细吗?
直接google去找啊。
这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx

ddid 发表于 2010-11-17 17:20:16

原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码,我是要如何获取整个汉字的GBK或GB2312编码。

把单字节的编码转成16进制,再连接在一起不就是了么 。。。。。。

ddid 发表于 2010-11-17 17:21:18

这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx
这个东西要收藏。

littleknife 发表于 2010-11-17 18:28:08

我的核心目的是要在字符串里,提取纯的汉字。而如果单纯用函数处理,会把制表符也认为是汉字。所以,才考虑用编码识别。

但是还是不清楚用lua,如何获取指定编码范围的汉字。比如,GBK汉字范围是xxx---xxx。用lua指定这个范围的汉字。如何做到?

ddid 发表于 2010-11-17 18:36:40

就是用 string.byte() 取出每个字符的10进制数,再和 GBK 码表对比,在范围以内就是GBK,不在范围以内就不是。如果要排除 GBK 中的特殊符号,那在设定GBK 码表范围的时候,把特殊符号这部分去除,或单独做对比就是了。
页: 1 2 3 [4]
查看完整版本: 请教一个字符串处理的问题。