请教一个字符串处理的问题。 - 第4页 - 技术园地 - 北大侠客行MUD论坛

littleknife 发表于 2010-11-17 17:07:50

我不是要单字节的编码，我是要如何获取整个汉字的GBK或GB2312编码。

hba 发表于 2010-11-17 17:12:54

原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码，我是要如何获取整个汉字的GBK或GB2312编码。

有必要弄得这么详细吗？
直接google去找啊。
这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx

ddid 发表于 2010-11-17 17:20:16

原帖由 littleknife 于 2010-11-17 17:07 发表 http://pkuxkx.net/forum/images/common/back.gif
我不是要单字节的编码，我是要如何获取整个汉字的GBK或GB2312编码。

把单字节的编码转成16进制，再连接在一起不就是了么。。。。。。

ddid 发表于 2010-11-17 17:21:18

这个好像是UTF8的
http://www.koders.com/noncode/fid224741C4CEBFC6CA2DD4CD2C1749DEB7D5DC7563.aspx
这个东西要收藏。

littleknife 发表于 2010-11-17 18:28:08

我的核心目的是要在字符串里，提取纯的汉字。而如果单纯用函数处理，会把制表符也认为是汉字。所以，才考虑用编码识别。

但是还是不清楚用lua，如何获取指定编码范围的汉字。比如，GBK汉字范围是xxx---xxx。用lua指定这个范围的汉字。如何做到？

ddid 发表于 2010-11-17 18:36:40

就是用 string.byte() 取出每个字符的10进制数，再和 GBK 码表对比，在范围以内就是GBK，不在范围以内就不是。如果要排除 GBK 中的特殊符号，那在设定GBK 码表范围的时候，把特殊符号这部分去除，或单独做对比就是了。

页: 1 2 3 [4]

北大侠客行MUD论坛's Archiver