首页 > 如何在行切分的时候切割上下结构的中文字符

如何在行切分的时候切割上下结构的中文字符

当一行中只有一个上下结构的中文字符时,程序会判断把上下结构的字符切割成两个部分,怎么样来处理这样的情况?


按照你的回复三切分成三而不是三个一, 那么你这个问题实质上在图形学角度恐怕是无解的, 类型 "亢" 这种做上下结构还是做独体都是有歧义的,程序角度,就图形判断, 三应该是三个一. 除非你能给 "上下结构" 做一个精确的定义,现在 "上下结构" 在图形角度是个没有明确定义的东西.

实际上有个笨方法可能是最聪明的,就是人工标注, 比如实际上汉字的总数是有限的, 比如如果是gb2312其实只有6000多个汉字,就算是gbk汉字也就两三万, 人工标注(或者有现成的数据库更好)哪些字是上下结构, 比如假设有2000个上下结构的字,把这2000个存起来,到时候判断的时候就变成判断字符是否在这2000多个里面了. 排序好按二分查找,2000只需要比较11次(2048)

【热门文章】
【热门文章】