首页 > 使用django搭建双语版网站,希望能给点建议

使用django搭建双语版网站,希望能给点建议

想用django做一个双语的网站,使用双库来解决。其中一个库的内容是用爬虫获取到的中文简体信息,另一个库用来存放对应的繁体中文信息。把简体中文翻译成繁体中文输入到第二个数据库中。
怎么解决翻译的问题?


一个土办法,不知道是否可行

  1. 导出你的简体中文内容的SQL(或者CSV等等,只要是文本形式的)

  2. 用Word的简繁转换转换为繁体,Word的简繁转换是考虑了用词差异的(例如鼠标 => 滑鼠)

  3. 导回去(当然记得改库名表名)


由于简体和繁体并不是单纯转换文字就能用的(繁体和简体的用词,语义很多都不同,只能人工做i18n)
比如
chs - cht
硬盘 - 硬碟
内存 - 記憶體
这些并不能直接通过转换繁简体来完成,需要有一个繁简分歧词表
分歧词表参考 : 维基百科 - 繁简分歧词表


方案:
1.建立双库。
2-1. 针对已有内容:读取简体库内容,通过下方py开源库转换为繁体,存入繁体库。
2-2. 针对后期内容:在存入简体库的时候加一个繁体转换,存入繁体库。


一个汉语言处理开源库,提供了汉语分词和繁体简体转换(包括上述的分歧词)希望有所帮助

https://github.com/Tony-Wang/YaYaNLP (python,修改自下方java库)

https://github.com/hankcs/HanLP (java)


@vimac
word的转换一来效率低,二来分歧词(也就是你说的用词差异)处理率很低。不能实现自动化操作。

【热门文章】
【热门文章】