请教大家一个数据挖掘方面的问题(其实我也不知道是不是属于这个范畴) 我想写一个程序用来采集网上所有软件的名称 但是如何让程序准确识别一个名称呢? 比如 暴风影音 和 暴风影音春节版 还有 暴风影音2012 其实是同一个软件 应该采用"暴风影音"这个名字 如何让程序做出这样的判断/识别呢?
最好能提供相关技术的名字,或者书名,或者算法名称,方便我进一步搜索
机器学习,用bayes算法。
不过这需要大量的素材。
而且还要正确的分词,分词的词典也是比较麻烦的事情。
请教大家一个数据挖掘方面的问题(其实我也不知道是不是属于这个范畴) 我想写一个程序用来采集网上所有软件的名称 但是如何让程序准确识别一个名称呢? 比如 暴风影音 和 暴风影音春节版 还有 暴风影音2012 其实是同一个软件 应该采用"暴风影音"这个名字 如何让程序做出这样的判断/识别呢?
最好能提供相关技术的名字,或者书名,或者算法名称,方便我进一步搜索
机器学习,用bayes算法。
不过这需要大量的素材。
而且还要正确的分词,分词的词典也是比较麻烦的事情。