文本分析文章主题思想提取

系统采用核心技术为分词以及词权重计算,采用的分词为自定义正向最大匹配与逆向最大匹配算法,采用隐含马尔科夫模型,依据中文的人名概率,地名概率判断实体词,同时根据定期抓取搜狗细胞词库与百度热词扩充词典,对于新词热词的更新速度较快(一天以内).

使用修正的TF/IDF算法,通过计算100万篇新闻得到基础预料词库的词权重,将词权重存储与BDB类KV数据库,词语量在二十万左右,同时通过每天抓取新浪搜狐,网易,腾讯新闻,扩充语料库,并定期重新计算TF/IDF词权重.

相关案例

查看更多