博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TextGrocery中文文本分类处理
阅读量:5939 次
发布时间:2019-06-19

本文共 999 字,大约阅读时间需要 3 分钟。

详细使用说明:http://textgrocery.readthedocs.io/zh/latest/index.html

TextGrocery是一个基于和的短文本分类工具,特点是高效易用,同时支持中文和英文语料。

需要安装:

pip install classifier

 过程:

>>> from tgrocery import Grocery# 新开张一个杂货铺(别忘了取名)>>> grocery = Grocery('sample')# 训练文本可以用列表传入>>> train_src = [        ('education', '名师指导托福语法技巧:名词的复数形式'),...     ('education', '中国高考成绩海外认可 是“狼来了”吗?'),...     ('sports', '图文:法网孟菲尔斯苦战进16强 孟菲尔斯怒吼'),...     ('sports', '四川丹棱举行全国长距登山挑战赛 近万人参与')... ]>>> grocery.train(train_src)Building prefix dict from the default dictionary ...Dumping model to file cache /tmp/jieba.cacheLoading model cost 1.125 seconds.Prefix dict has been built succesfully.*optimization finished, #iter = 3Objective value = -1.092381nSV = 8
>>> grocery.save()>>> new_grocery = Grocery('sample')>>> new_grocery.load()>>> new_grocery.predict('考生必读:新托福写作考试评分标准')
>>> new_grocery.predict('考生必读:新托福写作考试评分标准')
>>> result = new_grocery.predict('考生必读:新托福写作考试评分标准')>>> print resulteducation

完毕。

转载地址:http://csmtx.baihongyu.com/

你可能感兴趣的文章
linux 笔记本的温度提示
查看>>
数值积分中的辛普森方法及其误差估计
查看>>
Web service (一) 原理和项目开发实战
查看>>
跑带宽度多少合适_跑步机选购跑带要多宽,你的身体早就告诉你了
查看>>
广平县北方计算机第一届PS设计大赛
查看>>
深入理解Java的接口和抽象类
查看>>
java与xml
查看>>
Javascript异步数据的同步处理方法
查看>>
iis6 zencart1.39 伪静态规则
查看>>
SQL Server代理(3/12):代理警报和操作员
查看>>
基于事件驱动的DDD领域驱动设计框架分享(附源代码)
查看>>
Linux备份ifcfg-eth0文件导致的网络故障问题
查看>>
2018年尾总结——稳中成长
查看>>
JFreeChart开发_用JFreeChart增强JSP报表的用户体验
查看>>
度量时间差
查看>>
apache prefork模式优化错误
查看>>
通过jsp请求Servlet来操作HBASE
查看>>
JS页面刷新保持数据不丢失
查看>>
清橙A1202&Bzoj2201:彩色圆环
查看>>
使用data pump工具的准备
查看>>