找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 15|回复: 0

ictclas2016分词系统

[复制链接]

32万

主题

0

回帖

96万

积分

超级版主

积分
964681
发表于 2025-3-14 11:12:39 | 显示全部楼层 |阅读模式
软件标签:  ictclas分词系统   分词系统   中文分词工具
nlpir汉语分词系统是一款适用于编程行业的中文分词工具。本软件支持词性标准、关键词提取的等功能。主要适用于汉语言词法分析研究。本站提供的是最新版的ictclas2016分词系统安装程序。需要的用户欢迎在绿色资源网下载使用。
软件介绍
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ictclas(instituteofcomputingtechnology,chineselexicalanalysissystem),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ictclas2009用户词典接口扩展用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。

ictclas词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广nlpir自然语言处理与信息检索共享平台,调整命名为nlpir分词系统。张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际sighan分词大赛综合第一名,2002年国内973评测综合第一名。全球用户突破30万,包括中国移动、华为、中搜、3721、nec、中华商务网、硅谷动力、云南日报等企业,清华大学、新疆大学、华南理工、麻省大学等机构:同时,ictclas广泛地被《科学时报》、《人民日报》海外版、《科技日报》等多家媒体报道。您可以访问google进一步了解ictclas的应用情况。
ictclas中文分词系统功能介绍
1.指纹提取

根据文章的内容,结构,词语间的关系,分析出能够表示该文章的语义指纹,使用数字序列表示。

2.分词粒度可调

可以控制分词结果的粒度。共享版本提供两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。

3.用户词典接口扩展

用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。

4.词性标注功能加强

多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。

5.关键词提取

自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理领域,具有很好的应用价值。




6.新词发现与自适应分词功能

从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。




7. 微博分词功能:

对博主id进行nr标示,对转发的会话进行自动分割标示(标示为ssession),url以及email进行自动标引。





aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|ziyuan80.com

GMT+8, 2025-8-18 05:59 , Processed in 0.120638 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表