Friso是是基于C言语开放的一款免费开源的壮大功能的中文分词器,次要靠mmseg算法来完成,撑持中英/英中夹杂词的辨认,撑持阿拉伯数字/小数基础单字单元的辨认,还能够自界说保存标点标记,保险的使用于多历程/多线程情况。
功效先容
中心功效
中文分词:mmseg算法 + Friso 首创的优化算法,四种切分形式。
关头字提取:基于textRank算法。
关头短语提取:基于textRank算法。
关头句子提取:基于textRank算法。
中文分词
四种切分形式:
浅易形式:FMM 算法,合适速率请求场所。
庞大形式: MMSEG 四种过滤算法,具备较高的岐义去除,分词正确率到达了98.41%。
检测形式:只前往词库中已有的词条,很合适某些使用场所。(1.6.1版本开始)。
最多形式:细粒度切分,专为检索而生,除了中文处置外(不具有中文的人名,数字辨认等智能功效)其余与庞大形式分歧(英文,组合词等)。
1、分词功效特征:
同时撑持对 UTF-8/GBK 编码的切分,撑持 php5 和 php7 扩大和 sphinx token 插件。
撑持自界说词库。在 dict 文件夹下,能够任意增加/删除/变动词库和词库词条,而且对词库举行了分类。
简体/繁体/简体夹杂撑持, 能够便利的针对简体,繁体大概简繁体切分。同时还能够以此完成简繁体的互相检索。
撑持中英/英中夹杂词的辨认(保护词库能够辨认任何一种组合)。比方:卡拉ok, 大度mm, c言语,IC卡,哆啦a梦。
很好的英文撑持,英文标点组合词辨认, 比方c++, c#, 电子邮件,网址,小数,百分数。
2、自界说保存标点:你能够自界说保存在切分了局中的标点,如许能够辨认出一些庞大的组合,比方:c++, k&r,code.Google.com。
庞大英文切分的二次切分:默许 Friso 会保存数字和字母的原组合,开启此功效,能够举行二次切分进步检索的射中率。比方:qq2013会被切分红:qq/ 2013/ qq2013。
撑持阿拉伯数字/小数基础单字单元的辨认,比方2012年,1.75米,5吨,120斤,38.6℃。
主动英文圆角/半角,大写/小写转换。
3、同义词婚配:主动中文/英文同义词追加。 (必要在 friso.ini 中开启 friso.add_syn 选项)。
主动中英文中断词过滤。(必要在 friso.ini 中开启 friso.clr_stw 选项)。
多设置撑持, 保险的使用于多历程/多线程情况。