博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Java机械分词
阅读量:5079 次
发布时间:2019-06-12

本文共 2076 字,大约阅读时间需要 6 分钟。

这是我们做的一个小作业,不多说

直接附上我写的代码:

 

public void Zheng() {        try {            BufferedReader bre = null;            //String file = "d.txt";            String file = "Dict.txt";            bre = new BufferedReader(new FileReader(file));            String line;            try {                while ((line = bre.readLine()) != null) // 判断最后一行不存在,为空结束循环                {                    temp.add(line);                    // System.out.println(line);// 原样输出读到的内容                }                bre.close();            } catch (IOException e) {                e.printStackTrace();            }        } catch (FileNotFoundException e) {            System.out.println("未成功读取文件");            e.printStackTrace();        }        String sub_str;        while (start < total_len) {            boolean flag = false;            tmp_len = start + max_len <= total_len ? max_len : total_len - start;            label: while (tmp_len > 0) {                // System.out.println(1);                sub_str = receive.substring(start, start + tmp_len);                // System.out.println(sub_str);                for (i = 0; i < temp.size(); i++) {                    if (sub_str.equals(temp.get(i))) {                        flag = true;                    }                }                if (flag == true) {                    words.add(receive.substring(start, start + tmp_len));                    start = start + tmp_len;                    break label;                } else {                    tmp_len = tmp_len - 1;                    // System.out.println(tmp_len);                }                /*                 * if sub_str in dict: words.append(setence[start : start +                 * tmp_len]) start = start + tmp_len break else: tmp_len =                 * tmp_len -1                 */            }            if (tmp_len == 0) {                words.add(receive.substring(start, start + 1));                start = start + 1;            }        }

效果就是按照词库中的词将一段语句分割开来。

附上词库的位置:

 https://pan.baidu.com/s/1pLBKer5

 

转载于:https://www.cnblogs.com/zhichun/p/7223546.html

你可能感兴趣的文章
IO流写出到本地 D盘demoIO.txt 文本中
查看>>
Windows10 下Apache服务器搭建
查看>>
HDU 5458 Stability
查看>>
左手坐标系和右手坐标系
查看>>
solr后台操作Documents之增删改查
查看>>
http://yusi123.com/
查看>>
文件文本的操作
查看>>
Ubuntu linux下gcc版本切换
查看>>
记一次Web服务的性能调优
查看>>
jQuery.form.js使用
查看>>
(转)linux sort,uniq,cut,wc命令详解
查看>>
关于ExecuteNonQuery执行的返回值(SQL语句、存储过程)
查看>>
UVa540 Team Queue(队列queue)
查看>>
mysql数据增删改查
查看>>
shell中下载最新版本或指定版本的办法(Dockerfile 中通用)
查看>>
极客时间-左耳听风-程序员攻略-分布式架构工程设计
查看>>
akka之种子节点
查看>>
不知道做什么时
查看>>
matlab 给某一列乘上一个系数
查看>>
密码学笔记——培根密码
查看>>