下面的Python脚本结合了以上提到的所有功能:使用jieba进行中文分词,载入用户词典,调整词频,并统计词频。请确保你已经安装了jieba库,且有一个名为userdict.txt的用户词典文件(如果你需要使用自定义词典的话)。
import jieba
from collections import Counter
# 载入用户词典
jieba.load_userdict('userdict.txt')
# 待分词的文本
text = "这是一个用于中文分词的示例文本,这个示例用于展示如何统计词频"
# 使用jieba进行分词
seg_list = jieba.cut(text, cut_all=False) # 精确模式
# 显示分词结果
print("分词结果: " + "/ ".join(seg_list))
# 统计词频
words = jieba.cut(text, cut_all=False)
word_freq = Counter(words)
# 输出词频最高的5个词
print("词频统计结果:")
for word, freq in word_freq.most_common(5):
print(word, freq)
# 调整词频,使得"中文"成为一个词
jieba.suggest_freq(('中', '文'), True)
# 重新进行分词
seg_list = jieba.cut(text, cut_all=False)
print("调整词频后的分词结果: " + "/ ".join(seg_list))
# 重新统计词频
words = jieba.cut(text, cut_all=False)
word_freq = Counter(words)
print("调整词频后的词频统计结果:")
for word, freq in word_freq.most_common(5):
print(word, freq)
在这段代码中:
- 通过jieba.load_userdict('userdict.txt')载入用户词典。
- 用jieba.cut进行中文分词。
- 使用Counter来统计词频。
- 使用jieba.suggest_freq来调整词频,使得"中文"被视为一个词。
- 分词和统计词频的过程在调整词频之前和之后各执行一次,以展示调整词频的效果。
请根据你的实际情况调整代码中的文本内容、文本路径及用户词典路径等。