文本可视化（一）——《今生今世》词云生成与小说分析-36大数据

36大数据 • 7年前扫码分享

作者：Sinte-Beuve

好的数据可视化，可以使得数据分析的结果更通俗易懂。“词云”就是数据可视化的一种形式。给出一段文本的关键词，根据关键词的出现频率而生成的一幅图像，人们只要扫一眼就能够明白文章主旨。

最近在知乎、以及各大媒体上经常可以看到这个词云，刚好前段之间读了胡兰成的《今生今世》，所以就尝试着自己通过python来实现图云。碰巧的是，今天刚好也是张爱玲的诞辰。下面是最终生成的结果。图一为全词的图生成，背景是张爱玲的肖像，图二图三分别是散文集中出现的人名和地名。

下面主要来介绍一下词云生成的过程。顺便一提的是，现在也有很多在线的网站是可以直接生成词云的，只要把文字贴进去就可以了，例如图悦。但是，由于我选取的是二十世纪中期的作品，分析和提取关键词的过程有一定的复杂性，所以还是通过python来处理。

需要的工具

matplotlib
matplotlib，不用多讲，用python学习过机器学习的人都知道，是一个绘图库，最终词云的绘制需要用到它。
jieba
jieba，最好用的开源中文分词工具。他最主要的两个功能是分词和关键词的抽取。在词云的生成过程中都需要用到。
wordcloud
wordcloud是一个词云生成器，只要进行相关的配置就能生成相应的词云。

以上三个工具具体的使用方法，我会在参考文献中贴出来，这里就不花篇幅单独讲了，直接看《今生今世》的例子。

实现过程

实现的过程简单来讲，两步走，1. 提取关键词，2. 生成词云。

提取关键词

在使用jieba来提取关键词之前，我们需要考虑几个问题。比如说，

jieba是否能准确提取我们散文集中的关键词（人名、地名）？
散文中会存在例如“我们”、“觉得”、“这样”这一类的词，这类词的出现导致了，散文集中真正的关键词无法被提取出来。
散文中会存在例如“汪先生”，而jieba分词，将其分成“汪先生”和“先生”两个词，从而导致“先生”的频率远大于“汪先生”，从而对结果产生影响。

正是由于中文的复杂性，所以对关键词的提取带来了难度，好在jieba基本能够将上述问题解决。那么下面就是代码实现的过程了。

1. 解决问题1和问题3

jieba有内置词库，一些常见的人名地名，他是能够自己分辨出来了的。一些比较生僻的词可以通过自定义词库来添加进去，保证识别率。词典格式和dict.txt一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。例如，

				应英娣 10 nr
				英娣 10 nr
				应小姐 10 nr
				范秀美 10 nr
				白相人 9 nr
				俞傅家 8 ns
				俞傅村 8 ns
				俞家 8 ns
				斯家 8 ns
				蕙兰中学 8 ns
				蕙兰 8 ns
				静安寺路 8 ns
				胡村 8 ns
				大楚报 6 nt
				苦竹 6 nt

自定义词典的词频一般在10左右，或者>10都可以。

然后在代码中通过代码引入即可。

jieba.load_userdict("namedict.txt")

2. 解决问题2

“我们”、“觉得”、“这样”这一类词语叫做停顿词，需要先处理。我们可以先去网上下载各大机构的停用词词库，然后应用到散文集中，由于停用词词库大多使用的是现在的文法，而《今生今世》创作时间比较早，有些可能还需要人为添加停顿词。

下面是去除停顿词的代码。

				def clean_using_stopword(text):
				"""
				去除停顿词，利用常见停顿词表+自建词库
				:param text:
				:return:
				"""
				mywordlist = []
				# 用精确模式来分词
				seg_list = jieba.cut(text, cut_all=False)
				liststr = "/ ".join(seg_list)
				with open(stopwords_path) as f_stop:
				f_stop_text = f_stop.read()
				f_stop_text = unicode(f_stop_text, 'utf-8')
				f_stop_seg_list = f_stop_text.split('\n')
				for myword in liststr.split('/'):  # 去除停顿词，生成新文档
				if not (myword.strip() in f_stop_seg_list) and len(myword.strip()) > 1:
				mywordlist.append(myword)
				return ''.join(mywordlist)

经过以上两步的操作，就生成了一个新的文档，去除了停顿词。接下来就是提取关键词的时候了。

				def extract_keywords():
				"""
				利用jieba来进行中文分词。
				analyse.extract_tags采用TF-IDF算法进行关键词的提取。
				:return:
				"""
				# 抽取1000个关键词，带权重，后面需要根据权重来生成词云
				allow_pos = ('nr',) # 词性
				tags = jieba.analyse.extract_tags(preprocessing(), 1000, withWeight=True)
				keywords = dict()
				for i in tags:
				print("%s---%f" % (i[0], i[1]))
				keywords[i[0]] = i[1]
				return keywords

jieba.analyse.extract_tags()方法就是用来提取关键词的，参数依次为（文本，抽取关键词的数量，返回结果是否带权重，提取关键词的词性）。由于词云是需要根据权重来生成的因此withWeight为true。得到结果如下，对TF-IDF算法有了解的，应该知道这里的权重就是tf-idf。

				汪先生---0.037881
				爱玲---0.032921
				这样---0.030461
				爱珍---0.025920
				日本---0.025699
				只觉---0.019628
				太太---0.019364

allowPOS=allow_pos可以提取指定词性的关键词，“nr”为人物名词，“ns”为地点名词。这样就可以生成散文集的人名词云和地点词云了。

生成词云

接下来就轮到wordcloud登场了。过程很简单，依次是

初始化WordCloud
生成词云。
直接给出代码，

				def draw_wordcloud():
				"""
				生成词云。1.配置WordCloud。2.plt进行显示
				:return:
				"""
				back_coloring = plt.imread(bg_image_path)  # 设置背景图片
				# 设置词云属性
				wc = WordCloud(font_path=font_path,  # 设置字体
				background_color="white",  # 背景颜色
				max_words=2000,  # 词云显示的最大词数
				mask=back_coloring,  # 设置背景图片
				)
				# 根据频率生成词云
				wc.generate_from_frequencies(extract_keywords())
				# 显示图片
				plt.figure()
				plt.imshow(wc)
				plt.axis("off")
				plt.show()
				# 保存到本地
				wc.to_file("wordcloud.jpg")

这里需要注意的，WordCloud默认生成的词云为矩形的，如果需要自定义词云的形状，需要提供一张二值化的图片，生成的词会填充图的黑色部分。

wordcloud对中文的支持不太好，需要自己设置字体，自己文件在项目中。ttf的字体可以去系统中提取。

完整的代码实现

代码可见我的github

				# -*- coding: utf-8 -*-
				from __future__ import print_function
				import jieba.analyse
				import matplotlib.pyplot as plt
				from wordcloud import WordCloud
				jieba.load_userdict("namedict.txt")
				# 设置相关的文件路径
				bg_image_path = "pic/image2.jpg" # 二值化图片
				text_path = 'jsjs.txt' # 《今生今世》文本
				font_path = 'msyh.ttf' # 字体
				stopwords_path = 'stopword.txt'
				# 函数体见上文
				def clean_using_stopword(text)
				def preprocessing():
				"""
				文本预处理
				:return:
				"""
				with open(text_path) as f:
				content = f.read()
				return clean_using_stopword(content)
				return content
				# 函数体见上文
				def extract_keywords():
				if __name__ == '__main__':
				draw_wordcloud()