词云 | 利用tagxedo做词云可视化
词云从哪里来?
词云是依赖语料与语料关键词呈现的,这里需要准备两个数据:关键词与关键词的词频,词频决定了关键词显示的大小。
确定主题,准备语料:冒着生命危险把与姑娘的聊天记录翻了出来作为语料,想想为了科学我也是蛮拼哒。
在获得语料后,如果需要抽取关键词,就需要学习中文分词。以前中文分词对大多数人来说存在技术难点与障碍,但是现在中文分词是一个简单而通用的技术,很多软件和在线工具都可以完成一般意义下的分词,推荐初学者从武汉大学ROST虚拟学习团队贡献的ROST ContentMining内容挖掘工具入手。分词主要考虑是否可以用户自定义词典和剔除、词性标注等,少量语料的分词比较简单,但海量语料的分词有难度,需要有一定的数据处理能力。
特别提示:任何中文分词如果能够加入人工干涉与主观判断都会提升准确性和有效性。
利用ROST-CM工具进行分词
请小伙伴们自行百度下载、把玩ROST-CM,利用其【功能性分析】中的【分词】与【词频分析(中文)】来获得构建词云的关键词与关键词的词频,当然若能加入人工干涉与判断将会提高分词的准确性,最后把分词结果保存为“关键词”“词频”两列数据组成的.txt文本文件。
tagxedo在线制作个性化词云
Tagxedo词云 Tagxedo - Word Cloud with Styles是一个在线制作词云的工具,操作非常简单,略微把玩即可学会,这里只介绍几个功能点:
- Load…装载关键词和词频:可以直接提交语料自带分词和词频,也可以提交分词后的关键词和词频,用分隔符分成两列。
- Shape选择形状或自定义图形:从内置形状菜单选择或Add Image随心所遇地选择自己喜欢的图形。图形可以直接用彩色图片,上传图片后可设置黑色或白色呈现词频。
- Theme选择配色主题:根据自己的爱好,选择配色方案和突出强调,我喜欢玫红色的主题。
- Word|Layout Options…分词与布局参数设置:这步对中文很重要,主要是两个选项 1.在Word页卡中把Apply Nonlatin Heuristic设定为“No”,这样就不会把中文分词为单字词,2.在Skip页卡中选择不需要展现的关键词。
- Save|Share…完成保存与分享:确认满意后就可以把词云保存了,选择jpg或png格式与合适的大小保存即可。
阅读词云
咳咳,从聊天的内容看,“车源”“车型”“二手车”“拍卖”关键词出现的频率最高,都是与工作相关,也是醉了;而后瞥见“晚上”这个词乱入了,细思极恐啊=_=#
浏览完词云基本上还是可以看出我是一个认证工作的好少年……
Thanks!
了解更多,查看中国传媒大学沈浩老师博文