タグクラウドもしくはワードクラウドの練習
今頃知ったのだが,キーワードの出現回数を文字の大小で表現するグラフのことを「タグクラウド」もしくは「ワードクラウド」と呼ぶのだそうだ。こういうやつ:
多分,"R"でできるだろうと思って,調べてみると,"wordcloud"というパッケージを使えばできることがわかった。
そこで,ちょっと練習してみる。
こういう例題を考えてみた:
alpha, beta, gamma, deltaという4つのキーワードがある。 ある文章中に,それぞれ40回,30回,20回,10回出現した。 これをワードクラウドで表現してみよう。
まず,R上で,alpha, beta, gamma, deltaの出現回数をまとめたデータフレームを作ってみる(参考:"R-Source 39. データフレーム事始")。
すると,こんなデータフレーム"dd"ができる。
つぎに,"wordcloud"というパッケージを呼ぶ。これはRに初めから入っているわけではないので,あらかじめどこかのサイトからパッケージをインストールする。そしてライブラリーから読み込む。
すでにデータフレーム"dd"ができているので,これを関数"wordcloud"に放り込めばいい。
すると,こんなワードクラウド(タグクラウド)が表示されるはず(並び方は実行する度にランダムに変わる):
フォントの大きさが出現回数の多さを表している。
さて,このワードクラウド,黒一色で面白くない。そこで,色の指定をしてみる。まずは,グレースケール。
出現回数が少ないほど,色が薄くなる設定の4段階のグレースケールである。先ほどの関数"wordcloud"に,色指定のパラメータを加えてみる:
実行すると,こんな感じになる:
今度はヒートカラー「黄色→オレンジ→赤→濃赤」という指定をして実行してみる:
実行すると,こんな感じ:
ということで,wordcloudの最も簡単な例題終了。
近いうちに,自然言語処理をしてワードクラウド(タグクラウド)を作ってみる。
予習用資料:
"Build a word cloud using text mining tools of R"
「R言語で小説を読もう累計1位の「無職転生- 異世界行ったら本気だす - 」をタグクラウドしてみた。 」
| 固定リンク
「R」カテゴリの記事
- 統計実務の好著が出た:朝野煕彦『入門 多変量解析の実際』(2018.06.04)
- タグクラウドもしくはワードクラウドの練習(続)(2018.05.17)
- タグクラウドもしくはワードクラウドの練習(2018.05.16)
- Rでネパールのdistrict別人口密度の塗分け地図を作る(2018.04.06)
- Rで雨温図(Hythergraph)を書く(その3)(2017.04.25)
コメント