タグクラウドもしくはワードクラウドの練習(続)
Rを使ってワードクラウド(タグクラウド)を作る練習の第2弾。
今回は文章(テキストデータ)を使って,その中のキーワードを抽出し,タグクラウドで出現回数を表示してみる。
まず,今回,対象とするテキストは今まで翻訳に取り組んできた(参照):
ウィンストン・チャーチル『マラカンド野戦軍物語』
の全文である。テキストデータはグーテンベルク・プロジェクトのページから手に入る:
"The Story of the Malakand Field Force: An Episode of Frontier War by Churchill"
テキストデータをダウンロードしたら,次は保存先に注意。
Rのワーキングディレクトリの下に"corpus"というディレクトリを作り,さらにその中に"target"を作っておき,この"target"ディレクトリの中に保存する。
そしてRを立ち上げて,以下の通り作業に移る:
<パッケージの読み込み>
まず,パッケージを読み込む。
<テキストデータの読み込み>
つぎに,分析対象とするテキストデータを読み込む。今回は"./corpus/target"の中に保存したので,そのディレクトリに到達できるようにパスを設定する。
そして,そのテキストデータをもとに「コーパス」を作る。コーパスは"docs"というオブジェクトに保存される:
<コーパスの整形>
次に,コーパス内のデータを整形する。例えば,"/"とか"@"とかいった記号を半角スペースに変換したり,大文字を小文字にしたり,"a"とか"the"とか"I"とか,頻出する単語を削ったりする。
<コーパスの構造化>
コーパスを構造化して,wordcloud関数が読めるようにする。
<ワードクラウドの作成>
単語とそれぞれの登場回数をまとめたデータフレームを作り,それをwordcloud関数に読み込ませて,ワードクラウドを作成する。
さて,こういうのができたら完成:
"enemy"がトップ。そして軍人の階級やら兵科やらの単語が良く登場する。やはり戦記物らしい結果。
| 固定リンク
「R」カテゴリの記事
- 統計実務の好著が出た:朝野煕彦『入門 多変量解析の実際』(2018.06.04)
- タグクラウドもしくはワードクラウドの練習(続)(2018.05.17)
- タグクラウドもしくはワードクラウドの練習(2018.05.16)
- Rでネパールのdistrict別人口密度の塗分け地図を作る(2018.04.06)
- Rで雨温図(Hythergraph)を書く(その3)(2017.04.25)
コメント