DocPartsCounter


 文章に含まれているすべての言葉を、品詞ごとに切り分けて、その出現数を集計するプログラム。

 長い文章を書いていると、「この言い回し、前にも使った覚えがある」と感じることがあります。検索してみると、やはり、使っています。それも一度や二度ならず、6回くらい使っています。この調子で他にもあるのではないだろうかか? と、心配になってきます。

 ひとつひとつ検索して数えるのも大変なので、「いっそのこと、作品全てに使っている言葉を集計してしまえば早いのではないか?」と考えたのが、はじまりです。

 語彙あふれる表現に役立ててもらえれば幸いです。

■セットアップ

本プログラムでは、言語の解析にmeCabを使っています。
そのため、まずはじめにmeCabを手に入れて、インストールし、本プログラムで使える状態にしないといけません。

(1) meCab 公式サイトより、meCabをダウンロードしてくる
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html#download より、
Binary package for MS-Windows mecab-0.996.exe
( IPA 辞書が含まれているもの )
をダウンロード。
※mecab-0.98.exeでも動くことを確認しています。

(2) 「辞書文字コードの選択」でSHIFT-JISを選んで、meCabをインストールする

(3) ProgramFilesのMeCabフォルダを、まるごとDocPartsCounterフォルダにコピーする
・本プログラムでは、DocPartsCounterフォルダにコピーしてあるmeCabを使います。
・すでにmeCabがインストールある環境でも、MeCabフォルダをコピーしてください。

(4) MeCab\bin\libmecab.dll を、dpc.exeがある場所にコピーする
完成図(DocPartsCounterフォルダの中身)
MeCab ←ProgramFilesからコピーしてくる
dpc.exe
libmecab.dll ←MeCab\binからコピーしてくる
mecabrc
sample.txt
説明書.html
ここまでできれば、ProgramFilesのmeCabをアンインストールしても構いません。

※アプリケーションによっては、meCabのバージョンを限定してあるものがあるため、このような形をとっています。

■使い方

大きく分けて、二通りの使い方があります。
 (A) テキストファイルを放り込む
 (B) テキストデータを貼り付ける
 
(A)テキストファイルを放り込む
 テキストファイルをドラッグ&ドロップすると、集計結果をdpc.exeがあるフォルダに作ります。
ファイル名は○○○○.csvになります。

(B) テキストデータを貼り付ける
 テキストデータをコピー&ペーストすると、集計結果をクリップボードにコピーします。
そのあとは、表計算ソフト等にペーストして使ってください。

どちらの場合でも、データの形式は,(カンマ)区切りのcsvデータになります。

■仕様

・文字コードはSHIFT-JISであること
・1行の文字数は8192文字まで
・ひとつの単語の長さは512字まで
・文章量は400字詰め原稿用紙で1000枚まで

■こんなときは...

・プログラムを実行すると、「libmecab.dllがありません」と言われる
dpc.exeがあるフォルダに、libmecab.dllをコピーしてください。
(すでにMeCabがインストールされている環境でも、libmecab.dllはコピーしてきてください)
・プログラムを実行すると、「mecab起動失敗」と言われる
MeCabが正しくセットさせていないと、このエラーが出ます。
■セットアップを参考に、MeCabをセットしてください。

いかなる補償も保証しません。
インストーラは使っていません。いらなくなったら、そのままゴミ箱へ。

Program by も
elycnvs@yahoo.co.jp

バージョン履歴

ver3.2 (2013/9/20)
・カレントフォルダにlibmecab.dllが無いときは、メッセージを出すようにした。
・説明書をhtml形式にした