Web茶まめについて

基本的な使い方はトップページの説明をご覧ください。解析前処理や辞書選択、研究発表などでの引用の仕方については下記をご覧ください。


「Web茶まめ」の解析前処理

「Web茶まめ」が利用する辞書UniDicは、原則として1文ごとに改行された全角文字の漢字ひらがな交じりテキストにのみ対応しています。
適切な解析結果を得るために、必要に応じて解析前処理オプションを☑チェックしてください。 複数の前処理オプションを同時に選択できます。

☑HTMLタグ・《》タグを削除
HTMLタグやフリガナ記号を除去します。例:海豹《あざらし》の鰭《ひれ》 → 海豹の鰭
☑半角→全角変換
半角文字を全角文字に変換します。例:100m → 100m
☑踊り字を展開
ゝゞヽヾなどの踊り字を対応する仮名に変換します。例:こゝろ → こころ
☑カタカナひらがな反転
カタカナとひらがなを入れ替えます。例:天ハ人ノ上ニ人ヲ造ラズ → 天は人の上に人を造らず
☑数字処理
算用数字を漢数字に変換します(NumTrans処理)。例:100年、1994年 → 百年、一千九百九十四年
☑改行処理
改行文字を削除して「。」の後に改行文字を挿入します。 例:本日は晴天な↵り。明日は曇↵天なり。 → 本日は晴天なり。↵明日は曇天なり。↵


「Web茶まめ」の辞書選択

どの辞書で解析するのが適切か比較検討するために、2つまでのUniDic辞書を選択して解析結果を比較することができます。IPAdicは比較できません。
各辞書の主なターゲットは下記の通りです。


「Web茶まめ」のリファレンス

「Web茶まめ」そのものについて論文等で参照する場合には、下記の文献を引用して下さい。

「Web茶まめ」で利用する形態素解析用の辞書について論文等で参照する場合には、各UniDic辞書のダウンロードページにある文献を引用して下さい。下記はその例です。


「Web茶まめ」の解析器と辞書

「Web茶まめ」で利用している各種のUniDic(解析用の辞書)は、下記のページからダウンロードできます。形態素解析器 MeCabと組み合わせて自身のPCで解析を行うことができます。辞書の説明についても下記のページをご確認下さい。


「Web茶まめ」の由来

「Web茶まめ」はかつて小木曽が作って公開していたUniDicを利用するためのデスクトップアプリケーション「茶まめ」をもとにオンラインアプリケーションとして開発したものです。「茶まめ」は2007年10月以降に公開されたWindows版のUniDicパッケージに同梱する形で配布されていました。

「茶まめ」の名前の「茶」は、形態素解析器「茶筌」(ChaSen) 以来、NAIST 松本研で作られたソフトウェアの多くに茶(cha)に関わる名称がついていたことに倣ったものです。「まめ」は当時、小木曽が作っていた小さなソフトウェアにつけていた名前で、人文系研究者が作れる小さな豆ソフトでも小回りがきいて自分たちの研究に役立てられるものを公開しようとしてきたものです(siomame,aomame, edamameなどがありました)

なぜオンライン版が「Web茶まめ」なのかというと「だだちゃ豆」みたいな語感が気に入ったからです。

2023/10/19 小木曽


Web茶まめに関するご質問等は「お問い合わせ」ページからお願いします。
WebChamame (2015-2024) by Toshinobu OGISO and Tomoaki TSUTSUMI.