2026-05-19
Mozc UT dictionaries are additional dictionaries for Mozc.
Merge-ut-dictionaries merges the UT dictionaries into one and modify it for the latest Mozc.
They need more Stars.
Mozc: 1930 Stars
Fcitx5-mozc: 82 Stars
Merge-ut-dictionaries: 40 Stars
Starring a repository also shows appreciation to the repository maintainer for their work. - GitHub Docs
リポジトリに Star を付けるということは、リポジトリメンテナに対してその作業についての感謝を示すことでもあります。- GitHub Docs
git clone --depth 1 https://github.com/utuhiro78/merge-ut-dictionaries.git
Comment out unnecessary dictionaries in src/merge/make.sh.
Default settings:
#alt_cannadic="true"
#edict2="true"
jawiki="true"
#neologd="true"
personal_names="true"
place_names="true"
#skk_jisyo="true"
sudachidict="true"
cd src/merge/
sh make.sh
cat mozcdic-ut.txt >> ../../../mozc-master/src/data/dictionary_oss/dictionary00.txt
Build Mozc as usual.
Uncomment #generate_latest="true" in
src/merge/make.sh.
It downloads the latest “jawiki-latest-pages-articles-multistream.xml.bz2” (over 4.2 GB).
mozcdic-ut.txt (generated by merge-ut-dictionaries): Combined
You can combine the UT dictionaries.
jawiki-latest-pages-articles-multistream-index.txt: CC BY-SA
merge-ut-dictionaries use it to generate the costs for words.
dictionary*.txt in Mozc: BSD-3-Clause
merge-ut-dictionaries use them to remove duplicate words.
id.def in Mozc: BSD-3-Clause
merge-ut-dictionaries use it to update ID.
Source code: Apache License, Version 2.0
2023-01-11:
「mozc ut」を検索するとこんなツイートがあった。
暗黒美無王 dark Vim@ShougoMatsu · 7,463 フォロワー
なぜLinux日本語入力が終わるのか。これは簡単な話です。
Linux日本語入力なんてLinuxデスクトップを直接使ってる人にしか需要がないのです。
2023年1月9日 · 897 件のいいね山田ハヤオ@Hayao0819 · 6,325 フォロワー
これは一番自分が危惧してること
インプットメソッドは中国のちからがあるのでなくならないとしても、MozcはGoogle依存だしUt系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね
まず暗黒美無王さんのツイートから。
Linux日本語入力が終わる理由は、作っている人に聞かないとわからない。プロジェクトをやめる理由は人それぞれだし、他人が「簡単な話」として語るものでもない。
MozcのLinux対応は2010年5月から行われている。10年以上続いたプロジェクトが終わるとき、ユーザーから言える話は「プロジェクトメンバーへの感謝」しかない。
次に山田ハヤオさんのツイート。
「中国のちからがあるのでなくならない」「Google依存なのでまともな方法ではない」と言うのは、作っている人へのリスペクトがなさすぎる。
UT辞書に関して言うと、山田さんは過去にも「-ut系はライセンスが複雑で不透明」「法的な部分が怖い」とツイートしていた。
山田ハヤオ@Hayao0819 · 6,325 フォロワー
Ibusはビルドに失敗するのと-ut系はライセンスが複雑で不透明なので使ってないです
2021年9月3日 · 3 件のいいね
それで法的な部分が怖いので、開発のかなり初期段階でut系は無理=ibusは難しいという結論になっています
2021年9月4日 · 2 件のいいね
「法的な部分が怖い」と言われると、作っている方はもっと怖くなる。山田さんが法曹関係者ならすぐに公開をやめるところだが、そこはよくわからなかった。
当時のUT辞書では src/dict/{neologd,personal-names,place-names}
のように、1つのパッケージにすべての辞書を収録していた。LICENSE
ファイルに辞書名とライセンスを列挙していたので、「ライセンス的に微妙」「ライセンスが複雑で不透明」「法的な部分が怖い」と判断されたようだ。
ライセンスが異なる複数の辞書を組み合わせることは、mecab-ipadic-NEologd
や SudachiDict
でも行われている。問題はないだろうと考えて、このときは公開を続けた。
今回のツイート。
Ut系辞書はライセンス的に微妙なのでまともな方法がほしい
2023年1月9日 · 61 件のいいね
最初に見たとき、「いいね」が30件以上ついていて驚いた。リロードするたびどんどん増える。
今後も同じようなことを言われ続けるのはしんどいし、山田さんにはフォロワーが6000人以上いるので、そこからの反応もあるだろう。
UT辞書はフリーの配布物なので、余計なリスクは背負えない。
山田さんのツイートを掲載して、UT辞書の公開終了をアナウンスした。
2023-01-13:
暗い気持ちになっていたが、ライセンスをシンプルにする方法を思いついた。
すべての辞書を分割して個別のリポジトリに置く。そうすれば個々のライセンスはシンプルになる。
組み合わせた辞書は配布せず、ユーザーが各自で生成する。
2023-01-15:
各辞書のリポジトリを作成した。
merge-ut-dictionaries のリポジトリを作成した。
2023-04-00:
UT辞書終了のアナウンスをしてから、Mozc関連の話題は見ていなかった。
作業が落ち着いたので少し調べてみると、山田ハヤオさんが「Mozc Re-UT
Dictionary」を作っていた。
Hayao0819/Re-UT
Mozc Re-UT Dictionary. 本家Mozc-UT辞書様の代替を目標としたオープンソースプロジェクトです。
すごいことをするなあ。
山田さんが誰かのクレームをきっかけに自分のプロジェクトをやめて、クレームを書いた人が「Re-Hayao」と名付けたプロジェクトを始めたら、山田さんはどう思うんだろう。
Mozcチームの皆さんと、Fcitx開発者の wengxt さんに深く感謝。
ユーザーからの感謝がないと、オープンソースソフトウェアは続かないと思う。
主な更新のみ記載。
2010-11-03:
Mozc UT辞書をリリース。コストは大雑把につけた。
2016-01-14:
Mozc NEologd UT辞書をリリース。コストは mecab-ipadic-NEologd
のものをベースにした。
2016-10-13:
Mozc UT辞書を入れたパーティションを壊してしまったので、作り直してMozc
UT2辞書としてリリース。
2016-10-20:
Mozc
UT2辞書のコストをWikipedia全記事(解凍前で3GB)から計算するようにした。表記を全記事内で完全一致検索して、ヒット数からコストを計算する。この処理には長い時間と高い負荷がかかった。
2020-02-06:
NEologd辞書のコストをWikipedia全見出し(解凍前で12MB)から計算するようにした。mecab-ipadic-NEologd
には表記が320万個あるので、すべての表記をWikipedia全記事(解凍前で3GB)内で検索すると時間がかかりすぎる。そこで表記を全見出し内で前方一致検索するようにした。
2020-06-11:
UT2辞書とNEologd辞書をまとめて、改めて「Mozc
UT辞書」としてリリース。コストの計算方法はNEologd辞書のものに統一した。
2020-06-22:
jawiki辞書を追加。Wikipedia全見出しを表記とし、記事本文から読みを得て、辞書を作成した。jawiki辞書はユーザー自身でアップデートできるので、新語を簡単に追加できる。1人の辞書作成者の努力に頼り切らない仕組みが必要だと考えた。
2021-02-15:
SudachiDict辞書を追加。
2023-01-15:
辞書を個別のリポジトリに置くようにした。
組み合わせたUT辞書の配布をやめた。
merge-ut-dictionaries のリポジトリを作成。
2024-07-04:
辞書生成コードを Python で書き直した。オリジナルは Ruby。
2024-10-22:
辞書生成コードをすべて merge-ut-dictionaries/src/
に置くようにした。辞書を個別のリポジトリに置いたときに一部のコードもそこに置いたのだが、コードが分散していると開発効率が下がる。
2026-04-03:
辞書生成コードを Google AI のアドバイスを得て改良。