投稿

6月, 2022の投稿を表示しています

電子書籍の文字列検索が期待外れだった件

イメージ
 前回、前々回と洋書の電子書籍が国内の電子書籍よりもずっと便利であることを記した。(iOSのブックアプリ、ブックストア利用) 確かに便利であるが、実際に何度も使ってみると見えてくる事もある。 電子書籍の便利さの一つの要素として単語や文節を検索できる事が挙げられる。 辞書の場合は見出し語だけではなく、例文も含めて検索が可能であり、紙の辞書では体験出来ない利便性を享受できる。 さて、その便利な検索ではあるが、実際に使ってみると検索システムに工夫が無い事に気がつく。 私は長く検索システムに関わっており、普通の人よりは詳しい方なので、その問題について記しておく。 これは「anh」で検索した例。 しかし、検索結果の上位に一つも「anh」が無いことに気がつく。 発生している問題は2つある、「anh」で「th anh 」等のanhを含む単語がヒットしている。 もう一つは声調や母音の種類を表す発音記号が無視されている。「anh」で「ảnh」がヒットしてしまっている。 このため関係ない単語が大量にヒットし、「anh」を含む単語を見つけるのが困難になっている。 こういうのを私は検索のノイズと呼んでいる。 「anh」の場合は二種類のノイズが同時発生した事で大量のノイズが発生した。 何故このような事になるのか? まず、より問題の大きい前者の部分一致について記す。 例えばGoogleスプレッドシートやドキュメントで検索しても検索精度は似たようなものであり、この結果を仕方ないと思う人もいるかもしれない。 ただ、それは大量の文書に対して検索することを前提としていないスプレッドシートやドキュメントでは許されるのであって、大量のテキストから検索する必要がある状況ではそれなりにちゃんとした検索システムを構築するべきである。 電子書籍のような数百ページの本から単語を検索する事が通常である環境ではちゃんとした検索システムを構築して欲しいと思う。 通常、データベースに対して全文検索を行う場合は、検索精度を向上させるために言語ごとに特化した調整が行われる。 英語やスペイン語等の欧米の言語では単語をスペースで区切る分かち書きが行われている。 なので、スペースを単語の区切りとして、単語が完全に一致するものをヒットするようにするのが一般的である。 そうすれば「ACE」で「SPACE」がヒットしてしまうような事はなく

ベトナム語の電子書籍を購入したら更に便利だった件

イメージ
 前回、英語圏の電子書籍を購入してみたらとても便利だったことを記した。 ずっと便利に使っているけど、英語が得意ではないので絵の無い単語だと説明を読むのがちょっと手間。 そこで、そもそもベトナム語の電子書籍を探せばよいのではないかと気がついた。 ベトナム人向けの日本語学習サイト「 Mazii 」はプレミアム契約をしてしまうほどよく使っているのだから、電子書籍もベトナム人向けの日本語辞書を探せば良い。 早速、iPhoneのブックアプリで日本語を意味する tiếng nhật を検索 直ぐに出てきた! Sách từ vựng tiếng Nhật (日本語の語彙集) 3000語も収録されていて、僅か650円! 不安な場合はサンプルを見ることができる。 サンプルでも67ページも収録されている。 そして、これが日本人のベトナム語学習者にとっても有益だということはぱっと見てわかる。 早速、ベトナム語で検索 mèo (猫) mèo 猫だけではなく、mèo が含まれるcon gấu mèo アライグマもヒット! これは便利! では、逆に日本語で検索「猫」 問題なく、「猫」もヒット 便利過ぎる! 早速購入、一瞬で購入完了 閲覧開始 836ページもある といっても、これは画面サイズによって可変するページ数なので画面の小さいiPhone13miniではこのように多くなるけど、iPadProでみたら365ページだった。 そして、元となっている紙の本は240ページだと記されている。 結構大きなサイズの本なのだろう。 紙の本として持ち歩くのはかなり疲れそうだが、iPhoneなら胸ポケットに入るし、ちゃんと文字をテキストとして認識しているのでiPhoneに最適化されて表示されるので読みやすい。 そして、先に記したように検索はかなり便利 外出中でも、いつでもどこでもぱっと単語を検索できる それで、ほかに日本語関連の本がどれくらいあるのかとappleのブックアプリでブックストアを検索していたのだけど、探しづらい・・・。 ここはちょっと残念なポイント。tiếng とnhậtが含まれる本が次々と表示されてしまう。 tiếng とnhật が続いている場合に評価を上げて検索結果を最適化すれば良いのだけど、そうした工夫が無い。 しかもタイトルではなく説明の中に2つの単語が含まれているだけの本もたくさん表示

日本の電子書籍と洋書の電子書籍の差に愕然とする(ベトナム語辞書)

イメージ
 最近、洋書の電子書籍を購入してみた。 買ったのはこちらの本 Vietnamese Visual Dictionary 要は絵付きのベトナム語辞書 絵がついているので英語がわからなくても何を意味しているのかわかるので購入。 金額も僅か500円ほどと非常に気軽に購入可能 私は日本で発行されたベトナム語に関する電子書籍は既にいくつか購入しているが、辞書の類はほとんど電子化されていない為購入していない。 まぁ電子書籍ではないがベトナム語の辞書アプリはいくつかあるので、それらはほとんど購入済みではある。 しかし全ての言葉が網羅されているわけではないので辞書はもっとたくさん欲しいと思っていた。 そこでこの格安の電子書籍があったので飛びついたという次第。 感想 まず、開いて直後、買ってよかったと思った。 まず、見やすい。appleのブックアプリなので一回購入すればiPhoneからでもiPad Proからでも簡単に開ける(※)のだけど、iPhone13miniで見てもiPad Pro(12.9インチ)で見ても見やすい。読みやすい。 ※さらにファミリー共有で家族の誰でも見られる iPhoneで見るとこんな感じで、画面に合わせて調整される。黄色になっている部分はテキストを選択してメモを行った箇所 そう、文字がちゃんとテキストとして扱われているので選択してメモをすることも出来る。 テキストデータとなっているという事がわかると当然試したくなるのが検索 tiền で検索すると、見出し語ではなくても説明の中にtiền が含まれる単語が次々と表示される。 これは便利! 紙の辞書ではこのような高速な検索は不可能だし、見出しではなく説明文の中にある文字列を探すのは困難。 この電子書籍では一瞬にしてその単語の活用事例を確認できてしまう。 まさに電子書籍のメリットが具現化されている。 紙の辞書ってでかくて重くて、文字が小さくて読みにくくて、探すのにも時間がかかって、と良い印象は殆ど無い。 それに対して場所を取らず、文字は適切な大きさで表示され拡大可能、素早く検索でき、見出し語ではなくても検索できてしまう電子辞書は利便性の塊りだと言える iPad Proで縦画面だとこんな感じ。 画面が広いので情報量が増える。 でも、まぁ辞書って色んな場面で調べたくなるものなので利用頻度はiPhoneの方が遥かに多い。