風呂具引っ越し/検索エンジンの小さいけど大きな違い [Web]
ブログの引っ越しについて、調べてみようと思い立った。
パソコンを開いたら、Windowsのアップデートを知らせるポップアップが出たので、アップデートをかけたら、なぜかATOKが使えなくなっていて、気付かないうちにATOKからMS-IMEに切り替わっていた。
そのときちょうど、検索窓で「ブログ引っ越し」をタイプし変換しようとしてたところで、おバカなMS-IMEはそれを「風呂具引っ越し」と変換しやがった。
その誤変換のまま勢いで検索してしまったのだけど、にもかかわらずGoogleはちゃんと、「ブログ引っ越し」と解釈してくれて、なんとそれなりの検索結果を返してきてくれた。これはすごい。
http://pht.so-net.ne.jp/photo/miyamomo/images/2734725
イマドキの検索エンジンはここまで進んでいたのかと驚いて、ついでに他の検索エンジンも試してみたら、残念ながらどれも全滅だった。
Yahoo!Japan
http://pht.so-net.ne.jp/photo/miyamomo/images/2734690
MSN
http://pht.so-net.ne.jp/photo/miyamomo/images/2734691
百度
http://pht.so-net.ne.jp/photo/miyamomo/images/2734692
Ask
http://pht.so-net.ne.jp/photo/miyamomo/images/2734693
どれも「風呂具」のまま検索している。
素人目には、Googleは誤変換に対応するための膨大な変換辞書でも持っているのかな?と思ったのだけど、会社の知り合いに聞いてみたら、Googleの場合はいったん検索のキーワードを、アルファベットに置き換えてから検索しているらしいよ、ということだった。
だからMSのIMEにも対応できるという。確かに、誤変換用の辞書なんて持っていたらあまりにも効率が悪すぎる。
ただ、世の中には「ブログ」じゃなくて、本気で「風呂具」を「引っ越し」したくて調べる人も、存在するかもしれない。
「ブログ」と「風呂具」だったら、まあ多くの確率で前者だろうけど、じゃあ「雨」と「あめ」と「アメ」だったらどう出るんだと調べたら、検索結果は当然ながら、あたりまえに普通に出てきた。
http://pht.so-net.ne.jp/photo/miyamomo/images/2734722
http://pht.so-net.ne.jp/photo/miyamomo/images/2734723
http://pht.so-net.ne.jp/photo/miyamomo/images/2734724
※アメーバが出てくるのはどうかと思うけど
いずれにしろ、この「風呂具」と「雨」との幅というか、このさじ加減はどうやってるんだろう。これまでのクエリ数でみた統計的なものなんだろうか。音読みと訓読みは?いろいろ気になってくる。
ちなみに、よく見ると「風呂具引っ越し」と「ブログ引っ越し」で検索した場合も、結果が異なっていた。
http://pht.so-net.ne.jp/photo/miyamomo/images/2734726
とりあえず、検索エンジンなんてもう、どこもあまりかわらないんじゃないかと思っていたけどこう見るとけっこう違う。
入力されたキーワードを分解してから処理するエンジンと、そのままの文字列でマッチングにかけるエンジンとでは、当然、差がでてくるはず。表意文字に対する柔軟性とか、同音異義語の吸収とか、とか。いろいろ考えられる。それに加えて変換ミスみたいなゆらぎまでも加算してるってすごい。
こういう差がどこに響いてくるのか考えたいけど、自分の頭では追いつかない。数十ピクセル幅の検索窓だけど、相当に深淵だ。
と…、気付いたらブログの引っ越しじゃなくて、検索エンジンについて調べていた。。そうやって今日も脱線をした。