蝸牛の歩み

蝸牛の如く,ゆっくりでも着実に前へ・・・

idea:3882のテスト

「娘疑惑。」と書くと「娘。」がキーワード抽出されるという.以前,id:xnissy:20050217:p1で書き,またidea:2397で指摘された,キーワード抽出の問題点(良寛さん・法然さん問題)は,2バイト文字を1バイトずつ比較していたために起こった問題だった.これはid:hatenadiary:20050608:1118200414で修正済みというアナウンスがされている.今回の「娘疑惑。」のEUCコードを16進数にすると「%CC%BC%B5%BF%CF%C7%A1%A3」,「娘。」→「%CC%BC%A1%A3」.1バイトずつ比較しても,「娘疑惑。」の中に「娘。」は含まれていない.やはり以前の問題とは別問題のようである.
また,気になって調べてみたところid:xnissy:20050217:p1の「じた劇場専属」にキーワード「犬神」がヒットするという問題は未解決であった.

一体どのようなメカニズムでこういうことが起こるのだろうと疑問に思ったのだが,idea:3882のコメントで,やっと理解できた.

cx20 『正に疑惑(笑)。面白いのでベット。"key123word" - "123" = "keyword" って感じで抽出してるのかな?』
Z9M9Z 『「娘タッチ。」「娘創聖のアクエリオン。」などキーワードを挟むと再現できるようです。』

「じた劇場専属」%A4%B8%A4%BF%B7%E0%BE%EC%C0%ECの中には,キーワード「劇場」%B7%E0%BE%ECが含まれている.これを除くと「%A4%B8%A4%BF%C0%EC」となる.そして,この中には「犬神」%B8%A4%BF%C0が含まれているのである.