原則匿名で公開・個人情報は送られません。必要に応じ御署名/非公開希望をお書き添え下さい。
_ 掲示板:YaPW 旧掲示板 SMIL Boston日本語訳(頓座)
_ 妙に自覚的に欝に向かっているのを知ってみたり。
よくないな、と思いつつ足掻かない。足掻いたってしょうがないし、できる範囲で動くだけ。
_ おうちでのできごと。今更サターン版サカつくをやってる私の隣で、T-ruth氏がメモリーズオフをやってたり。
でもって、サカつくって基本的に単純作業なわけだから、隣をケアする余裕があるわけだ。いちいち喋ってくれるから、見なくてもストーリー分かるし。
ちうことで、なんとなく鑑賞。F&Cなギャルゲーをベースに、ONEあたりを風味としてミックスしたような感じ。まあ、及第点じゃないんでしょうか。ことさらにやってみる気にはならんけど。
_ そういや、二段階にストーリー分岐するギャルゲーってないでしょうか? いえ、各ヒロイン毎にシナリオ分岐した後で、もう一回大きくシナリオ分岐しないかな、と思ったもので。三角関係のシナリオとか、略奪愛のシナリオとか、面白そうだなあ、と。
とはいえ、一度特定のキャラに向けさせたプレイヤーの目を、別のキャラに向けさせるのが大変な気がします。嫌なとこ見せて、それでもお前はこの娘が好きかって選択迫ればいいけど――それとも、虚構の中でそんな現実めいたことする必要ないのかな?
でも、ストーリーをこそ指向するなら、面白い選択だと思います。
_ そういえば、そろそろProgressive5のことも考え始めないといけませんな。「次回は来年夏」ってことでしたし。ゆっくりスタートして、じわじわ吹かしながら、でも締切りはかなり早く設定したいと思います。寝かせる時間を最低二ヶ月は取りたい、というのが編集人の意向です>参加予定各位
_ そういえば、マトリックスを見に行ったときに、ついでに「モモ」を買ったのです。その日のうちに読みました。当然のように、もう全力で敗北な気分。
昔は気付かなかった、小さな小さな言葉の列。その裡に抱える大きな大きなキモチ。このぐらいシャープに、一つ一つの言葉を綴っていけるだろうかと、ふいに思い悩んでみたり。
_ そんな気分はさておいて宿題に手を伸ばす。
火塚たつやさんの、『Kanon−カノン−』構造分析へのツッコミなんか。
_ ところでネットワークって、感情→評論へのブレインストーミングの手段として、有効だと思うのです。単なる会話と違って、記録が残るのがよいです。もちろん、相手に恵まれるという前提があってこそですけど。
_ 「日本語混じりの文章を、ある程度の大きさに切り分ける」プログラムを組んでみたり。だいたい文節単位で区切れるように、「漢字とそれに続くかなor記号」を1ワードとして切り出し。
参考にしたのは、こちらのEUCコード表。思ったよりすんなりいって、拍子抜け。
テスト動作させてみたところ、ひらがな、カタカナ、記号、漢字、それに漢字の補助で使われる文字(「々」とか)&「ー」ぐらいには分けたほうがいいようで。ちうことでそのように改造。それでも、安易に組んだ割には結構分かれます。
_ 具体的には、簡単な日本語全文検索システムに使おうかという前提の下で。
あとはインデックスの作成法なんだけど……肝心なのはどう考えてもそっちですよね(^^;
っても、日本語全文検索エンジンソフトウェアのリストから、KISS-Search β3とか、Afri Splendid Search 1.0とかはみつけてあるので、単純に使うだけならそのへん落とせばいいのに(--;
_ ときに、シナリオライターの手落ちって発言は、確かに自分でもあんまりな発言ではないかとは思ったりもしてたりはするのです。が、「18禁」というレッテルを貼られる前提で商業に乗せるのであれば、それを最大限活用するのがプロのクリエイターの正しい姿ではないかとも思うわけで。
そーいうシーンって、とにもかくにも印象的な=インパクトの強いシーンですから、「それを使わないのは勿体ない!」と考えてしまうのです。
あ、「18禁なシーンを活用」ってのは、前後の文脈の微調整も含みます。
もとがメンタルな話なのですから、行為することにメンタルな意味付けをしてやった上で、対応した微調整を各所に施せば、全体の構造を変更せずとも十分印象が変わると思います。あくまでも予想に過ぎませんけどね。
_ 趣味のプログラミング……ってことで、日本語全文検索システムの構築を続行中。
さしあたり、KISS-Searchなんかと同様に、シグネチャ法を使用する方向で試験中。
_ もう一つの案は、「履歴によるインデックス+単純検索法」
過去において検索された語についてのみインデックスを作成し、未知の語が要求されたときには単純検索を行なうというもの。
メーリングリストなど、比較的小規模+特定の方向に話題に集中する、という条件下ではそれなりの威力を発揮するであろう。難点は、未知の語の検索時に多大な負荷がかかること。特に、(テキスト群に対して)無意味な語の検索が行なわれた場合、負荷に加えて無価値なインデックスが生成されてしまうことになる。インデックス量の増加は、検索速度の低下につながるから、これはあんまりよろしくない。
一応、「極端に高いヒット率を示した語は、(インデックスではなく)ストップワードリストに登録する」ことで対応はできるとは思うのだけど。
_ ところでこれって、ちゃんと話を詰めていくと学士論文ぐらいはでっち上げられそうな気がしないでもない(--; ろくに学生らしいこともやらんで、なにやってるんだか。
_ 全文検索システムを作ってみる、の続き。
幾多のバグを乗り越えて、シグネチャ法のためのファイル→ビットベクタ変換プログラムと、ビットベクタを利用した検索プログラムがとりあえず完成。と言っても、KISS-Searchの原理説明にほぼ沿うようにアルゴリズムを組んだだけ。ソースを見てないのは、果たして救いなのかそれともただの無駄なのか。
_ ところが、ローカルでのテストでは、ビットベクタが非常に「密」(ほとんど"1"で埋っている)な状態になってしまった。テスト対象となったのはこのふりーとーくの今年分だ。
こいつの原因は簡単に推測できる。対象となるテキストファイルが長すぎるのだろう。テキストが長い→「語」が多い→ハッシュ値が多岐にわたる→ビットベクタがほとんど"1"になる、という結果になってしまったのだろう。ある程度予想はしていたけど、困りものである。
_ 対策は、
ってあたりだろうか。
1は、「コンパクトなシグネチャファイルを使った検索」と反するのでパス。
2は、現状以上に賢くしようと思うと、語解析部分が肥大化するのが見えているのでパス。
3は私の数学力がついていかないのと、どれほど効果があるかが疑問なのでパス。
ちうことで、今のところ4が有力(^^;
_ 実際、「シグネチャ法は長いファイルに弱い」というのはアルゴリズムの性質であって、1-3というのは対処療法的にごまかす策に過ぎない。
元のテキストをコンパクトにしてやれば問題は解決するのだから、元のテキストを章ごととかに区切ればいいだけである。
実際、システム利用の本命となるところでのテストでは、結構「粗」なビットベクタが生成できた。ちょうど、コンパクトなファイルが沢山あるような状況下である。かなり有効に働きそうな感じ。
_ そんなわけで、あとはインターフェース回りを設計すればOK。ま、いつものカンタンCGIプログラミングですな。
_ 全文検索システムは無事テスト版を試用開始。
今のところ無事に動いているようで幸せな気分。
いよいよ次は公開準備、フリーソフトってよりは「簡易検索システム用perlライブラリ」として公開しようかな、というのが今のところの腹積もり。
_ その前に自分のページ用の検索システムとしてカスタマイズ、をやるべきか。情報の散逸っぷりはヒドイもんだし(--;
昨日書いたような事情もあるので、ふりーとーく用は「1回分」を一つのテキストとして切り分けてシグネチャ化する方針。むしろ、検索システム込みの日記システムとして構築してしまうべきかもしれない。
土佐日記あたりとかぶるような気もするが、気にしない。