クリックで懸賞やお小遣い: ノウハウ習得でインカム増やそう! ネット収入への道に踏み出しませんか?
YST対策:ページ検索の"謎" 〜YST対策についての疑問を整理してみました〜
1 YSTの基本アルゴリズムはInktomi+HITS?
2 YSTはページ内要因を重視する?
3 ページキャッシュの"謎"(1)
4 ページキャッシュの"謎"(2)
5 リンクポピュラリティは重視されない?
6 Yahoo!にリンクを張ると効果がある?
7 過剰な相対リンク/被リンクはスパム?
8 Update Tim〜インデックス変動の"謎"
9 Update Tim〜新たなアルゴリズムへの布石?
10 Update Tim〜「基本に立ち返れ!」ってこと?

それでは、今回のインデックス数急減の原因は、どう考えれば良いのでしょうか?
[インデックス変動の"謎"]で整理した情報を参考に、いろいろ推測した結果は以下のとおりです。
(推測があっているかどうかは、皆さんの把握されている情報と照らし合わせて見て判断下さい)
1. インデックスの構造または内容を変更し、これを生成するためのアルゴリズムも変更した。

インデックスの構造または内容を変更した理由は、『Yahoo! Mindset』の投入に向けた地均しか、または増えつづけるWebページ数に対処するための「リソース軽減対策」の可能性が高い。
2. インデックスの変更によって再インデックス処理が必要となるが、このための方法としてインデックス済みのページを逐次削除し、新しいクローラーによって新たにインデックスさせ直す方式を採った。

リンクを辿りながらインデックスを変更するのではなく、データベースにあるインデックス済みのページを削除してインデックスされていない状態に戻すことで、再度クローリングされるようにした。

クローラーは、新しいリンク先のみでなく、既存のリンク先でページの内容に変更があった場合でもクローリングと再インデックスを行うため、全てのページを削除する必要はない。
3. インデックス済みのページの削除は、ゴミ掃除も兼ね、人間の判断を加えながら半自動的に行われた可能性が高い。

重複コンテンツや検索ユーザー(またはYahoo!)から見て価値が低いと思われるページは重点的に削除された。

オリジナリティーの低いブログ的な構造のページは、多少過剰気味に削除されたかも知れない。

新しいクローラーは、インデックス生成のアルゴリズムが従来と異なるだけでなく、サイト間のリンクに対して浅く広い形でのクローリングを行っている可能性が高い。(同一サイト内でのインデックスは一挙に増えない)
4. インデックスの削除とクローリングによる再インデックスの作業は、3月31日までにある程度まで完了し、新旧のインデックスが入り混じった状態でリリースされた。

これによって、4月1日のインデックス変動が発生した。

新旧のインデックスは構造が全く違うものではなく、入り混じった状態でも全体のアルゴリズムには支障しない。 (データ項目が増えただけの可能性が強い)
5. 4月1日以降も、インデックス済みのページの削除と新しいクローラーによる再インデックス処理によるインデックスの入替えが続けられており、これによってサイト単位でのインデックス数の急減が継続している。

削除は、インデックス入替えとゴミ掃除を目的として、インデックス済みのページを格納したデータベースに対して自動的に行われる。 (3月31日以前の削除条件とは異なっている可能性が高い)

削除はURL順等でソートされたインデックスに対して行われるようであり、生成(再インデックス)はリンクを辿りながら(且つ浅いクローリングで)行なわれるため、サイト単位で急減する。

生成の条件とゴミ掃除の条件との間には多少のダブリがあり、新たに生成されたインデックスが再び削除されることもある。 (削除されたり復活したりするページがある)

このダブリは、クローリング時点では判断が難しい「ページ間の重複度(オリジナリティー評価)」に起因する可能性が高い。

要約すると、SEO塾さんが云われているように、「インデックスは溜め込むだけ溜め込んだので、アルゴリズムに相応しいインデックスへの入れ替えという大鉈を振るった」と云うことかと思います。
そのアルゴリズムとは、HITS特長を生かすことが出来る『Yahoo! Mindset』のようなものではないでしょうか?

なぜ『Yahoo! Mindset』なのかと云うと、以下のように考えると、ちまたでの評価以上に戦略性を秘めた製品かも知れないからです。
(1) Mindsetには、検索結果の表示順位を商業性と情報性(非商業性)の度合いに応じて調整できる仕掛けがあり、「ユーザーの目的」を加味した検索を行うことによって、今まで以上にユーザーの要求(クエリー)にマッチした情報を検索できる。
(2) 商業性・情報性などの目的別評価には、これを分別するためのトピック源となる優良なカテゴリーサイトと、特定のトピックについてのWebコミュニティーを検出するHITSアルゴリズムとの組合せが有効であり、Yahoo!の強みを最大限に生かすことが出来る。(Googleよりも精度の高い判別が可能)
(3) 検索時に「ユーザーの目的」を把握することで、より適切な広告を表示したり、自社商用サイトなどへの誘導をはかったりすることが可能となり、現有のビジネスを更に拡大することが出来る。
(4) 次世代の検索エンジンは、出来るだけ短いクエリーで、ユーザーのニーズに最もマッチした情報が検索できるよう「パーソナライズ」化の方向に進むと見られており、Mindsetはこの方向に沿った製品である。
ベータ版の公開がYahoo! Next(米Yahoo!の次世代技術を紹介するサイト)であることも興味深い。