クリーンリーダーエンジン

当社の構造化フィルタリングループは、記事の真のセマンティックな核心部分を抽出し、プレゼンテーションの負荷やトラッキングスクリプトを98%削減します。

高度な構造的排除と可読性エンジニアリング

最新のウェブページは単なるドキュメントではなく、相互接続された広告追跡ネットワーク、行動データ収集エンドポイント、侵襲的なインターフェースレイアウトからコンパイルされた重いソフトウェアスタックです。ユーザーが通常のニュースレイアウトのリンクをクリックすると、クッキーバナー、フローティングニュースレターのオプトイン、構造的なペイウォールコード要素、およびビデオ広告の読み込みを強制されます。これらの要素は、リーダーがアクセスしようとしているテキスト自体を隠します。 Legibilize Clean Reader Engineは高度なデータ構造削減を使用してこのコードの肥大化を体系的に取り除き、純粋な記事テキストを分離します。

抽出パイプラインの内訳

対象のドメイン文字列をシステムに入力すると、Legibilizeは安全でサンドボックス化されたcURL取得ストリームを実行します。標準的なウェブブラウザのようにドキュメントを実行する(これによりセカンダリネットワークのペイロードがトリガーされ、トラッキング配列がアクティブになります)のではなく、バックグラウンドサーバーエンジンはドキュメントを生の静的コードファイルとして評価します。この設計アプローチにより、不正なトラッキングコードや悪意のあるスクリプトが個人のマシンで実行されるのを防ぎます。

生のドキュメントが運用データスタック内に安全に保持されると、3つの連続したアルゴリズムフィルタリングループを通過します。

1. フットプリントベースのクラスとIDのサニタイジング

商業マーケティングフレームワークおよびコンテンツ管理スイートは、ドキュメントコード内に非常に予測可能なフットプリントを残します。パイプラインは、対象のレイアウト要素と何千もの既知のトラッキングシグネチャの辞書を照合します。`sidebar-ad`、`promo-wrapper`、`marketing-trigger`、`social-share-sticky` などの識別子でタグ付けされた構造コンテナは、ページが画面に描画される前にドキュメントオブジェクトツリーから完全に削除されます。これにより、サイト全体のファイル重量が最大98%瞬時に削減されます。

2. リンク密度評価ループ

クリーンな読み取り抽出の最も難しい部分の1つは、実際の記事のコピーを、関連する記事リンクを含むサイドバーから分離することです。Legibilizeレイアウトプロセッサは、構造密度スコアを介してこれを処理します。コードは、すべての構造レイアウトボックス内のハイパーリンク単語と通常の文の単語の比率をカウントします。実際の段落のリンク密度は非常に低いです。著者は、頻繁ではない外部参照で自然なテキストを書くためです。サイドバーとマーケティンググリッドは、ほとんどネストされたリンクで構成されています。レイアウトコンテナが厳格なリンク密度パラメーターを超えると、エンジンはそれを非本質的であるとフラグを立て、レイアウトツリーから安全に削除します。

3. 純粋なセマンティックHTMLの再構築

すべての本質的ではないマーケティングタグが削除された後、残りの生のフラグメントからレガシースタイルプロパティが剥ぎ取られます。Legibilizeエンジンは、純粋なセマンティックビルディングブロック(標準の構造見出し、単純な段落コンテナ、ネイティブ画像アセット、基本ブロッククォート)のみを利用して、ドキュメントを最初から新しく構築します。すべてのネストされたレイアウト、カスタムスタイルフレームワーク、悪意のある非表示要素は、サンドボックスコンテナに残されます。

究極のデジタルサンクチュアリのアンロック

結果として得られるドキュメントレイアウトは、プレミアムで気を散らさない読書サンクチュアリに表示されます。トラッキングスクリプトをバイパスすることで、モバイルデバイスはバッテリー寿命を大幅に節約し、より低いハードウェア温度で動作します。クッキーポップアップはスクロール距離を追跡できず、ブロッキング層がレンダリング前に剥ぎ取られるため、ペイウォールは頻繁にバイパスされます。ディープフォーカス専用に設計された高速、安全、クリーンな読書スペースが残ります。