2011年4月9日土曜日

Beautiful Soup ドキュメント 日本語訳

原著:Leonard Richardson
(leonardr@segfault.org)

和訳:Hirotaka Shioji

这份文档也有中文版了 (本ドキュメントは、中国語訳版もあります。)


Beautiful Soupは、Python用のHTML/XMLパーサーで、不正なマークアップでさえ、解析木に変換できます。
Beautiful Soupは、解析木を航行、検索、修正するための、シンプルで慣用的な方法を提供します。
Beautiful Soupは、一般的に、プログラマーの労働時間や労働日数を減らします。
Rubyful Soupと呼ばれるRuby用のものもあります。


本ドキュメントは、Beautiful Soup version 3.0の主な特徴を、例を混じえて、全て示しています。
本ドキュメントは、ライブラリがどういうことに役立つのか、どのように動作するのか、どのように使うのか、どうすればしたいことを出来るのか、思惑がはずれた時にはどのように動作するのかを示します。

コンテンツ一覧

  • クイックスタート
  • ドキュメントの解析
    • HTMLの解析
    • XMLの解析
    • 動作しない場合には
  • Beautiful SoupはあなたにUnicodeを渡す、 Dammit
  • ドキュメントを表示する
  • 解析木
    • タグの属性
  • 解析木を航行する
    • parent
    • contents
    • string
    • nextSiblingpreviousSibling
    • nextprevious
    • Tagを反復処理する
    • タグ名をメンバーとして使う
  • 解析木を検索する
    • 基本の検索メソッド: findAll(name, attrs, recursive, text, limit, **kwargs)
      • CSSのクラスで検索する
      • findallを呼び出すように、タグを呼び出す
    • find(name, attrs, recursive, text, **kwargs)
    • firstに何が起こるか?
  • 解析木の内部をする
    • findNextSiblings(name, attrs, text, limit, **kwargs)findNextSibling(name, attrs, text, **kwargs)
    • findPreviousSiblings(name, attrs, text, limit, **kwargs)findPreviousSibling(name, attrs, text, **kwargs)
    • findAllNext(name, attrs, text, limit, **kwargs)findNext(name, attrs, text, **kwargs)
    • findAllPrevious(name, attrs, text, limit, **kwargs)findPrevious(name, attrs, text, **kwargs)
  • 解析木を修正する
    • 属性値を変更する
    • 要素を除去する
    • 要素を別の要素に置換する
    • 新しい要素を追加する
  • トラブルシューティング
    • Beautiful Soupに渡した非ASCII文字が表示されないのはなぜか?
    • Beautiful Soupに渡したデータが削除された!なぜ?どうして?????
    • Beautiful Soupは遅すぎる!
  • 高度なテーマ
    • Generators
    • 他のビルトインパーサー
    • パーサーをカスタマイズする
    • エンティティ変換
    • 正規表現を用いた不良データのサニタイズ
    • SoupStrainersを使って楽しむ
    • ドキュメントの一部を解析することでパフォーマンスを改善する
    • extractを使ったメモリー使用量の改善
  • その他の参考
    • Beautiful Soupを使ったアプリケーション
    • 類似のライブラリ
  • まとめ

0 件のコメント:

コメントを投稿

【和訳】Django Rest Framework 目次

目次 【和訳】Django Rest Framework クイックスタート 【和訳】Django Rest Framework チュートリアル1:シリアル化 【和訳】Django Rest Framework チュートリアル2:リクエストとレスポンス 【和訳】Django Res...