(leonardr@segfault.org)
和訳:Hirotaka Shioji
这份文档也有中文版了 (本ドキュメントは、中国語訳版もあります。)
Beautiful Soupは、Python用のHTML/XMLパーサーで、不正なマークアップでさえ、解析木に変換できます。
Beautiful Soupは、解析木を航行、検索、修正するための、シンプルで慣用的な方法を提供します。
Beautiful Soupは、一般的に、プログラマーの労働時間や労働日数を減らします。
Rubyful Soupと呼ばれるRuby用のものもあります。
本ドキュメントは、Beautiful Soup version 3.0の主な特徴を、例を混じえて、全て示しています。
本ドキュメントは、ライブラリがどういうことに役立つのか、どのように動作するのか、どのように使うのか、どうすればしたいことを出来るのか、思惑がはずれた時にはどのように動作するのかを示します。
コンテンツ一覧
- クイックスタート
- ドキュメントの解析
- HTMLの解析
- XMLの解析
- 動作しない場合には
- Beautiful SoupはあなたにUnicodeを渡す、 Dammit
- ドキュメントを表示する
- 解析木
- タグの属性
- 解析木を航行する
parent
contents
string
nextSibling
とpreviousSibling
next
とprevious
Tag
を反復処理する- タグ名をメンバーとして使う
- 解析木を検索する
- 基本の検索メソッド:
findAll(name, attrs, recursive, text, limit, **kwargs)
- CSSのクラスで検索する
- findallを呼び出すように、タグを呼び出す
find(name, attrs, recursive, text, **kwargs)
- firstに何が起こるか?
- 解析木の内部をする
findNextSiblings(name, attrs, text, limit, **kwargs)
とfindNextSibling(name, attrs, text, **kwargs)
findPreviousSiblings(name, attrs, text, limit, **kwargs)
とfindPreviousSibling(name, attrs, text, **kwargs)
findAllNext(name, attrs, text, limit, **kwargs)
とfindNext(name, attrs, text, **kwargs)
findAllPrevious(name, attrs, text, limit, **kwargs)
とfindPrevious(name, attrs, text, **kwargs)
- 解析木を修正する
- 属性値を変更する
- 要素を除去する
- 要素を別の要素に置換する
- 新しい要素を追加する
- トラブルシューティング
- Beautiful Soupに渡した非ASCII文字が表示されないのはなぜか?
- Beautiful Soupに渡したデータが削除された!なぜ?どうして?????
- Beautiful Soupは遅すぎる!
- 高度なテーマ
- Generators
- 他のビルトインパーサー
- パーサーをカスタマイズする
- エンティティ変換
- 正規表現を用いた不良データのサニタイズ
SoupStrainer
sを使って楽しむ- ドキュメントの一部を解析することでパフォーマンスを改善する
extractを使ったメモリー使用量の改善
- その他の参考
- Beautiful Soupを使ったアプリケーション
- 類似のライブラリ
- まとめ
0 件のコメント:
コメントを投稿