shiopy's memo: Beautiful Soup ドキュメント日本語訳

原著：Leonard Richardson
(leonardr@segfault.org)

和訳：Hirotaka Shioji

这份文档也有中文版了 (本ドキュメントは、中国語訳版もあります。)

Beautiful Soupは、Python用のHTML/XMLパーサーで、不正なマークアップでさえ、解析木に変換できます。
Beautiful Soupは、解析木を航行、検索、修正するための、シンプルで慣用的な方法を提供します。
Beautiful Soupは、一般的に、プログラマーの労働時間や労働日数を減らします。
Rubyful Soupと呼ばれるRuby用のものもあります。

本ドキュメントは、Beautiful Soup version 3.0の主な特徴を、例を混じえて、全て示しています。
本ドキュメントは、ライブラリがどういうことに役立つのか、どのように動作するのか、どのように使うのか、どうすればしたいことを出来るのか、思惑がはずれた時にはどのように動作するのかを示します。

コンテンツ一覧

クイックスタート
ドキュメントの解析

HTMLの解析
XMLの解析
動作しない場合には

Beautiful SoupはあなたにUnicodeを渡す、 Dammit
ドキュメントを表示する
解析木

タグの属性

解析木を航行する

parent
contents
string
nextSibling と previousSibling
next と previous
Tagを反復処理する
タグ名をメンバーとして使う

解析木を検索する

基本の検索メソッド: findAll(name, attrs, recursive, text, limit, **kwargs)

CSSのクラスで検索する
findallを呼び出すように、タグを呼び出す

find(name, attrs, recursive, text, **kwargs)
firstに何が起こるか？

解析木の内部をする

findNextSiblings(name, attrs, text, limit, **kwargs) と findNextSibling(name, attrs, text, **kwargs)
findPreviousSiblings(name, attrs, text, limit, **kwargs) と findPreviousSibling(name, attrs, text, **kwargs)
findAllNext(name, attrs, text, limit, **kwargs) と findNext(name, attrs, text, **kwargs)
findAllPrevious(name, attrs, text, limit, **kwargs) と findPrevious(name, attrs, text, **kwargs)

解析木を修正する

属性値を変更する
要素を除去する
要素を別の要素に置換する
新しい要素を追加する

トラブルシューティング

Beautiful Soupに渡した非ASCII文字が表示されないのはなぜか?
Beautiful Soupに渡したデータが削除された!なぜ?どうして?????
Beautiful Soupは遅すぎる!

高度なテーマ

Generators
他のビルトインパーサー
パーサーをカスタマイズする
エンティティ変換
正規表現を用いた不良データのサニタイズ
SoupStrainersを使って楽しむ
ドキュメントの一部を解析することでパフォーマンスを改善する
extractを使ったメモリー使用量の改善

その他の参考

Beautiful Soupを使ったアプリケーション
類似のライブラリ

まとめ

shiopy's memo

2011年4月9日土曜日

Beautiful Soup ドキュメント日本語訳

コンテンツ一覧

0 件のコメント:

コメントを投稿

【和訳】Django Rest Framework 目次

2011年4月9日土曜日

Beautiful Soup ドキュメント 日本語訳

コンテンツ一覧

0 件のコメント:

コメントを投稿

【和訳】Django Rest Framework 目次

Beautiful Soup ドキュメント日本語訳