2005-09-01から1ヶ月間の記事一覧

Inner-most の table 構造の検出

内側に入れ子の table 構造を含まない2×2以上の table 構造を html から検出するプログラムを書いた。ruby の正規表現を用いたバージョン (rb td2)と、用いないバージョン (rb td1) と、C 版 (rb td1 の port) を比較してみる。やはり C が速いが、ruby の正…

HTML Chunker (C Library 版)

興味もあったので、Ruby の拡張ライブラリとして C でパーザを書いてみた。いろいろいい加減。 #include #include #include static VALUE c_parse_html(obj, str) VALUE obj, str; { StringValue(str); VALUE ary = rb_ary_new(); bool tag = false; char* b…

HTML Chunker

コメントとタグを分けたくて正規表現を使っていたら,* のマッチがある程度以上長いときに処理が帰ってこないことがあったので,簡単にパーザを書いた。正規表現使っていないのに scan より遅いのは,再帰が C レベルか Ruby レベルかが効いているのかな。 d…

NEC、折り畳み式最薄携帯を開発 海外で発売

携帯を買うか買うまいか考えているのだけど、今どきの携帯は 折り畳み式で分厚くかさばる 必要の無いカメラが付いている というので二の足を踏んでいる。これくらい薄ければ折り畳みでも気にならないだろうか?

開設

blog を開設してみる。 日々のニュース、研究ネタや tips のメモに利用する予定。