おちラボ：教育システム研究開発BLOG: Java：nekoHTMLParserを使っていてうまくパーズできない場合の対処メモ

2017-01-25

JavaでのHTMLファイルをParseする時は、nekoHTMLParserを使っています。このパーザーはある意味柔軟なところがあり、使い勝手がいいんですが、エラーを全く吐かないまま、正しくParseできないことがあったので、メモ書きです。

【挙動】

【原因と対処法対処法】

文字コードが原因。今回のケースでは、諸事情によりHTMLファイルをコピペで取得し作成したため、文字はUTF-8、メタタグの指定がShift-JISという齟齬が発生していた
メタタグの指定をUTF-8に変更

エラーが出ないからうまく動いているだろう、、と気づきにくいところなので要注意です。

おちラボ：教育システム研究開発BLOG