Scintilla

Java JNI の GetStringUTFChars は古い Unicode 仕様のシーケンスを返す

Unicode サロゲートペア範囲の "𡈽" という文字は、コードポイントが U+0002123D、UTF-8 のシーケンスだと [F0, A1, 88, BD] になる。JNI で "𡈽" のみで構成される String を以下のように UTF-8 に変換すると: const char *utf8 = env->GetStringUTFChars(…