Thread: [Mlterm-dev-ja] word selection

Brought to you by: arakiken, h_minami, kubota

mlterm-dev-ja

[Mlterm-dev-ja] word selection

From: Hironori S. <hs...@mt...> - 2003-02-12 03:38:33

$B:dK\$G$9!#(B

$BC18lA*Br$K$D$$$F$J$N$G$9$,!"(Bword_separators $B$G;XDj$7$?J8;z(B
$B0J30$O0l8l$K$J$C$F$7$^$C$F$$$^$9!#(B
kterm $B$,$d$C$F$$$k$h$&$K!"%9%/%j%W%H$N6-L\$G6h@Z$C$F$/$l$k$H(B
$B$&$l$7$$$N$G$9$,!#(B
$B>/$J$/$H$b(B ASCII $B$H$=$l0J30$NJ8;z$OJ,$1$?J}$,$$$$$H;W$$$^$9$,!"(B
$B$I$&$G$7$g$&$+!#(B
# $B40`z$K$9$k$J$i<-=q$r;}$D$7$+$J$$$N$G$9$,!"C<Kv%l%Y%k$G$O(B
# $B$5$9$,$K$d$j2a$.$H;W$$$^$9!#(B
----------------------------------- 
$B:dK\(B $B9@B'(B <hs...@mt...> 
 http://www2u.biglobe.ne.jp/~hsaka/

Re: [Mlterm-dev-ja] word selection

From: Araki K. <ara...@us...> - 2003-03-02 05:07:42

	荒木です:-)

        ずいぶん昔の話ですが...

	Subject: [Mlterm-dev-ja] word selection
	From: Hironori SAKAMOTO <hs...@mt...>
	Message-ID: <200...@ud...>
	Date: Wed, 12 Feb 2003 12:35:33 +0900 (JST)

> 単語選択についてなのですが、word_separators で指定した文字
> 以外は一語になってしまっています。
> kterm がやっているように、スクリプトの境目で区切ってくれると
> うれしいのですが。
> 少なくとも ASCII とそれ以外の文字は分けた方がいいと思いますが、
> どうでしょうか。
> # 完璧にするなら辞書を持つしかないのですが、端末レベルでは
> # さすがにやり過ぎと思います。

        どういうことかな? と思ったまま、忘れてました ^^;
        
        これは、word_separators で指定された文字以外でも、空白文字等については、
        単語境界と看倣すということでしょうか?

	では
--
Araki Ken
ara...@us...

Re: [Mlterm-dev-ja] word selection

From: <hs...@mt...> - 2003-03-02 06:05:19

$B:dK\$G$9!#(B

> 	$B9SLZ$G$9(B:-)
> > $BC18lA*Br$K$D$$$F$J$N$G$9$,!"(Bword_separators $B$G;XDj$7$?J8;z(B
> > $B0J30$O0l8l$K$J$C$F$7$^$C$F$$$^$9!#(B
> > kterm $B$,$d$C$F$$$k$h$&$K!"%9%/%j%W%H$N6-L\$G6h@Z$C$F$/$l$k$H(B
> > $B$&$l$7$$$N$G$9$,!#(B
> > $B>/$J$/$H$b(B ASCII $B$H$=$l0J30$NJ8;z$OJ,$1$?J}$,$$$$$H;W$$$^$9$,!"(B
> > $B$I$&$G$7$g$&$+!#(B

>         $B$I$&$$$&$3$H$+$J(B? $B$H;W$C$?$^$^!"K:$l$F$^$7$?(B ^^;
>         $B$3$l$O!"(Bword_separators $B$G;XDj$5$l$?J8;z0J30$G$b!"6uGrJ8;zEy$K$D$$$F$O!"(B
>         $BC18l6-3&$H4GJo$9$H$$$&$3$H$G$7$g$&$+(B?

$B$$$(!"%"%k%U%!%Y%C%H!"4A;z!"$R$i$,$J!"5-9f$H$$$C$?%9%/%j%W%H$N6-3&$G(B
$B6h@Z$C$F$/$l$k$H$&$l$7$$$J$H!#(B

$B$?$@!"$=$l$OBgJQ$@$H;W$&$N$G!"$;$a$F(B ASCII $B$H(B JIS$BItJ,$N6-3&$G6h@Z$C$F(B
$BM_$7$$$J$H$$$&$3$H$G$7$?!#(B
# $B!X(BJIS$BItJ,!Y$H$$$&$N$rC18lA*Br$9$k;~$K!X(BJIS$B!Y!XItJ,!Y$HJ,$1$FM_$7$$!#(B
-----------------------------------
$B:dK\(B $B9@B'(B <hs...@mt...>
 http://www2u.biglobe.ne.jp/~hsaka/

Re: [Mlterm-dev-ja] word selection

From: Araki K. <ara...@us...> - 2003-03-02 07:05:46

	荒木です:-)

	Subject: Re: [Mlterm-dev-ja] word selection
	From: hs...@mt... (Hironori SAKAMOTO)
	Message-ID: <200...@mt...>
	Date: Sun, 2 Mar 2003 15:05:10 +0900 (JST)

> いえ、アルファベット、漢字、ひらがな、記号といったスクリプトの境界で
> 区切ってくれるとうれしいなと。
>
> ただ、それは大変だと思うので、せめて ASCII と JIS部分の境界で区切って
> 欲しいなということでした。
> # 『JIS部分』というのを単語選択する時に『JIS』『部分』と分けて欲しい。

        文字集合が変わるところを境界とするようにしました。

        # commit 済みです

	では
--
Araki Ken
ara...@us...

Re: [Mlterm-dev-ja] word selection

From: Tomohiro K. <ku...@de...> - 2003-03-02 09:06:24

久保田です。

From: Araki Ken <ara...@us...>
Subject: Re: [Mlterm-dev-ja] word selection
Date: Sun, 02 Mar 2003 16:02:01 +0900

> > いえ、アルファベット、漢字、ひらがな、記号といったスクリプトの境界で
> > 区切ってくれるとうれしいなと。
> >
> > ただ、それは大変だと思うので、せめて ASCII と JIS部分の境界で区切って
> > 欲しいなということでした。
> > # 『JIS部分』というのを単語選択する時に『JIS』『部分』と分けて欲しい。
> 
>         文字集合が変わるところを境界とするようにしました。
> 
>         # commit 済みです

これだと、ISO-8859-1 など、ASCII 以外の文字集合にもラテンアルファベットが
あるような場合、うれしくないのではないかと思います。

それから、UTF-8 の場合、「文字集合」はどのように扱われるのでしょうか?
(Unicode のブロックの情報を持ち、それを使うしかないと思います)。

# 欲を言えば、全角スペースもスペース扱いしてもらえると、ありがたいです。

---
久保田智広 Tomohiro KUBOTA <ku...@de...>
http://www.debian.or.jp/~kubota/

Re: [Mlterm-dev-ja] word selection

From: Araki K. <ara...@us...> - 2003-03-02 09:26:03

Attachments: diff

	荒木です:-)

	Subject: Re: [Mlterm-dev-ja] word selection
	From: Tomohiro KUBOTA <ku...@de...>
	Message-ID: <200...@tm...>
	Date: Sun, 02 Mar 2003 18:05:28 +0900 (JST)

>> > いえ、アルファベット、漢字、ひらがな、記号といったスクリプトの境界で
>> > 区切ってくれるとうれしいなと。
>> >
>> > ただ、それは大変だと思うので、せめて ASCII と JIS部分の境界で区切って
>> > 欲しいなということでした。
>> > # 『JIS部分』というのを単語選択する時に『JIS』『部分』と分けて欲しい。
>> 
>>         文字集合が変わるところを境界とするようにしました。
>> 
>>         # commit 済みです
>
> これだと、ISO-8859-1 など、ASCII 以外の文字集合にもラテンアルファベットが
> あるような場合、うれしくないのではないかと思います。
>
> それから、UTF-8 の場合、「文字集合」はどのように扱われるのでしょうか?
> (Unicode のブロックの情報を持ち、それを使うしかないと思います)。
>
> # 欲を言えば、全角スペースもスペース扱いしてもらえると、ありがたいです。

        その辺は、もう、どこで妥協するかちう程度の話だと思いますので、あまり
        拘っても仕方ないかと ^^;

        ただ、ISO-8859-1 なんかで、US_ASCII と ISO_8859_1_R が別物として扱わ
        れるのはちょっと不自然かもしれないですね。

        Unicode のことも考えると、全角幅か半角幅かを境界にするのが、現実的な
        線かなと思うんですが、どうでしょうか?

	では
--
Araki Ken
ara...@us...

h

Re: [Mlterm-dev-ja] word selection

From: Tomohiro K. <ku...@de...> - 2003-03-02 09:47:47

久保田です。

From: Araki Ken <ara...@us...>
Subject: Re: [Mlterm-dev-ja] word selection
Date: Sun, 02 Mar 2003 18:23:02 +0900

> > これだと、ISO-8859-1 など、ASCII 以外の文字集合にもラテンアルファベットが
> > あるような場合、うれしくないのではないかと思います。
> 
>         その辺は、もう、どこで妥協するかちう程度の話だと思いますので、あまり
>         拘っても仕方ないかと ^^;

うーん、日本語にかかわらないところだと優先度が落ちる、というのは
あまりよくないように思います。それだと、もとのままのほうが
良かったのではないでしょうか。

# XFree86 の国際化とかで、ヨーロッパ言語のための些細な改良が、
# 最低限の日本語サポートのための改良よりも優先されたり (国際化に
# 興味があると自認する人の多くが、たとえばアルファベットの斜体が
# 表示できることが、どんな書体でもいいからとにかく日本語が表示できる、
# ということよりも重要だというような価値基準を持っているように
# 感じます) するのをずっと目の当たりにしてきたので、そういうのは、
# いやなのです。ひとのプロジェクトに自分の価値観を押し付けるのは
# よくないのですが、mlterm には「より正しい国際化」を目指して
# ほしいと思っています。

簡単に済ます方法としては、単語のあいだに空白を使わないのは日本語など
少数の言語だけですので、原則は文字集合境界で切ることはせず、
JIS X [0208,0212,0213], GB2312, KSX1001, BIG5 は例外として切る、
というようなやりかたで、どうでしょうか?

# タイ語も空白を使わないけど、どうしたらいいのかな。

>         Unicode のことも考えると、全角幅か半角幅かを境界にするのが、現実的な
>         線かなと思うんですが、どうでしょうか?

これは、これでいいと思います。偶然にも、空白を使う言語と使わない言語に
うまく分類できますので。(韓国語は空白を使うけど、切れても問題ないはず)。

---
久保田智広 Tomohiro KUBOTA <ku...@de...>
http://www.debian.or.jp/~kubota/

Re: [Mlterm-dev-ja] word selection

From: Araki K. <ara...@us...> - 2003-03-02 11:52:47

	荒木です:-)

	Subject: Re: [Mlterm-dev-ja] word selection
	From: Tomohiro KUBOTA <ku...@de...>
	Message-ID: <200...@tm...>
	Date: Sun, 02 Mar 2003 18:46:52 +0900 (JST)

> うーん、日本語にかかわらないところだと優先度が落ちる、というのは
> あまりよくないように思います。それだと、もとのままのほうが
> 良かったのではないでしょうか。
>
> # XFree86 の国際化とかで、ヨーロッパ言語のための些細な改良が、
> # 最低限の日本語サポートのための改良よりも優先されたり (国際化に
> # 興味があると自認する人の多くが、たとえばアルファベットの斜体が
> # 表示できることが、どんな書体でもいいからとにかく日本語が表示できる、
> # ということよりも重要だというような価値基準を持っているように
> # 感じます) するのをずっと目の当たりにしてきたので、そういうのは、
> # いやなのです。ひとのプロジェクトに自分の価値観を押し付けるのは
> # よくないのですが、mlterm には「より正しい国際化」を目指して
> # ほしいと思っています。

        そのとおりですね ._.;;

> 簡単に済ます方法としては、単語のあいだに空白を使わないのは日本語など
> 少数の言語だけですので、原則は文字集合境界で切ることはせず、
> JIS X [0208,0212,0213], GB2312, KSX1001, BIG5 は例外として切る、
> というようなやりかたで、どうでしょうか?
>
> # タイ語も空白を使わないけど、どうしたらいいのかな。

        コードが繁雑になるわりに、結局のところ adhoc な対応には変わりないので、

>>         Unicode のことも考えると、全角幅か半角幅かを境界にするのが、現実的な
>>         線かなと思うんですが、どうでしょうか?
>
> これは、これでいいと思います。偶然にも、空白を使う言語と使わない言語に
> うまく分類できますので。(韓国語は空白を使うけど、切れても問題ないはず)。

        超簡単な↑こっちでいくことにします。

	では
--
Araki Ken
ara...@us...