2024.12.10
“放置系”なのにサイバー攻撃を監視・検知、「統合ログ管理ツール」とは 最先端のログ管理体制を実現する方法
ライトニングトーク 「chatGPTと文字コード」(全1記事)
リンクをコピー
記事をブックマーク
土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。
(スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。
(スライドを示して)みんな知っているかもしれないですが、文字コード(と)はASCIIやUnicodeなどの、文字と数値を1対1に対応させることでコンピュータが処理できるようにするシステムのことです。
というわけで、「Try/Catch!」でやってみようということで、こんなことをやってみました。
(スライドを示して)まず環境作成からですね。20$を払いたくなかったので、プログラムを作成しました。
ChatGPTに日本語の部分を質問してみました。予想としては、日本語のひらがなや、カタカナ、常用漢字を出してきそうだなと予想していました。
(スライドを示して)今調べてみたら、こんな感じでした。おもしろいのは「Fullwidth」というもので、これは全角英語なんですよ。英語圏の人はたぶんASCIIで使うから入らない。おもしろいなと思いました。
あと絵文字が入っていないんですよね。絵文字は日本の携帯の会社が作ったと思うのですが、それが入っていない(という)のは、絵文字の国際化を感じてエモくなりました。
(スライドを示して)Unicodeのカタカナの実装ですが、先ほどのやつはアイヌ語用に拡張されたカタカナ拡張が含まれていないので、注意が必要です。
そして(次に)、ChatGPTに括弧の処理を聞きました。なぜこれをやりたいかというと、実は括弧は100種類以上あって、メチャクチャ多いんですね。ですが括弧だけを抽出しようとすると、全部Unicodeを出さないといけないんですよ。CSVにできたらメチャクチャいいなと思ったので聞いてみました。
なんか微妙な結果でした。これは100種類ないですね。
「足りないぞ」と言ったら黙っちゃって、ちょっと悲しい感じになりました。
実技もやらせてみたのですが、この感じだとちょっとできていないですね。
最後に、旧字体と新字体を変換できるかを試してみました。これは何が問題かというと、日本語には旧字体と新字体があるのですが、それぞれ文字コードが違うので、アプリケーション上で問題が起こります。
例えば検索システムで自分の名前が出なかったり、あとは、同じものが違う文字コードと見なされるので、重複してリコメンドされちゃったりすることがあるんですね。これの変換も気合でやっている人が多いのですが、これがChatGPTでできたらとてもうれしいですよね。やってみました。
なんかできちゃったんですよ。見てもらえばわかると思うのですが、「會」と「圓」がちゃんと新字体になっていることがわかります。「櫻」も新字体にできています。
もうすべて理解しているのかなと思って正規表現を書かせてみたのですが、これはできないんですよ。
全部出せと命令したら、なぜかあと読みの正規表現に化けました。
このように、文字コードというものは、ChatGPT的にも難しいタスクなのかなと思いました。黒魔術ではあるのですが、一部解決できそうなタスクがあるので、これから自分でもいろいろやっていきたいなと思っています。
これで終わります。
関連タグ:
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.09
国内の有名ホテルでは、マグロ丼がなんと1杯「24,000円」 「良いものをより安く」を追いすぎた日本にとって値上げが重要な理由
2024.11.29
「明日までにお願いできますか?」ちょっとカチンとくる一言 頭がいい人に見える上品な言い方に変えるコツ
2024.12.09
10点満点中7点の部下に言うべきこと 部下を育成できない上司の特徴トップ5
2024.12.04
いつも遅刻や自慢話…自分勝手な人にイラっとした時の切り返し 不平等な関係を打開する「相手の期待」を裏切る技
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.12.03
職場の同僚にイライラ…ストレスを最小限に抑える方法 臨床心理士が語る、「いい人でいなきゃ」と自分を追い込むタイプへの処方箋
2024.12.06
嫌いな相手の行動が気になって仕方ない… 臨床心理士が教える、人間関係のストレスを軽くする知恵
2024.12.05
「今日こそやろう」と決めたのに…自己嫌悪でイライラする日々を変えるには
PR | 2024.12.04
攻撃者はVPNを狙っている ゼロトラストならランサムウェア攻撃を防げる理由と仕組み