2024.12.10
“放置系”なのにサイバー攻撃を監視・検知、「統合ログ管理ツール」とは 最先端のログ管理体制を実現する方法
ライトニングトーク 「chatGPTと文字コード」(全1記事)
リンクをコピー
記事をブックマーク
土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。
(スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。
(スライドを示して)みんな知っているかもしれないですが、文字コード(と)はASCIIやUnicodeなどの、文字と数値を1対1に対応させることでコンピュータが処理できるようにするシステムのことです。
というわけで、「Try/Catch!」でやってみようということで、こんなことをやってみました。
(スライドを示して)まず環境作成からですね。20$を払いたくなかったので、プログラムを作成しました。
ChatGPTに日本語の部分を質問してみました。予想としては、日本語のひらがなや、カタカナ、常用漢字を出してきそうだなと予想していました。
(スライドを示して)今調べてみたら、こんな感じでした。おもしろいのは「Fullwidth」というもので、これは全角英語なんですよ。英語圏の人はたぶんASCIIで使うから入らない。おもしろいなと思いました。
あと絵文字が入っていないんですよね。絵文字は日本の携帯の会社が作ったと思うのですが、それが入っていない(という)のは、絵文字の国際化を感じてエモくなりました。
(スライドを示して)Unicodeのカタカナの実装ですが、先ほどのやつはアイヌ語用に拡張されたカタカナ拡張が含まれていないので、注意が必要です。
そして(次に)、ChatGPTに括弧の処理を聞きました。なぜこれをやりたいかというと、実は括弧は100種類以上あって、メチャクチャ多いんですね。ですが括弧だけを抽出しようとすると、全部Unicodeを出さないといけないんですよ。CSVにできたらメチャクチャいいなと思ったので聞いてみました。
なんか微妙な結果でした。これは100種類ないですね。
「足りないぞ」と言ったら黙っちゃって、ちょっと悲しい感じになりました。
実技もやらせてみたのですが、この感じだとちょっとできていないですね。
最後に、旧字体と新字体を変換できるかを試してみました。これは何が問題かというと、日本語には旧字体と新字体があるのですが、それぞれ文字コードが違うので、アプリケーション上で問題が起こります。
例えば検索システムで自分の名前が出なかったり、あとは、同じものが違う文字コードと見なされるので、重複してリコメンドされちゃったりすることがあるんですね。これの変換も気合でやっている人が多いのですが、これがChatGPTでできたらとてもうれしいですよね。やってみました。
なんかできちゃったんですよ。見てもらえばわかると思うのですが、「會」と「圓」がちゃんと新字体になっていることがわかります。「櫻」も新字体にできています。
もうすべて理解しているのかなと思って正規表現を書かせてみたのですが、これはできないんですよ。
全部出せと命令したら、なぜかあと読みの正規表現に化けました。
このように、文字コードというものは、ChatGPT的にも難しいタスクなのかなと思いました。黒魔術ではあるのですが、一部解決できそうなタスクがあるので、これから自分でもいろいろやっていきたいなと思っています。
これで終わります。
関連タグ:
2024.12.10
メールのラリー回数でわかる「評価されない人」の特徴 職場での評価を下げる行動5選
2024.12.09
10点満点中7点の部下に言うべきこと 部下を育成できない上司の特徴トップ5
2024.12.09
国内の有名ホテルでは、マグロ丼がなんと1杯「24,000円」 「良いものをより安く」を追いすぎた日本にとって値上げが重要な理由
2023.03.21
民間宇宙開発で高まる「飛行機とロケットの衝突」の危機...どうやって回避する?
2024.12.10
職場であえて「不機嫌」を出したほうがいいタイプ NOと言えない人のための人間関係をラクにするヒント
2024.12.12
会議で発言しやすくなる「心理的安全性」を高めるには ファシリテーションがうまい人の3つの条件
2024.12.06
嫌いな相手の行動が気になって仕方ない… 臨床心理士が教える、人間関係のストレスを軽くする知恵
PR | 2024.11.26
なぜ電話営業はなくならない?その要因は「属人化」 通話内容をデータ化するZoomのクラウドサービス活用術
2024.12.11
大企業への転職前に感じた、「なんか違うかも」の違和感の正体 「親が喜ぶ」「モテそう」ではない、自分の判断基準を持つカギ
PR | 2024.11.22
「闇雲なAI導入」から脱却せよ Zoom・パーソル・THE GUILD幹部が語る、従業員と顧客体験を高めるAI戦略の要諦