
2025.02.06
ポンコツ期、孤独期、成果独り占め期を経て… サイボウズのプロマネが振り返る、マネージャーの成長の「4フェーズ」
ライトニングトーク 「chatGPTと文字コード」(全1記事)
リンクをコピー
記事をブックマーク
土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。
(スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。
(スライドを示して)みんな知っているかもしれないですが、文字コード(と)はASCIIやUnicodeなどの、文字と数値を1対1に対応させることでコンピュータが処理できるようにするシステムのことです。
というわけで、「Try/Catch!」でやってみようということで、こんなことをやってみました。
(スライドを示して)まず環境作成からですね。20$を払いたくなかったので、プログラムを作成しました。
ChatGPTに日本語の部分を質問してみました。予想としては、日本語のひらがなや、カタカナ、常用漢字を出してきそうだなと予想していました。
(スライドを示して)今調べてみたら、こんな感じでした。おもしろいのは「Fullwidth」というもので、これは全角英語なんですよ。英語圏の人はたぶんASCIIで使うから入らない。おもしろいなと思いました。
あと絵文字が入っていないんですよね。絵文字は日本の携帯の会社が作ったと思うのですが、それが入っていない(という)のは、絵文字の国際化を感じてエモくなりました。
(スライドを示して)Unicodeのカタカナの実装ですが、先ほどのやつはアイヌ語用に拡張されたカタカナ拡張が含まれていないので、注意が必要です。
そして(次に)、ChatGPTに括弧の処理を聞きました。なぜこれをやりたいかというと、実は括弧は100種類以上あって、メチャクチャ多いんですね。ですが括弧だけを抽出しようとすると、全部Unicodeを出さないといけないんですよ。CSVにできたらメチャクチャいいなと思ったので聞いてみました。
なんか微妙な結果でした。これは100種類ないですね。
「足りないぞ」と言ったら黙っちゃって、ちょっと悲しい感じになりました。
実技もやらせてみたのですが、この感じだとちょっとできていないですね。
最後に、旧字体と新字体を変換できるかを試してみました。これは何が問題かというと、日本語には旧字体と新字体があるのですが、それぞれ文字コードが違うので、アプリケーション上で問題が起こります。
例えば検索システムで自分の名前が出なかったり、あとは、同じものが違う文字コードと見なされるので、重複してリコメンドされちゃったりすることがあるんですね。これの変換も気合でやっている人が多いのですが、これがChatGPTでできたらとてもうれしいですよね。やってみました。
なんかできちゃったんですよ。見てもらえばわかると思うのですが、「會」と「圓」がちゃんと新字体になっていることがわかります。「櫻」も新字体にできています。
もうすべて理解しているのかなと思って正規表現を書かせてみたのですが、これはできないんですよ。
全部出せと命令したら、なぜかあと読みの正規表現に化けました。
このように、文字コードというものは、ChatGPT的にも難しいタスクなのかなと思いました。黒魔術ではあるのですが、一部解決できそうなタスクがあるので、これから自分でもいろいろやっていきたいなと思っています。
これで終わります。
関連タグ:
2025.02.06
すかいらーく創業者が、社長を辞めて75歳で再起業したわけ “あえて長居させるコーヒー店”の経営に込めるこだわり
2025.02.03
「昔は富豪的プログラミングなんてできなかった」 21歳で「2ちゃんねる」を生んだひろゆき氏が語る開発の裏側
2025.02.03
手帳に書くだけで心が整うメンタルケアのコツ イライラ、モヤモヤ、落ち込んだ時の手帳の使い方
2025.02.04
日本企業にありがちな「生産性の低さ」の原因 メーカーの「ちょっとした改善」で勝負が決まる仕組みの落とし穴
PR | 2025.02.07
プロジェクトマネージャーは「無理ゲーを攻略するプレイヤー」 仕事を任せられない管理職のためのマネジメントの秘訣
2025.02.05
「納得しないと動けない部下」を変える3つのステップとは マネージャーの悩みを解消する会話のテクニック
2025.01.07
1月から始めたい「日記」を書く習慣 ビジネスパーソンにおすすめな3つの理由
2025.02.06
落合陽一氏や松尾豊氏の研究は社会に届いているか? ひろゆき氏が語るアカデミアの課題と展望
2025.02.05
エンジニアとして成功するための秘訣とは? ひろゆき氏が語る、自由な働き方を叶えるアプリ開発とキャリア戦略
2025.02.04
生成AI時代に差をつける思考法とは? ひろゆき氏が語る「真のエンジニア像」