午後:趣旨説明とグループ分け、開発
夜:夕食後、20時以降適宜ディスカッション・データ準備等
千葉大学データサイエンスコア (DSC) ハッカソンのご案内
J-PEAKSプログラムの一環として千葉大学に設置されたデータサイエンスコア (DSC) は、千葉大学内のデータサイエンス教育・研究の高度化を目的として活動しています。 DSCハッカソンでは、現代のデータサイエンスに欠かせない先進的な技術・リソースに触れ、学部や身分の垣根を超えて議論・交流する機会を提供します。
開催日程:2025年3月24日(月)~27日(木) [3泊4日;最終日は午前中終了]元は Hacking と Marathon を組み合わせた造語であり、「ソフトウェアエンジニア・プログラマが集中的に共同作業を行うイベント」として一般的に定義されます。期間は1-2日程度のものから、1週間を超えるものもあります。チームに分かれて参加し、アイディアや実装を競い合うコンペ形式のものも近年では増えています。DSCが主催するハッカソンはコンペではない純粋なハッカソンであり、いわゆる「開発合宿」です。
2025年春のハッカソンでは、分野横断的に活用されている大規模言語モデル (LLM) をメイントピックとして取り上げます。ChatGPT に代表されるプロプライエタリな LLM は、性能と使いやすさのために教育・研究に幅広く利用されていますが、一方で特定の用途で性能が落ちる、機微情報を扱えないなどのネガティブな面もあります。また、ウェブサービスの利用には研究再現性が低下するという問題もあります。
そこで、本ハッカソンでは DSC が提供するオフラインLLM を活用した、データ分析やアプリケーション開発を行います。参加者は各々アイディアやデータを持ち寄って、DSCが提供するLLMを用いて、期間中に開発を行います。
ハッカソン開始前に、参加者は解析・開発に利用したいデータを準備します。LLMに適用するハードルを下げるため、今回はテキストデータに限定します。自身で準備することができない方は、DSCが事前に準備するデータを利用することもできます。
ハッカソン初日のキックオフセッションにて、参加者それぞれが取り組みたいテーマを発表します。似たテーマに取り組む方がいれば、グループを作って共同で作業することもできます。もちろん、一人で集中して取り組むのもOKです。技術面での困りごとはDSCメンバーがサポートします。
ハッカソン中は、DSCが提供する Azure クラウド上のローカルLLM環境を用いて開発を行います(ハッカソンをスムーズに進めるために、事前に説明資料を配布する予定です)。
開発の合間や、食事の時間には他の参加者との情報交換や議論を行うことができます。会場は夕食後も使えますので、夜まで開発を続けてもよいですし、他の参加者との交流もできます。
最終日の午前には、期間中の開発の成果を共有して頂きます。
参加者ご自身が、使いたいデータについての知識があり、取り組む目標を主体的に設定できることが望ましいです。「この分野に興味はあるが、取り組みたい具体的な問題はない」という方はハッカソン中に迷子になってしまう危険があります。「この問題をLLMでどうアプローチすればよいかわからない」といった疑問については、DSCメンバーがサポートします。
GUI・Web APIの両方からアクセスできるクラウド上のLLMを提供する予定です。プログラミングの達人である必要はありませんが、必要に応じてプログラムを書く努力ができると望ましいです。
ChatGPTなどのLLMを使った経験、LLMで何ができて何ができないか、といった基本的な知識が必要です。今回のハッカソンではプロンプトエンジニアリング、RAGなどのテクニックを用いて参加者のデータをLLMで扱うことを目指します。モデルのファインチューンなど、高度なテクニックは提供するプラットフォームの制約から取り扱うことが難しいですが、ご自身の環境などを用いたチャレンジを阻むものではありません。
機密データは持ち込まないでください。