【2024年3月】今月の行動指針

こんにちは、Assured エンジニアのオリバーです。3月に子供の卒園式があり、今月は小学校の入学式と子供の成長をとても感じました。私はあまり着ないフォーマルなをスーツを出して、(腹囲が成長したのを再確認し)4月からはいろんな意味で気を引き締めようと思うこの頃です。さて、Assuredのプロダクトチームの皆さんは、3月にどんなことをしたか聞いていきたいと思います。

今月はどういったこと(に挑戦した|を学んだ|で速さを追求した|を楽しんだ)か教えてください

大橋

学びのティーチャーLLM評価ツールを試しています

Assuredでは既存機能(サービス概要)でLLMを活用しています。直近はRAG(Retrieval-Augmented Generation)評価ライブラリの導入やオブザーバビリティを高めるための分析ツールの運用ができないか調査を進めています。評価ライブラリはRAGASとdeepeval、分析ツールはConfident AIとarize-Phoenixを比較検証してみました。

LLM周辺は変化が早く簡単に使えなかったり、バグで動かないことも多いですが、日々新しいことを学び試していくのはとてもやりがいがあります。

評価用ライブラリ https://github.com/confident-ai/deepeval https://github.com/explodinggradients/ragas https://github.com/uptrain-ai/uptrain
対応メトリクス G-EvalSummarizationFaithfulnessAnswer RelevancyContextual RelevancyContextual PrecisionContextual RecallRagasHallucinationToxicityBias FaithfulnessAnswer relevancyContext recallContext precisionContext relevancyAnswer semantic similarityAnswer correctness Context RelevanceFactual AccuracyResponse Completeness
GitHub star 1.3k 3.3k 1.9k
LlamaIndex integration
LangChain integration
コミュニティ https://discord.com/invite/a3K9c8GRGt https://discord.gg/5djav8GGNZ https://join.slack.com/t/uptraincommunity/shared_invite/zt-1yih3aojn-CEoR_gAh6PDSknhFmuaJeg
前提となるLLM OpenAI APIAzure OpenAI ※LangChainで利用できるモデルであればどれでも可能 OpenAI APIAzure OpenAI AWS Bedrock VertexAI OpenAI APIAzure OpenAI
Claude
Mistral AI
Together AI
Anyscale
言語 python python python
ドキュメント https://docs.confident-ai.com/ https://docs.ragas.io/en/stable/ https://docs.uptrain.ai/getting-started/introduction
分析ツール https://www.confident-ai.com/pricing https://docs.ragas.io/en/stable/getstarted/monitoring.html#:~:text=observability%20tools%20like%3A-,Langsmith,-Phoenix%20(Arize)https://docs.ragas.io/en/stable/howtos/integrations/langfuse.htmlhttps://www.openlayer.com/ https://docs.uptrain.ai/dashboard/getting_started#what-is-uptrain-dashboard
LinkedIn https://www.linkedin.com/company/confident-ai https://www.linkedin.com/company/ragas https://www.linkedin.com/company/uptrain-ai?trk=similar-pages

上記の比較からRAGASで進めようかなと思っていたのですが、context precision が0になってしまう問題(https://github.com/explodinggradients/ragas/issues/308)にぶつかり、今回はdeepevalを利用することにしました。deepeval閾値を決めて基準値を満たさないテストを失敗させることができるので、pytestとして書いてCIを回しやすいメリットもあります。

https://docs.ragas.io/en/stable/howtos/integrations/ragas-arize.htmldocs.ragas.io docs.confident-ai.com phoenix.arize.com www.confident-ai.com

戸谷

未踏へのチャレンジャーサービスの価値を磨くUI特許を取得しました

Assuredでは、プロダクトの改善を通じて、より正確で信頼性の高い評価レポートを提供することに取り組んでいます。この改善活動には、Visionalの知的財産チームも参加し、お客様への提供価値を高めるための発明について、日々考えています。

これまでにも何件か特許を取得していますが、3月には新たに「条件付き回答機能」で特許を取得しました。機能の詳細は過去記事を参照いただきたいのですが、簡単に言えば、セキュリティ対策状況をより正しく回答するために工夫されたチェックボックスUIとその周辺機能です。

セキュリティ評価プラットフォーム「Assured」、クラウドサービスのセキュリティ情報の正確性を高めるUI特許を取得

こうしたUIは、事業戦略に基づき、Assuredが長期的に目指す世界観を実現するために、どういったサービスやプロダクトが必要かをブレインストーミングすることから生まれます。このなかから、優先して実現したいものをコンセプトデザイン(車における「コンセプトカー」や映画における「コンセプトアート」のようなもの)として具現化して検討し、開発計画に組み込んでいきます。

日々の改善活動と並行して、こうした探索活動を行えることはとてもやりがいがありますし、デザインの具現化によってチームに弾みがつくことにも繋がる感覚があります。これからもお客様への提供価値向上をチームで実現できればと思います。

内山

楽しもうアドベンチャー ふらっと立ち寄れるタイ料理会を開催しました

アシュアードでは筋トレ部やサウナ部、ボルダリング部、カラオケ部などの自然発生的なコミュニティが盛り上がっています。一方で歌うのは苦手、、運動はちょっと、、など内容的に参加しづらいとの声もあがっていました。

じゃあ、ふらっと誰でも参加できるようにオフィスでイベントをやろうということで、タイ料理会を開催しました。(なぜタイ料理なのかは会話したときのノリです)

タイ料理を振る舞う様子

帰り際に少しだけと言って参加してくれたり、普段参加が難しいメンバーも多く参加してくれました。

最後まで参加してくれた人で記念撮影

2024年の所信表明で代表の大森が「世の中を変える事業を創る、そのプロセスそのものを、仲間と共に、一生の宝と言えるくらい本気で、楽しく、挑戦したい」と言っているように、仕事でも仕事外でも仲間と楽しく、挑戦していく、そんな組織文化を作っていけたらと思っています。

おわりに

今月のブログを通じて、Assuredのプロダクトチームがどのようにして各々の役割の中でも、外でも新しいことを試し、挑戦し、楽しみながら共にAssuredをつくっているか少しでも伝われば幸いです。次回も、行動指針をもとに新しい挑戦と活動内容をお伝えしたいと思います。引き続きよろしくお願いいたします。

少しでもAssuredの事業に興味をお持ちいただいた方は、ぜひ気軽にお声掛けください。以下のリンクからカジュアル面談への応募をお待ちしています。

forms.gle careers.assured.jp