【2024年3月】今月の行動指針

こんにちは、Assured エンジニアのオリバーです。3月に子供の卒園式があり、今月は小学校の入学式と子供の成長をとても感じました。私はあまり着ないフォーマルなをスーツを出して、（腹囲が成長したのを再確認し）4月からはいろんな意味で気を引き締めようと思うこの頃です。さて、Assuredのプロダクトチームの皆さんは、3月にどんなことをしたか聞いていきたいと思います。

今月はどういったこと(に挑戦した|を学んだ|で速さを追求した|を楽しんだ)か教えてください

大橋

LLM評価ツールを試しています

Assuredでは既存機能(サービス概要)でLLMを活用しています。直近はRAG(Retrieval-Augmented Generation)評価ライブラリの導入やオブザーバビリティを高めるための分析ツールの運用ができないか調査を進めています。評価ライブラリはRAGASとdeepeval、分析ツールはConfident AIとarize-Phoenixを比較検証してみました。

LLM周辺は変化が早く簡単に使えなかったり、バグで動かないことも多いですが、日々新しいことを学び試していくのはとてもやりがいがあります。

評価用ライブラリ	https://github.com/confident-ai/deepeval	https://github.com/explodinggradients/ragas	https://github.com/uptrain-ai/uptrain
対応メトリクス	G-EvalSummarizationFaithfulnessAnswer RelevancyContextual RelevancyContextual PrecisionContextual RecallRagasHallucinationToxicityBias	FaithfulnessAnswer relevancyContext recallContext precisionContext relevancyAnswer semantic similarityAnswer correctness	Context RelevanceFactual AccuracyResponse Completeness
GitHub star	1.3k	3.3k	1.9k
LlamaIndex integration	◯	◯	◯
LangChain integration	◯	◯	✗
コミュニティ	https://discord.com/invite/a3K9c8GRGt	https://discord.gg/5djav8GGNZ	https://join.slack.com/t/uptraincommunity/shared_invite/zt-1yih3aojn-CEoR_gAh6PDSknhFmuaJeg
前提となるLLM	OpenAI APIAzure OpenAI ※LangChainで利用できるモデルであればどれでも可能	OpenAI APIAzure OpenAI AWS Bedrock VertexAI	OpenAI APIAzure OpenAI Claude Mistral AI Together AI Anyscale
言語	python	python	python
ドキュメント	https://docs.confident-ai.com/	https://docs.ragas.io/en/stable/	https://docs.uptrain.ai/getting-started/introduction
分析ツール	https://www.confident-ai.com/pricing	https://docs.ragas.io/en/stable/getstarted/monitoring.html#:~:text=observability%20tools%20like%3A-,Langsmith,-Phoenix%20(Arize)https://docs.ragas.io/en/stable/howtos/integrations/langfuse.htmlhttps://www.openlayer.com/	https://docs.uptrain.ai/dashboard/getting_started#what-is-uptrain-dashboard
LinkedIn	https://www.linkedin.com/company/confident-ai	https://www.linkedin.com/company/ragas	https://www.linkedin.com/company/uptrain-ai?trk=similar-pages

上記の比較からRAGASで進めようかなと思っていたのですが、context precision が0になってしまう問題(https://github.com/explodinggradients/ragas/issues/308)にぶつかり、今回はdeepevalを利用することにしました。deepevalは閾値を決めて基準値を満たさないテストを失敗させることができるので、pytestとして書いてCIを回しやすいメリットもあります。

docs.ragas.io docs.confident-ai.com phoenix.arize.com www.confident-ai.com

戸谷

サービスの価値を磨くUI特許を取得しました

Assuredでは、プロダクトの改善を通じて、より正確で信頼性の高い評価レポートを提供することに取り組んでいます。この改善活動には、Visionalの知的財産チームも参加し、お客様への提供価値を高めるための発明について、日々考えています。

これまでにも何件か特許を取得していますが、3月には新たに「条件付き回答機能」で特許を取得しました。機能の詳細は過去記事を参照いただきたいのですが、簡単に言えば、セキュリティ対策状況をより正しく回答するために工夫されたチェックボックスUIとその周辺機能です。

セキュリティ評価プラットフォーム「Assured」、クラウドサービスのセキュリティ情報の正確性を高めるUI特許を取得

こうしたUIは、事業戦略に基づき、Assuredが長期的に目指す世界観を実現するために、どういったサービスやプロダクトが必要かをブレインストーミングすることから生まれます。このなかから、優先して実現したいものをコンセプトデザイン（車における「コンセプトカー」や映画における「コンセプトアート」のようなもの）として具現化して検討し、開発計画に組み込んでいきます。

日々の改善活動と並行して、こうした探索活動を行えることはとてもやりがいがありますし、デザインの具現化によってチームに弾みがつくことにも繋がる感覚があります。これからもお客様への提供価値向上をチームで実現できればと思います。