پاییز دو سال پیش بود که ChatGPT آمد و به شکل خاصی بازار همه چیز رو عوض کرد یا بهتره بگم که به هم ریخت در این مدت نه فقط OpenAI که هزاران شرکت دیگر هم دست به کار شدند و شروع کردند به ارائه مدلهای زبانی بزرگ یا همون LLMها و خواستند که به شکلی با OpenAI رقابت کنند.
الان که دو سالی از اون روزها گذشته منتها موضوع کمی تفاوت داره و بیش از این که سمت ارائه مدل بریم، بهتره به سمت agent یا «عامل» بریم که خب خودش یک بحث مفصله.
دیشب، در بلاگ انگلیسیم کمی در مورد مدلهای بزرگ و ایجنتها صحبت کردم و امروز تصمیم گرفتم که بلاگ فارسیش رو هم بنویسم که هر دو طرف، محتوای مناسب رو داشته باشیم.
ایجنتها، عملگرایی به LLMها اضافه میکنند.
اگر دنبالکننده بلاگ و در کل محتوای من باشید، احتمالا میدونید که من هم در بازی LLM بودم و مثلا یکی از LLMهای اوپن سورسی که روش کار کردم مدل مارال هفت میلیارد پارامتری بود که روی Alpaca Persian تمرین داده شد.
اما آیا یک مدلی که سوال-جواب کنه کافیه یا به چیزی بیشتر نیاز داریم؟ در واقع برای این که LLMها بتونن موثر واقع بشن، باید بتونن با ابزارهای مختلف تعامل کنند. حالا شما فرض کنید که بخواهیم این تعامل رو در سطح فاینتیون کردن، به مدل اضافه کنیم.
یعنی فرض کنید که ما APIهایی از دیجیکالا، اسنپ، دیوار و مثلا ابر آروان بگیریم. سعی کنیم با کمک تعدادی API Call نمونه، مدل رو تیون کنیم. حالا فرض کنید یک نفر بخواد این مدل رو برای استفاده از تپسی یا باسلام به کار بگیره. چی میشه؟ هیچی! مجددا بار فاینتیون با APIهای جدید میفته روی دوش کاربر.
برای حل این مشکل، ما نیاز به agentها داریم. در واقع در مثالهای فوق هر API و ابزاری که لازم داریم رو برمیداریم، میبریم یک جایی براشون توابع درستی مینویسیم و سپس با کمک LLMها خروجی رو «انسانی» یا Humanize میکنیم. به این شکل بار فاینتیون کردن LLMهم به دوش نمیکشیم و همه چیز هم عالی پیش خواهد رفت.
ساخت ایجنت بدون استفاده از فریمورک
دقیقا از زمانی که OpenAI و سایر شرکتهایی که LLM ارائه دادند APIهای چت و یا Instruction Following خودشون رو هم ارائه کردند، فریمورکهای زیادی مثل Flowise یا Crew AI ساخته شدند که به شما کمک کنند تا ایجنت بسازید.
اما راستش رو بخواهید – همونطور که در بلاگ انگلیسی هم توضیح داده بودم – خیلی از این فریمورکها یه حجم عجیب و غریبی از پیچیدگی رو به فرایند ساخت ایجنت دارند اضافه میکنند.
نتیجه این شد که شخصا به دنبال روشی گشتم که بتونم بدون استفاده از فریمورک خاصی، به راحتی بتونیم یک ایجنت بسازیم. برای همین لازم بود که درک کنم ایجنت اصلا چی کار میکنه؟ چرا انقدر مهمه که ما بتونیم ایجنت رو درک کنیم؟ و صدالبته از هر ایجنتی که اسمش «اسمیت» باشه دوری بجوییم
ایجنتها یک سری «وظیفه» و «ورودی مناسب هر وظیفه» رو درک میکنند. این وظایف یا تسکها در واقع توابعی هستند که در برنامهمون قرار ادادیم که بتونن یک کاری رو انجام بدن (مثلا بره رخداد n ام سری فیبوناچی رو حساب کنه) و ورودیهاشون هم دیتاییه که ایجنت باید با هوش خودش تشخیص بده و بسازه.
در نهایت نیاز به مکانیزمی داریم که بیاد این وظایف و ورودیها رو اجرا کنه، خروجیشون رو دوباره بده به LLM و ازش بخواد که Humanizeش کنه. گذشته از این بد نیست که ایجنت ما یک حافظه کوچکی هم داشته باشه.
نمونه یک ایجنت ساده با پایتون
سلب ادعا: از اونجایی که کد این ایجنت رو در گیتهاب گذاشتم، صرفا مراحل ساخت ایجنت ساده رو توضیح میدم و باقیش رو میتونید از گیتهابم ببینید و ایده بگیرید.
اولین گام ما برای ساخت ایجنت باید این باشه که یک LLM مناسب انتخاب کنیم. شما مختارید هر LLMای که یک OpenAI Compatible API ارائه میده انتخاب کنید اما من شخصا دارم از پروژه جبیر خودم استفاده میکنم
بعد از اون، لازم داریم که بیاییم یک کلاینت ساده OpenAI درست کنیم که بتونه با API مورد نظر ما کار کنه:
from openai import OpenAI client = OpenAI(api_key="FAKE", base_url="https://openai.jabirpoject.org/v1")
همونطور که قبلا در این پست توضیح داده بودم، کتابخونه OpenAI در پایتون نیازمند یک API Keyئه که اینجا ما از FAKE استفاده کردیم براش.
حالا یک کلاس ایجنت ساده درست میکنیم که حافظه هم داشته باشه:
class Agent: def __init__(self, system=""): self.system = system self.messages = [] if self.system: self.messages.append({"role" : "system", "content" : system}) def __call__(self, message): self.messages.append({"role" : "user", "content" : message}) result = self.execute() self.messages.append({"role" : "assistant", "content" : result}) return result def execute(self): completion = client.chat.completions.create( model = "jabir-400b", messages = self.messages, temperature = 0.0 ) return completion.choices[0].message.content
همونطوری که میبینید، این ایجنت میتونه یک تاریخچه از چیزهایی که بهش گفتیم (و بهمون گفته) نگه داره و کم کم باید بریم سراغ این که بهش اکشنهای مورد نظر رو اضافه کنیم.
ولی خب بهتره قبل از اضافه کردن اکشن، تستش کنیم. برای تستش هم این کد رو میتونید اجرا کنید:
sample_agent = Agent("You are a helpful assistant") print(sample_agent("What is 1+1?"))
کد نمونه با اکشن
اگر دوست دارید بدونید که این ایجنت ما با اکشن چطوری کار میکنه، میتونید به این مخزن گیتهاب مراجعه کنید و ببینید که چطور به راحتی میشه یک اکشن به همین ایجنت ساده اضافه کرد و بار فریمورکها رو هم به دوش نکشید.
جمعبندی
اگر طی دو سه سال گذشته محتوای این بلاگ رو خونده باشید میبینید که علاقه من به هوش مصنوعی از پروژههایی مثل ریاضی ۱ رو با هوش مصنوعی پاس کن یا پلاکخوان فارسی که با Yolo v5 پیاده کرده بودم جدی شد.
این علاقه، کم کم به سمت Generative AI رفت و خب طبیعتا همین علاقه باعث ساختهشدن پلتفرم مانی و همچنین آتلیه شد. اما خب در سال ۲۰۲۵ احتمالا بیش از این که به مدلهای جدید نیاز داشته باشیم، نیاز داریم که مدلها رو به سمت agentic شدن بیاریم و اپلیکیشنها رو به شکل AI agent داشته باشیم.