مدتی پیش، پروژههای مختلفی مثل مارال یا جبیر رو با هدف انتشار و ساخت یک مدل زبانی بزرگ با همون LLM (مخفف Large Language Model) شروع کرده بودم اما بحث این مدلها و شاید همزمان شدن انتشار اینها با نسخههای جدیدی از پلتفرمهای مانی و آتلیه، کمی باعث شده بود که از هدف اصلی دور بشیم.
در همین مدت، مدل ۸ میلیارد پارامتری هرمز منتشر شد که خب یک بازخورد بسیار خوب از جامعه فارسیزبان تونست بگیره. مدل هرمز، از طریق وبسایت هاگینگفیس، کاملا در دسترس شماست و میتونید ازش استفاده کنید.
اما هرمز شد بخشی از یک پروژه بزرگتر، چرا که کمی دقت به بزرگان این حوزه، نشون از این بود که تقریبا همه شرکتهای خوب و موفق در این حوزه، به جای این که «یک مدل» منتشر کنند «یک خانواده مدل» منتشر کردند که خب باید از این قضیه تا حدی الگوگیری میشد.
تصمیم به ساخت یک خانواده از مدلها
از تولیدکنندگان بزرگ و تجاری مدلهای جنریتیو که بگذریم، بسیاری از شرکتهایی که مدلهای اوپن سورس تولید میکنن و نامداران این عرصه هم هستند (مثل Alibaba Cloud, DeepSeek, Mistral و حتی Meta) عموما به یک عدد مدل کفایت نمیکنند.
مدلهایی که این شرکتها تولید میکنند عموما در یک «خانواده» قرار داره و این خانواده هم بر اساس تعداد پارامتر، توانایی استنتاج (یا همون Reasoning) توانایی بینایی ماشین (یا همون vision) و …، تعیین میشن. برای مثال یکی از مدلهای معروف این حوزه که LLaMA نام داره و توسط شرکت متا ساخته شده، معمولا در یک نمونه کوچک (۷ یا ۸ میلیارد پارامتری)، یک نمونه متوسط (۱۱ یا ۱۳ پارامتری) و نمونههای بزرگ (۷۰ میلیارد پارامتر و بیشتر) تولید میشه.
اما خب یک مورد دیگری هم که به چشمم خورد، کاری بود که DeepSeek با R1 کرده بود. در واقع اومده بودن مدلهای کوچکتر (از یک و نیم میلیارد تا هفتاد میلیارد پارامتر) رو با روش Distillation درست کرده بودند.
در واقع مدلهایی مثل LLaMA, Qwen, Mistral و … رو با دادههایی که از مدل دیپسیک ۶۷۱ میلیارد پارامتری به دست آورده بودند، مجدد آموزش دادند که در اختیار افراد بیشتری قرار بگیره.
همین موضوع، باعث شد که به این فکر بیفتیم که در سال ۱۴۰۴ به جای این که هفتهای یک LLM ریلیز کنیم یک خونواده خوب از LLMها برای تمام فصول ریلیز کنیم که باز هم از DeepSeek V3 و ترین کردن QLoRA و مرج کردن روی اون شروع شد.
اسم Xei از کجا میاد؟
پیش از این که بخواهیم در مورد خود مدلها و روش اجراشون صحبت کنیم، کمی در مورد اسم توضیح بدم.
ریاضیدانان ایرانی مثل خوارزمی، موقعی که معادلات خاصی رو حل میکردند از عبارت «شیء» بعنوان مجهول استفاده میکردند. وقتی اروپاییها آثار این دانشمندان رو به زبانهای خودشون ترجمه کردند، درک کردند که این «شیء» در واقع مجهوله و به جای این که Object (یا چیزی معادلش) ترجمهش کنند، برای حفظ حالت مجهولش از عبارت xei استفاده کردند که بعدا شد xای که در معادلات مختلف استفاده میکنیم.
یکی از دلایل این اسم، اینه که هم تلفظش برای داخلیها راحته هم خارجیها و هم یک بکگراند جالب ایرانی داره.
اما حالا مدلها چی هستند؟ چرا انقدر این خونواده از مدلها مهم بود؟
اهمیت خانواده مدل Xei
یکی از دلایل اصلی ساخته شدن Xei این بود که این مدلها بتونن هم روی دستگاههای کاربر نهایی مثل من و شما اجرا شن هم روی زیرساختهای بزرگ و صنعتی.
در واقع هم تعدادی مدل On Device داشته باشیم و هم تعداد زیادی مدل برای استفاده Enterprise و به همین خاطر ۷ تا مدل در این خونواده، قرار گرفته که در ادامه بررسی میکنیم.
مدلهای Xei
- مدل ۰.۱ میلیارد پارامتری، مبتنی بر لاماست و صرفا زبان انگلیسی میفهمه و میتونه در کارهایی مثل کدنویسی به شما کمک کنه.
- مدل ۰.۵ میلیارد پارامتری، مبتنی بر Qwen ساخته شده. با این که از دیتای چندزبانی درش استفاده شده ولی بهترین عملکرد رو روی انگلیسی داره و همچنان برای کارهایی مثل کدنویسی و نوشتن ایمیل، مناسبه.
- مدل ۲ میلیارد پارامتری که مبتنی بر Gemma 2 ساخته شده و محمد شجاعی عزیز زحمت ساختش رو کشیده، اولین مدلیه که به خوبی فارسی رو درک میکنه و میتونه به زبان فارسی به شما پاسخهای درست بده.
- مدل ۸ میلیارد پارامتری که در واقع همون هرمز قدیمی خودمونه و مبتنی بر Command-R از Cohere ساخته شده.
- مدل ۳۲ میلیارد پارامتری که باز هم مبتنی بر Command-R ساخته شده و نتایج بهتر و دقیقتری میتونه تولید کنه.
- مدل ۱۰۰ میلیارد پارامتری که باز هم مبتنی بر Command-R ساخته شده
- و در نهایت مدل ۶۷۱ میلیارد پارامتری که مبتنی بر DeepSeek V3 ساخته شده و از معماری MoE بهره میبره.
و خب همونطوری که میبینید، تا مدل ۸ میلیارد پارامتری به سادگی روی اکثر رایانههای شخصی حتی بدون کارت گرافیک NVIDIA قابل اجراست ولی نمونه ۳۲ و ۱۰۰ و ۶۷۱ نیاز به منابع بیشتری دارند که در ادامه به اونها هم میپردازیم.
چطوری به Xei دسترسی پیدا کنیم؟
اگر میخواهید مستقیما به سمت مدل ۶۷۱ میلیارد پارامتری بریم، کافیه که به این سرویس برید، یک حساب کاربری بسازید و شروع به چت کنید.
ولی اگر دوست دارید که این مدل رو روی سیستم شخصی خودتون اجرا کنید، میتونید از کتابخونه Ollama نسخه مناسب رو دانلود کنید (با کارت ۲۰۵۰ تا مدل ۳۲ میلیاردی قابل اجراست، گرچه بهترین نتیجه مربوط به همون ۸ میلیاردیه).
در آموزشهای بعدی، نحوه راهاندازی و کار کردن با Ollama رو هم قرار خواهم داد که ببینید چطور میشه به سادگی یک سری مدل خوب هوش مصنوعی رو روی کامپیوتر شخصی، اجرا کرد.
جمعبندی و سخن آخر
در حال حاضر، پروژه Xei بعنوان یکی از پرچمداران مجموعه مانی که تحت برند Aqua Regia فعالیت میکنه قراره مدتها آخرین و مهمترین پروژه ما باشه. از همین رو، پست بلاگ مربوط بهش هم زود نوشته شد تا این که بتونیم روی اون مانور لازم رو بدیم.
اما کل داستان این نیست و به زودی با سورپرایزهای جدیدتری، در خدمت شما خواهیم بود. امیدوارم تا اون موقع با Xei کارهای خفنی کرده باشید