თვითევოლუცია
თვითევოლუციის სისტემა არის 9,806 სტრიქონი Rust კოდი 22 მოდულში. ის საშუალებას აძლევს PRX-ს გააუმჯობესოს საკუთარი ქცევა დროთა განმავლობაში — არა მოდელების ხელახალი ტრენინგით, არამედ მათ გარშემო არსებული პრომპტების, მეხსიერების სტრუქტურებისა და ოპერაციული სტრატეგიების ევოლუციით.
პაიპლაინი
Section titled “პაიპლაინი”თვითევოლუცია მუშაობს სამფაზიანი ციკლით:
ჩაწერა (რეალურ დროში) │ ყოველი მოთხოვნა/პასუხის წყვილი ლოგირდება მეტამონაცემებით │ ▼ანალიზი (ყოველდღიური) │ შაბლონების ამოღება: წარუმატებლობის რეჟიმები, ნელი გზები, ხარჯის გადახრები │ ▼ევოლუცია (ყოველ 3 დღეში) კანდიდატ გაუმჯობესებების გენერირება, ჩრდილის რეჟიმში ტესტირება, დაწინაურება ან უკუქცევაჩაწერის ფაზა (რეალურ დროში)
Section titled “ჩაწერის ფაზა (რეალურ დროში)”ყოველი ინტერაქცია ჩაიწერება:
- მოთხოვნის შინაარსი და კლასიფიცირებული განზრახვა
- შერჩეული მოდელი და მარშრუტიზაციის ქულის დეტალიზაცია
- პასუხის შინაარსი და დაყოვნება
- შედეგის სიგნალები: მომხმარებლის მიღება, ხელახალი ცდები, შემდგომი კორექტირებები, ინსტრუმენტების გამოძახების წარმატება/წარუმატებლობა
- ტოკენების რაოდენობა და სავარაუდო ხარჯი
ეს მონაცემები გროვდება ლოკალურ საცავში, აშენებს მტკიცებულებათა ბაზას ანალიზისთვის.
ანალიზის ფაზა (ყოველდღიური)
Section titled “ანალიზის ფაზა (ყოველდღიური)”ყოველდღიური ანალიზის ამოცანა ამუშავებს ბოლო ჩანაწერებს შემდეგის გამოსავლენად:
| შაბლონი | გამოვლენის მეთოდი |
|---|---|
| განმეორებადი წარუმატებლობები ამოცანის ტიპზე | წარუმატებელი მოთხოვნების კლასტერიზაცია განზრახვისა და მოდელის მიხედვით |
| პრომპტის სისუსტეები | სისტემის პრომპტების იდენტიფიცირება, რომლებიც იწვევენ მიზნიდან გადახრილ პასუხებს |
| ხარჯის არაეფექტურობა | მოთხოვნების მონიშვნა, სადაც იაფი მოდელი საკმარისი იქნებოდა |
| დაყოვნების გადახრები | მოდელების ან ინსტრუმენტების გამოვლენა მცირდებადი წარმადობით |
| მეხსიერების ხარვეზები | თემების პოვნა, სადაც აგენტს არ აქვს შენახული ცოდნა |
ანალიზის შედეგები ინახება როგორც სტრუქტურირებული აღმოჩენები, ყოველი მონიშნული სიმძიმითა და მოქმედების რეკომენდაციებით.
ევოლუციის ფაზა (ყოველ 3 დღეში)
Section titled “ევოლუციის ფაზა (ყოველ 3 დღეში)”დაგროვილი ანალიზის აღმოჩენების საფუძველზე, ევოლუციის ძრავა გენერირებს კანდიდატ ცვლილებებს:
ევოლუციის სამი ფენა
Section titled “ევოლუციის სამი ფენა”პრომპტის ევოლუცია
Section titled “პრომპტის ევოლუცია”სისტემის პრომპტების მოდიფიცირება გამოვლენილი სისუსტეების აღმოსაფხვრელად:
- ინსტრუქციების გადაწერა, რომლებმაც არასწორ ინტერპრეტაციას მოჰყვა
- რეალური წარუმატებლობის შემთხვევებზე დაყრდნობით few-shot მაგალითების დამატება ან დახვეწა
- ტონის, სიტყვიერების ან ფორმატირების დირექტივების რეგულირება
- ინსტრუმენტების გამოყენების ინსტრუქციების მორგება, როცა ინსტრუმენტების გამოძახებები ვერ ხერხდება
მეხსიერების ევოლუცია
Section titled “მეხსიერების ევოლუცია”prx-memory-ში შენახული ცოდნის გაუმჯობესება:
- წარმატებული ინტერაქციებიდან მრავალჯერადი გამოყენების შაბლონების ამოღება
- ფრაგმენტირებული ცოდნის ჩანაწერების კონსოლიდაცია
- მოძველებული ან წინააღმდეგობრივი მეხსიერებების გაუქმება
- ოპერაციის დროს აღმოჩენილი ახალი დომენის ცოდნის ინდექსირება
სტრატეგიის ევოლუცია
Section titled “სტრატეგიის ევოლუცია”ოპერაციული პარამეტრების რეგულირება:
- როუტერის ქულის წონები (alpha, beta, gamma, delta, epsilon)
- Automix-ის საიმედოობის ზღვრები
- კონკურენტულობის ლიმიტები არხზე
- ტაიმაუტის ბიუჯეტები
- ნაგულისხმევი მოდელის პრეფერენციები განზრახვის კატეგორიის მიხედვით
უსაფრთხოების სისტემა
Section titled “უსაფრთხოების სისტემა”თვითევოლუცია ძლიერია, მაგრამ საშიში. PRX ახორციელებს უსაფრთხოების მრავალ ფენას რეგრესიების თავიდან ასაცილებლად.
კარიბჭის შემოწმებები
Section titled “კარიბჭის შემოწმებები”ნებისმიერი კანდიდატი ცვლილების გამოყენებამდე, მან უნდა გაიაროს კარიბჭის შემოწმებები:
- სინტაქსის ვალიდაცია — ცვლილებამ უნდა წარმოქმნას ვალიდური კონფიგურაცია/პრომპტები
- რეგრესიის ტესტი — ბოლო წარმატებული ინტერაქციების ნიმუშის ხელახალი გაშვება შემოთავაზებული ცვლილებით და გამოსავლების მისაღებობის ვერიფიკაცია
- ფარგლების შემოწმება — ცვლილება არ უნდა გასცდეს ნებადართულ ფარგლებს (მაგ., პრომპტის ევოლუცია ვერ შეცვლის უსაფრთხოების პოლიტიკას)
ჩრდილის რეჟიმი
Section titled “ჩრდილის რეჟიმი”კანდიდატი ცვლილებები ჯერ გაშვებულია ჩრდილის რეჟიმში:
- მიმდინარე (პროდაქშენის) კონფიგურაცია ამუშავებს ყველა რეალურ მოთხოვნას
- კანდიდატი კონფიგურაცია მუშაობს პარალელურად იმავე შეყვანებზე
- გამოსავლები შედარებულია, მაგრამ კანდიდატის პასუხები არასოდეს ეგზავნება მომხმარებლებს
- მეტრიკები გროვდება: ხარისხის დელტა, დაყოვნების დელტა, ხარჯის დელტა
ჩრდილის რეჟიმი მუშაობს კონფიგურირებადი შეფასების პერიოდის განმავლობაში (ნაგულისხმევი: 24 საათი).
მსაჯი მოდელი
Section titled “მსაჯი მოდელი”ცალკე მსაჯი მოდელი აფასებს ჩრდილის რეჟიმის შედეგებს. ის ადარებს პროდაქშენის და კანდიდატის გამოსავლებს მოთხოვნების ნიმუშზე და აფასებს კანდიდატს 0-1 შკალაზე.
- ზღვარი: 0.6 — 0.6-ზე ქვემოთ კანდიდატები უარყოფილია
- მსაჯი მოდელი ჩვეულებრივ არის ძლიერი მსჯელობის მოდელი (მაგ., Claude Opus, o3), განსხვავებული შეფასებული მოდელებისგან
- მსაჯის პრომპტები თავად ვერსიონირებულია და არ ექვემდებარებიან თვითევოლუციას (თამაშის თავიდან ასაცილებლად)
ამომრთველი
Section titled “ამომრთველი”თუ დაწინაურებული ცვლილება იწვევს წარუმატებლობების ზრდას გაშლის შემდეგ:
- ამომრთველი აქტიურდება, როცა წარუმატებლობის სიხშირე აჭარბებს საბაზისოს 2-ჯერ 1-საათიან ფანჯარაში
- ცვლილება ავტომატურად უკუქცევულია
- ინციდენტის ჩანაწერი იქმნება წარუმატებლობის მტკიცებულებებით
- ცვლილება მონიშნულია წარუმატებლად და არ ცდება ხელახლა მოდიფიკაციის გარეშე
ვერსიის სნეპშოტები
Section titled “ვერსიის სნეპშოტები”ყოველი კონფიგურაციის მდგომარეობა ვერსიონირებულია:
v1.0 ── საწყისი კონფიგურაციაv1.1 ── პრომპტის ევოლუცია: გაუმჯობესებული კოდირების ინსტრუქციებიv1.2 ── სტრატეგიის ევოლუცია: როუტერის წონების რეგულირებაv1.3 ── უკუქცეული (ამომრთველი აქტიურდა)v1.2 ── აღდგენილი (მიმდინარე)სნეპშოტები მოიცავს სრულ პრომპტების ნაკრებს, მეხსიერების მდგომარეობის ჰეშს, როუტერის წონებს და ყველა კონფიგურაციის პარამეტრს. ნებისმიერი ვერსია შეიძლება მყისიერად აღდგეს.
ექსპერიმენტის თვალყურის დევნება
Section titled “ექსპერიმენტის თვალყურის დევნება”ყველა ევოლუციის მცდელობა თვალყური ედევნება:
| ველი | აღწერა |
|---|---|
| კანდიდატის ID | შემოთავაზებული ცვლილების უნიკალური იდენტიფიკატორი |
| ფენა | prompt / memory / strategy |
| ტრიგერი | ანალიზის აღმოჩენა, რომელმაც მოტივირება გაუწია ცვლილებას |
| ჩრდილის მეტრიკები | დაკვირვებული ხარისხის, დაყოვნების, ხარჯის დელტები |
| მსაჯის ქულა | მსაჯი მოდელის ქულა |
| შედეგი | დაწინაურებული / უარყოფილი / უკუქცეული |
| ხანგრძლივობა | დრო, რომლის განმავლობაში იყო ცვლილება აქტიური უკუქცევამდე (თუ მოხდა) |
ეს უზრუნველყოფს სრულ აუდიტის კვალს, თუ როგორ და რატომ შეიცვალა სისტემა დროთა განმავლობაში.
RollbackManager
Section titled “RollbackManager”RollbackManager ამუშავებს ავტომატურ და ხელით უკუქცევებს:
- ავტომატური — აქტიურდება ამომრთველით, როცა წარუმატებლობის სიხშირე იზრდება
- ხელით — ოპერატორებს შეუძლიათ უკუქცევა ნებისმიერ წინა ვერსიაზე CLI-ით ან API-ით
- სელექციური — მხოლოდ ერთი ფენის უკუქცევა (მაგ., პრომპტის ცვლილებების დაბრუნება სტრატეგიის ცვლილებების შენარჩუნებით)
# ევოლუციის ისტორიის ნახვაprx evolution history
# უკუქცევა კონკრეტულ ვერსიაზეprx evolution rollback v1.2
# მხოლოდ პრომპტის ცვლილებების უკუქცევაprx evolution rollback --layer prompt v1.1უკუქცევები მყისიერია, რადგან ყველა ვერსიის სნეპშოტი ლოკალურად ინახება.