Skip to content

თვითევოლუცია

თვითევოლუციის სისტემა არის 9,806 სტრიქონი Rust კოდი 22 მოდულში. ის საშუალებას აძლევს PRX-ს გააუმჯობესოს საკუთარი ქცევა დროთა განმავლობაში — არა მოდელების ხელახალი ტრენინგით, არამედ მათ გარშემო არსებული პრომპტების, მეხსიერების სტრუქტურებისა და ოპერაციული სტრატეგიების ევოლუციით.

თვითევოლუცია მუშაობს სამფაზიანი ციკლით:

ჩაწერა (რეალურ დროში)
│ ყოველი მოთხოვნა/პასუხის წყვილი ლოგირდება მეტამონაცემებით
ანალიზი (ყოველდღიური)
│ შაბლონების ამოღება: წარუმატებლობის რეჟიმები, ნელი გზები, ხარჯის გადახრები
ევოლუცია (ყოველ 3 დღეში)
კანდიდატ გაუმჯობესებების გენერირება, ჩრდილის რეჟიმში ტესტირება, დაწინაურება ან უკუქცევა

ჩაწერის ფაზა (რეალურ დროში)

Section titled “ჩაწერის ფაზა (რეალურ დროში)”

ყოველი ინტერაქცია ჩაიწერება:

  • მოთხოვნის შინაარსი და კლასიფიცირებული განზრახვა
  • შერჩეული მოდელი და მარშრუტიზაციის ქულის დეტალიზაცია
  • პასუხის შინაარსი და დაყოვნება
  • შედეგის სიგნალები: მომხმარებლის მიღება, ხელახალი ცდები, შემდგომი კორექტირებები, ინსტრუმენტების გამოძახების წარმატება/წარუმატებლობა
  • ტოკენების რაოდენობა და სავარაუდო ხარჯი

ეს მონაცემები გროვდება ლოკალურ საცავში, აშენებს მტკიცებულებათა ბაზას ანალიზისთვის.

ანალიზის ფაზა (ყოველდღიური)

Section titled “ანალიზის ფაზა (ყოველდღიური)”

ყოველდღიური ანალიზის ამოცანა ამუშავებს ბოლო ჩანაწერებს შემდეგის გამოსავლენად:

შაბლონიგამოვლენის მეთოდი
განმეორებადი წარუმატებლობები ამოცანის ტიპზეწარუმატებელი მოთხოვნების კლასტერიზაცია განზრახვისა და მოდელის მიხედვით
პრომპტის სისუსტეებისისტემის პრომპტების იდენტიფიცირება, რომლებიც იწვევენ მიზნიდან გადახრილ პასუხებს
ხარჯის არაეფექტურობამოთხოვნების მონიშვნა, სადაც იაფი მოდელი საკმარისი იქნებოდა
დაყოვნების გადახრებიმოდელების ან ინსტრუმენტების გამოვლენა მცირდებადი წარმადობით
მეხსიერების ხარვეზებითემების პოვნა, სადაც აგენტს არ აქვს შენახული ცოდნა

ანალიზის შედეგები ინახება როგორც სტრუქტურირებული აღმოჩენები, ყოველი მონიშნული სიმძიმითა და მოქმედების რეკომენდაციებით.

ევოლუციის ფაზა (ყოველ 3 დღეში)

Section titled “ევოლუციის ფაზა (ყოველ 3 დღეში)”

დაგროვილი ანალიზის აღმოჩენების საფუძველზე, ევოლუციის ძრავა გენერირებს კანდიდატ ცვლილებებს:

ევოლუციის სამი ფენა

Section titled “ევოლუციის სამი ფენა”

პრომპტის ევოლუცია

Section titled “პრომპტის ევოლუცია”

სისტემის პრომპტების მოდიფიცირება გამოვლენილი სისუსტეების აღმოსაფხვრელად:

  • ინსტრუქციების გადაწერა, რომლებმაც არასწორ ინტერპრეტაციას მოჰყვა
  • რეალური წარუმატებლობის შემთხვევებზე დაყრდნობით few-shot მაგალითების დამატება ან დახვეწა
  • ტონის, სიტყვიერების ან ფორმატირების დირექტივების რეგულირება
  • ინსტრუმენტების გამოყენების ინსტრუქციების მორგება, როცა ინსტრუმენტების გამოძახებები ვერ ხერხდება

მეხსიერების ევოლუცია

Section titled “მეხსიერების ევოლუცია”

prx-memory-ში შენახული ცოდნის გაუმჯობესება:

  • წარმატებული ინტერაქციებიდან მრავალჯერადი გამოყენების შაბლონების ამოღება
  • ფრაგმენტირებული ცოდნის ჩანაწერების კონსოლიდაცია
  • მოძველებული ან წინააღმდეგობრივი მეხსიერებების გაუქმება
  • ოპერაციის დროს აღმოჩენილი ახალი დომენის ცოდნის ინდექსირება

სტრატეგიის ევოლუცია

Section titled “სტრატეგიის ევოლუცია”

ოპერაციული პარამეტრების რეგულირება:

  • როუტერის ქულის წონები (alpha, beta, gamma, delta, epsilon)
  • Automix-ის საიმედოობის ზღვრები
  • კონკურენტულობის ლიმიტები არხზე
  • ტაიმაუტის ბიუჯეტები
  • ნაგულისხმევი მოდელის პრეფერენციები განზრახვის კატეგორიის მიხედვით

უსაფრთხოების სისტემა

Section titled “უსაფრთხოების სისტემა”

თვითევოლუცია ძლიერია, მაგრამ საშიში. PRX ახორციელებს უსაფრთხოების მრავალ ფენას რეგრესიების თავიდან ასაცილებლად.

კარიბჭის შემოწმებები

Section titled “კარიბჭის შემოწმებები”

ნებისმიერი კანდიდატი ცვლილების გამოყენებამდე, მან უნდა გაიაროს კარიბჭის შემოწმებები:

  1. სინტაქსის ვალიდაცია — ცვლილებამ უნდა წარმოქმნას ვალიდური კონფიგურაცია/პრომპტები
  2. რეგრესიის ტესტი — ბოლო წარმატებული ინტერაქციების ნიმუშის ხელახალი გაშვება შემოთავაზებული ცვლილებით და გამოსავლების მისაღებობის ვერიფიკაცია
  3. ფარგლების შემოწმება — ცვლილება არ უნდა გასცდეს ნებადართულ ფარგლებს (მაგ., პრომპტის ევოლუცია ვერ შეცვლის უსაფრთხოების პოლიტიკას)

კანდიდატი ცვლილებები ჯერ გაშვებულია ჩრდილის რეჟიმში:

  • მიმდინარე (პროდაქშენის) კონფიგურაცია ამუშავებს ყველა რეალურ მოთხოვნას
  • კანდიდატი კონფიგურაცია მუშაობს პარალელურად იმავე შეყვანებზე
  • გამოსავლები შედარებულია, მაგრამ კანდიდატის პასუხები არასოდეს ეგზავნება მომხმარებლებს
  • მეტრიკები გროვდება: ხარისხის დელტა, დაყოვნების დელტა, ხარჯის დელტა

ჩრდილის რეჟიმი მუშაობს კონფიგურირებადი შეფასების პერიოდის განმავლობაში (ნაგულისხმევი: 24 საათი).

ცალკე მსაჯი მოდელი აფასებს ჩრდილის რეჟიმის შედეგებს. ის ადარებს პროდაქშენის და კანდიდატის გამოსავლებს მოთხოვნების ნიმუშზე და აფასებს კანდიდატს 0-1 შკალაზე.

  • ზღვარი: 0.6 — 0.6-ზე ქვემოთ კანდიდატები უარყოფილია
  • მსაჯი მოდელი ჩვეულებრივ არის ძლიერი მსჯელობის მოდელი (მაგ., Claude Opus, o3), განსხვავებული შეფასებული მოდელებისგან
  • მსაჯის პრომპტები თავად ვერსიონირებულია და არ ექვემდებარებიან თვითევოლუციას (თამაშის თავიდან ასაცილებლად)

თუ დაწინაურებული ცვლილება იწვევს წარუმატებლობების ზრდას გაშლის შემდეგ:

  1. ამომრთველი აქტიურდება, როცა წარუმატებლობის სიხშირე აჭარბებს საბაზისოს 2-ჯერ 1-საათიან ფანჯარაში
  2. ცვლილება ავტომატურად უკუქცევულია
  3. ინციდენტის ჩანაწერი იქმნება წარუმატებლობის მტკიცებულებებით
  4. ცვლილება მონიშნულია წარუმატებლად და არ ცდება ხელახლა მოდიფიკაციის გარეშე

ვერსიის სნეპშოტები

Section titled “ვერსიის სნეპშოტები”

ყოველი კონფიგურაციის მდგომარეობა ვერსიონირებულია:

v1.0 ── საწყისი კონფიგურაცია
v1.1 ── პრომპტის ევოლუცია: გაუმჯობესებული კოდირების ინსტრუქციები
v1.2 ── სტრატეგიის ევოლუცია: როუტერის წონების რეგულირება
v1.3 ── უკუქცეული (ამომრთველი აქტიურდა)
v1.2 ── აღდგენილი (მიმდინარე)

სნეპშოტები მოიცავს სრულ პრომპტების ნაკრებს, მეხსიერების მდგომარეობის ჰეშს, როუტერის წონებს და ყველა კონფიგურაციის პარამეტრს. ნებისმიერი ვერსია შეიძლება მყისიერად აღდგეს.

ექსპერიმენტის თვალყურის დევნება

Section titled “ექსპერიმენტის თვალყურის დევნება”

ყველა ევოლუციის მცდელობა თვალყური ედევნება:

ველიაღწერა
კანდიდატის IDშემოთავაზებული ცვლილების უნიკალური იდენტიფიკატორი
ფენაprompt / memory / strategy
ტრიგერიანალიზის აღმოჩენა, რომელმაც მოტივირება გაუწია ცვლილებას
ჩრდილის მეტრიკებიდაკვირვებული ხარისხის, დაყოვნების, ხარჯის დელტები
მსაჯის ქულამსაჯი მოდელის ქულა
შედეგიდაწინაურებული / უარყოფილი / უკუქცეული
ხანგრძლივობადრო, რომლის განმავლობაში იყო ცვლილება აქტიური უკუქცევამდე (თუ მოხდა)

ეს უზრუნველყოფს სრულ აუდიტის კვალს, თუ როგორ და რატომ შეიცვალა სისტემა დროთა განმავლობაში.

RollbackManager ამუშავებს ავტომატურ და ხელით უკუქცევებს:

  • ავტომატური — აქტიურდება ამომრთველით, როცა წარუმატებლობის სიხშირე იზრდება
  • ხელით — ოპერატორებს შეუძლიათ უკუქცევა ნებისმიერ წინა ვერსიაზე CLI-ით ან API-ით
  • სელექციური — მხოლოდ ერთი ფენის უკუქცევა (მაგ., პრომპტის ცვლილებების დაბრუნება სტრატეგიის ცვლილებების შენარჩუნებით)
Terminal window
# ევოლუციის ისტორიის ნახვა
prx evolution history
# უკუქცევა კონკრეტულ ვერსიაზე
prx evolution rollback v1.2
# მხოლოდ პრომპტის ცვლილებების უკუქცევა
prx evolution rollback --layer prompt v1.1

უკუქცევები მყისიერია, რადგან ყველა ვერსიის სნეპშოტი ლოკალურად ინახება.