Отиди на
Форум "Наука"

Първият специализиран български езиков модел


Recommended Posts

  • Администратор
Публикува
От Lubomir Alamanov
 
Създаден е първият отворен изкуствен интелект на български език - BgGPT.
 
Да, създаден е на основата на GPT-технологията, която познавате от ChatGPT. Но е изцяло разработен от Institute for Computer Science, Artificial Intelligence and Technology (INSAIT), обучен е на български език и е ИИ от последно поколение.
Не знам дали разбирате колко ключово е създаването на наш ИИ. България става една от малкото държави, които имат собствена система, обучена на собствения език, предназначена за използване от всички. Буквално от всички може да се използва. Както ученици и студенти, така и компании, които да развиват приложения, така и институции, които да правят анализи, отчети и прогнози.
 
Още нещо важно. BgGPT ще е напълно безплатен. За всички. Никой няма да плаща акаунти, регистрации или каквото и да е. Това означава, че всеки може да използва пълния потенциал. Но и това означава, че всяка компания може да разработва приложения, основани на този генеративен ИИ. Да, всяка компания може да си го използва, колкото си иска. И да напредне по-бързо от много западни компании. И няма опасност да се сложат тарифи на по-късен етап.
Освен това, всяка институция може да си го свали на собствените затворени сървъри. И да си натовати данните за изследване и търсене на тенденции, без данните да напускат затворените сървъри. Досега, ако някоя институция искаше да използва ChatGPT или друга платформа, трябваше да качи всички данни на сървърите на съответната фирма, т.е. да напуснат България. А сега всичко си остава затворено в институциите.

Някои детайли:
 
- платформата BgGPT ще е напълно отворена за всички на 3-и март;
- дотогава ще може да се тества и пробва, предимство ще се дава на институциите;
- може да кандидатствате за ранно използване на: bggpt.ai;
- платформата е обучена с помощта на над 3 милиарда словосъчетания;
- за много текстове ще е по-добра от прословутия ChatGPT;
- това може би е най-добрият модел на български език в света;
- платформата ще продължи да се обучава.

https://bggpt.ai/

 

 

  • Потребител
Публикува
Преди 12 часа, Р. Теодосиев said:

Създаден е първият отворен изкуствен интелект на български език - BgGPT.

Под "отворен" аз разбирам open-source. Този модел не е open-source, понеже на https://bggpt.ai/ пишат:

Цитирай

За достъп до модела зад BgGPT: Oчаквайте събитие през февруари, където моделът ще бъде публично споделен и представен пред българската технологична общност.

Т.е. към момента само събират имейли на хората, с цел по-късно да ги спамят, предполагам.

  • Потребител
Публикува (edited)
Преди 2 часа, Admixtools_guy said:

Под "отворен" аз разбирам open-source.

чудесно е как вие го разбирате. Но никъде не е написано че "така трябва да се разбира". Съвсем очевидно смисъла на "отворен" се съотнася за 'достъпа'. Написано е няколко пъти с цел да се наблегне на значението.

Преди 15 часа, Р. Теодосиев said:

платформата BgGPT ще е напълно отворена за всички на 3-и март;

Трудно ми е да си представя каква фантазия е нужна, за да се допусне че ЕЗИКОВ МОДЕЛ ИИ би бил open-source. Става въпрос за огромни ресурси, за скъпо оборудване, за сложни алгоритми, които непрекъснато е нужно да се следят , защото обработката на огромни бази от различни данни понякога може да тръгне в неподозирани посоки...

Не са много държавите, които наблегнаха на своя версия на езиков модел ИИ. Да не говорим за българския език и неспособността на няколкото екипа от БАН през десетките години да го алгоритмизират за да докарат дигиталните преводи до коректност и нормалност.

Редактирано от ramus
  • Потребител
Публикува
Преди 3 минути, ramus said:

чудесно е как вие го разбирате. Но никъде не е написано че "така трябва да се разбира". Съвсем очевидно смисъла на "отворен" се съотнася за 'достъпа'. Написано е няколко пъти с цел да се наблегне на значението.

Ако е съвсем очевидно, че смисълът на "отворен" се отнася за "достъпа", то авторите на текста съвсем очевидно са лъжци. Твърдението, че на 3.3. ще имаме "първия отворен изкуствен интелект на български език" е лъжа.

Аз на моя лаптоп имам ей-така между другото около 5 други "изкуствени интелекти на български език", които са хем "отоврени за достъп", хем open-source.

ChatGPT е изкуствен интелект на български език, отворен от повече от година.

Google Bard пък е друг изкуствен интелект на български език, отворен за достъп. Пример.

  • Потребител
Публикува (edited)
Преди 3 минути, Admixtools_guy said:

ChatGPT е изкуствен интелект на български език, отворен от повече от година.

друго се има предвид пред "отворен".

Изброените от вас НЕ СА ОТВОРЕНИ напълно, в тях има стандартна клиентска част и по-сериозна, която се заплаща. Има и друга особеност - къде се съхраняват и обработват данните. Защото това се оказа голям проблем и твърде много данни, с ограничено предназначение от фирми и организации, изтекоха заради "проверката". Големи световни корпорации се оказаха с "разкрит код", докато бил проверяван през ИИ.

Иглежда е много важно да се заявите, да се обозначите, да си изпишете вашето си мнение... Но освен на вас, този импулсен индивидуализъм не носи на никого друг полза.

Редактирано от ramus
  • Потребител
Публикува
Преди 1 минута, ramus said:

друго се има предвид пред "отворен".

Изброените от вас НЕ СА ОТВОРЕНИ напълно, в тях има стандартна клиентска част и по-сериозна, която се заплаща.

Аха, значи "отворен" не е open-source, не е и "достъпен". Не разбирам какво е тогава "отворен" езиков модел. Може ли да дадете пример за отворен езиков модел на английски език?

  • Потребител
Публикува (edited)
Преди 4 минути, Admixtools_guy said:

Може ли да дадете пример за отворен езиков модел на английски език?

Не, не може и няма да се занимавам с глупости и импулси от типа "тийнинат" ( аз пък... така си го разбирам)...

На ваше място бих опитал да порасна. А и - да се науча на търпението да чета и да мисля.

Редактирано от ramus
  • Потребител
Публикува
Преди 15 минути, ramus said:

Трудно ми е да си представя каква фантазия е нужна, за да се допусне че ЕЗИКОВ МОДЕЛ ИИ би бил open-source.

Ето едно видео, за да подпомогна форумните колеги с по-слаба фантазия:

 

  • Потребител
Публикува
Преди 1 минута, Admixtools_guy said:

Ето едно видео,

Изглежда още не знаете че този форум не е ФБ и в него шумните балъци минават и заминават.

  • Глобален Модератор
Публикува (edited)
Преди 28 минути, Admixtools_guy said:

Твърдението, че на 3.3. ще имаме "първия отворен изкуствен интелект на български език" е лъжа.

И защо да е лъжа? Как стигнахте до този извод от написаното, на боб или на кафе?

 

Преди 28 минути, Admixtools_guy said:

ChatGPT е изкуствен интелект на български език, отворен от повече от година.

Всичко което прави ChatGPТ на български, го прави като първо си превежда заявката на английски, "обмисля" я на този език, и после резултатът го превежда отново на български. Да не говорим, че много неща на български не ги разбира и подразбира в тях друг смисъл, което се установява след доста бъхтане.  Прост пример: накарайте го да напише римувано стихотворение на български. Няма да е римувано, но ако го поискате да ви го даде на английски, ще е римувано там.  И никакви убеждения не могат да го накарат да го римува на друг език. Е, надявам се да оправят това в следващите версии. Това е и добър тест, за да се види на какъв език са му влагани основните знания.

Редактирано от scaner
  • Потребител
Публикува (edited)

GPT не превежда, просто досега не е бил трениран на достатъчно български текст и вади по-лоши резултати (измисля си думи/форми, лоша граматика, и т.н.). Всъщност, това е и главният недостатък, с който очаквам bggpt да се справя по-добре.

Най-вероятно използват допълнително трениран и осъвършенстван модел(finetune) базиран на някой от вече публичните модели като новия Mistral7B, който в някои отношения бие OpenAI GPT 3.5 (безплатния)

Допълнителният материал не е директна част от модела, така, че не е задължително да се публикува в суров вид, но би трябвало да кажат на какво точно са го били тренирали.

Редактирано от Кирѐ Щайгата
  • Потребител
Публикува (edited)
Преди 3 часа, Кирѐ Щайгата said:

GPT не превежда

Ама превежда. :) Основната база данни е английската. Така започна и модела е така и досега. През март миналата година ми написа че все още не е способен да работи с български език и всичко минаваше само през английския и това си е съвсем естествено предвид принципната схема и първичната база данни с които всеки модел "стартира".

Изключително съм впечатлен година по-късно, когато през youtube  чекнах БАРД да превежда в реално време субтитри на английски текст. Особено когато текста е вече заложен ( а не се налага да го разпознава в момента) българския превод беше толкова добър и точен, толкова граматически, препинателен и коректно преведен, че направо се шашнах.

Преди 3 часа, Кирѐ Щайгата said:

просто досега не е бил трениран на достатъчно български текст

Няма как, няма и защо. Надяваме се българският модел да работи изначално с българската база данни. Всъщност, доколкото схващам основната цел - именно това е идеята.

Редактирано от ramus
  • Глобален Модератор
Публикува (edited)
Преди 21 минути, ramus said:

Изключително съм впечатлен година по-късно, когато през youtube  чекнах БАРД да превежда в реално време субтитри на английски текст. Особено когато текста е вече заложен ( а не се налага да го разпознава в момента) българския превод беше толкова добър и точен, толкова граматически, препинателен и коректно преведен, че направо се шашнах.

И аз си превеждам субтитрите с ChatGPT. Качеството е отлично, но има някои странности, свързани със самият процес. Например забелязах, че често тиретата в начало на изречение превежда като символ, подобен на точка. Като го питах защо е така, почна да се извинява, че така се получава поради руската транслитерация. И нататък почна невнятно да се върти в кръг в обясненията. Но като му кажеш да го оправи, оправя го. Тоест българският му е патерица. Но пък чудесно джурка и преформатира текст, справя се със сумаризация/обобщаване на големи текстове. Има сфери в които се справя добре, има такива в които не толкова... Тези наблюдения са за версията 3.5. Claude при тестове в това отношение беше още по-добро.

Редактирано от scaner
  • Потребител
Публикува

GPT е склонен да халюцинира - не всичко, което пише, е истина и качеството на това, което връща, може да варира. Няма отделна стъпка на превод от Х език на английски, но в последствие е трениран на много различни текстове и на други езици и е "разбрал" кои думи си съответстват по значение. Руския е сравнително близък и, естествено, е трениран на огромно по-голямо количество руски текст, така, че е нормално да се бърка с него.

  • Потребител
Публикува (edited)
Преди 4 часа, Кирѐ Щайгата said:

не всичко, което пише, е истина

:ag: Интересно ми е - вие твърдите ли че "'всичко, което пишете е истина"?

А дали в такъв случай "халюцинирате"?

Редактирано от ramus
  • Потребител
Публикува
Преди 4 часа, Кирѐ Щайгата said:

Руския е сравнително близък

за кого е близък - за българина ли? :)

Иронията ми е, че си нямате дори основни положения за компетентност по темата.

  • 1 месец по късно...
  • Администратор
Публикува

Моделът зад приложението за чат BgGPT вече е публикуван

https://chat.bggpt.ai/

От блога: https://bggpt.ai/blog/

3 март 2024 г

(Този текст е автоматично генериран от модела от английската версия на блога. [*])

В INSAIT сме развълнувани да пуснем BgGPT-7B-Instruct-v0.2, модела, който стои зад приложението за чат BgGPT: https://chat.bggpt.ai. Този модел, част от серията BgGPT, е подобрена версия на тази, която пуснахме преди няколко седмици. BGGPT-7B-Instruct-v0.2 все още е 7B модел, което го прави много бърз за генериране на текст и може да работи на повечето съвременни персонални компютри. Освен това идва с лиценз Apache 2.0, който е свободен и подходящ за търговски цели. Моделът се основава на Mistral-7B, но беше обучен върху значителни количества данни и комбиниран с други нововъведения (които ще бъдат публикувани в изследователски конференции), може да надмине много по-големи модели на задачи на български език. Обучението на BGGPT-7B-Instruct-v0.2 се финансира изцяло от частни средства и дарения. Моля, вижте блога ни за BGGPT-7B-Instruct-v0.1, който пуснахме по-рано.

  • Потребител
Публикува
On 16.01.2024 г. at 12:33, scaner said:

И защо да е лъжа? Как стигнахте до този извод от написаното, на боб или на кафе?

 

Всичко което прави ChatGPТ на български, го прави като първо си превежда заявката на английски, "обмисля" я на този език, и после резултатът го превежда отново на български. Да не говорим, че много неща на български не ги разбира и подразбира в тях друг смисъл, което се установява след доста бъхтане.  Прост пример: накарайте го да напише римувано стихотворение на български. Няма да е римувано, но ако го поискате да ви го даде на английски, ще е римувано там.  И никакви убеждения не могат да го накарат да го римува на друг език. Е, надявам се да оправят това в следващите версии. Това е и добър тест, за да се види на какъв език са му влагани основните знания.

"Българският GPT" също не римува на български, но римува на английски. Което потвърждава абсолютно всичко написано от мен преди 2 месеца.

image.thumb.png.d409a176b0f1d4d40fe08e32c413734b.pngimage.png.9a2a3df1ab5d71d65658ccc942a76cfd.png

  • Глобален Модератор
Публикува
Преди 13 минути, Admixtools_guy said:

"Българският GPT" също не римува на български, но римува на английски. Което потвърждава абсолютно всичко написано от мен преди 2 месеца.

Значи това не е "български модел", независимо от името с което е накичен и отборът който го е мъчил. Това е модел, базиран на английски език, преимуществено обучаван с български текстове. Смисълът на "български модел" е вероятно според националността на екипа, но не нещо специфично българско в работата му. Един модел може да го научите звучно да псува на български език, това не го прави "български модел".

Изобщо, езиковата принадлежност на модела не се определя от това, на какъв език той комуникира - защото той може да комуникира на много езици, все минавайки през английски. За което го издава римуването.

Нито пък "отворен модел" означава "open source", означава просто модел със свободен достъп. Ако моделът е "open source", трябва да имате достъп до изходните кодове. За разлика от free software, при който може да имате безплатен (или не ограничен от платен лиценз) достъп до изпълним код или услуга, но не и до изходните кодове.

Кое от казаното от вас преди 2 месеца се потвърждава от всичко това?

  • 2 седмици по-късно...

Напиши мнение

Може да публикувате сега и да се регистрирате по-късно. Ако вече имате акаунт, влезте от ТУК , за да публикувате.

Guest
Напиши ново мнение...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Вашето предишно съдържание е възстановено.   Изчистване на редактора

×   You cannot paste images directly. Upload or insert images from URL.

Зареждане...

За нас

"Форум Наука" е онлайн и поддържа научни, исторически и любопитни дискусии с учени, експерти, любители, учители и ученици.

За своята близо двайсет годишна история "Форум Наука" се утвърди като мост между тези, които знаят и тези, които искат да знаят. Всеки ден тук влизат хиляди, които търсят своя отговор.  Форумът е богат да информация и безкрайни дискусии по различни въпроси.

Подкрепи съществуването на форумa - направи дарение:

Дари

 

 

За контакти:

×
×
  • Create New...
×

Подкрепи форума!

Твоето дарение ще ни помогне да запазим и поддържаме това място за обмяна на знания и идеи. Благодарим ти!