„Microsoft“ žengia link dirbtinio intelekto nepriklausomybės, pristatydama tris naujus pamatinius modelius

Paskutiniai pakeitimai: 04/04/2026
Autorius: C SourceTrail
  • „Microsoft“ pristato tris vidinius dirbtinio intelekto pagrindinius modelius, skirtus transkripcijai, balso generavimui ir vaizdų kūrimui, siekdama sumažinti priklausomybę nuo „OpenAI“.
  • „MAI-Transcribe-1“ palaiko 25 kalbas ir veikia maždaug 2.5 karto greičiau nei dabartinis „Microsoft“ „Azure Fast“ transkripcijos pasiūlymas.
  • „MAI-Voice-1“ gali sugeneruoti 60 sekundžių pritaikomo garso maždaug per vieną sekundę, o „MAI-Image-2“ skirtas pažangiam vaizdų ir vaizdo įrašų generavimui.
  • Modeliai integruojami į „Microsoft Foundry“, „MAI Playground“, „Teams“ ir „Azure“, o jų kainos yra konkurencingos, o iki 2027 m. numatytos didelių, pažangių modelių kūrimo gairės.

„Microsoft“ nauji dirbtinio intelekto pagrindiniai modeliai

„Microsoft“ žengia aiškų žingsnį link didesnė dirbtinio intelekto autonomija pristatydama tris savo pagrindinius modelius, skirtus transkripcijai, kalbos generavimui ir vaizdų kūrimui. Šis žingsnis rodo, kad bendrovė nori gilesnio, multimodalinio dirbtinio intelekto rinkinio, kurį ji visiškai kontroliuoja, net ir išlaikydama glaudų komercinį aljansą su „OpenAI“.

Šios naujos sistemos, sukurtos pagal „Microsoft AI / MAI Superintelligence“. komandos yra sukurtos taip, kad būtų tiesiogiai prijungiamos prie tokius produktus kaip „Teams“ ir „Azure“ taip pat į vidines eksperimentines platformas. Praktiškai „Microsoft“ kloja pamatus ilgalaikei strategijai, kurioje jos pačios modeliai apima vis didesnę kasdienių darbo krūvių dalį, išorinius modelius, tokius kaip „OpenAI“, rezervuojant tiems atvejams, kai jie teikia aiškią, diferencijuotą vertę.

Trys „Microsoft“ sukurti pagrindiniai transkripcijos, balso ir vaizdų modeliai

Pristatymas apima tris pagrindinius modelius: MAI-Transcribe-1 kalbos į tekstą konvertavimui, MAI-Voice-1 teksto įgarsinimo ir MAI-Image-2 vizualiai generuoti. Kartu jie sudaro pirmąjį, labai matomą vidinio sluoksnio sluoksnį multimodalinis dirbtinio intelekto paketas kuris gali apdoroti tekstą, garsą ir vaizdus „Microsoft“ ekosistemoje.

Užuot pasikliavusi vien dideliais, universaliais modeliais, „Microsoft“ lažinasi dėl į užduotis orientuotos sistemos, kurios yra pigesnės ir greitesnės įprastais įmonių naudojimo atvejais. Šis požiūris yra ypač aktualus, nes „Copilot“ naudotojų ir dirbtinio intelekto valdomų funkcijų skaičius „Office“, „Teams“ ir „Azure“ sistemose nuolat auga, o išlaidos, kurios kitu atveju didėtų beveik tiesiškai proporcingai API naudojimui.

Pamatų modeliai Šio tipo įrankiai yra apmokyti naudojant didelius ir įvairius duomenų rinkinius, kad vėliau juos būtų galima pritaikyti įvairiems scenarijams. Čia tai reiškia, kad jie gali valdyti viską – nuo ​​skambučių centro transkripcijos ir susitikimų santraukų iki sintetinių balsų, pritaikymo neįgaliesiems įrankių ir automatizuotų turinio kūrimo procesų.

MAI-Transcribe-1: greitesnis, daugiakalbis kalbos konvertavimas į tekstą 25 kalbomis

„MAI-Transcribe-1“ yra naujasis „Microsoft“ kalbos į tekstą variklis ir vienas iš pagrindinių šio diegimo elementų. Modelis palaiko transkripciją 25 skirtingos kalbos ir buvo įvertintas viduje maždaug taip 2.5 karto greitesnis nei esamas bendrovės „Azure Fast“ transkripcijos pasiūlymas, kuris buvo atskaitos taškas dabartiniame portfelyje.

Šis našumo padidėjimas yra svarbus, nes transkripcijos darbo krūviai yra labai jautrūs delsai, ypač realiuoju laiku vykdomuose scenarijuose, tokiuose kaip tiesioginiai subtitrai, klientų aptarnavimas ar hibridiniai susitikimai. Platesnė kalbų aprėptis taip pat atitinka „Microsoft“ pasaulinę veiklą, todėl daugiašaliams klientams lengviau standartizuoti ir naudoti vieną tiekėją, o ne maišyti regioninius įrankius.

Kalbant apie produktą, „Microsoft“ planuoja tiesiogiai prijungti „MAI-Transcribe-1“ prie "Microsoft" komandos tvarkyti susitikimų transkriptus ir tiesioginius subtitrus. Laikui bėgant, tikimasi, kad tas pats variklis atsiras ir kituose produktyvumo įrankiuose, kad vartotojai mato didesnį greitį ir mažesnes išlaidas, nebūtinai pastebėdami prekės ženklo pasikeitimą.

Kainodara buvo agresyviai pozicionuota: MAI-Transcribe-1 kaina prasideda maždaug nuo 0.36 USD už apdoroto garso valandą– skaičius, kuriuo siekiama sumažinti panašius „Google“ ir „OpenAI“ pasiūlymus, tuo pačiu naudojant „Microsoft“ debesijos infrastruktūrą.

MAI-Voice-1: itin greitas teksto konvertavimas į balsą su pasirinktiniais balsais

Kalbant apie garso generavimą, MAI-Voice-1 yra naujas „Microsoft“ modelis, skirtas teksto pavertimas kalbaPasak bendrovės, ji gali pagaminti maždaug 60 sekundžių garso įrašo, kurio apdorojimo laikas yra maždaug viena sekundė, o tai yra pastebimas šuolis tais atvejais, kai reagavimas yra labai svarbus.

Be neapdoroto greičio, pagrindinis pažadas yra palaikymas pritaikytus, prie prekės ženklo pritaikytus balsusOrganizacijos galės apibrėžti balsus, kurie atitiks jų tapatybę ar konkrečius naudojimo atvejus – nuo ​​pagalbos linijų ir pokalbių agentų iki mokymo medžiagos, tinklalaidžių ir pritaikymo neįgaliesiems funkcijų. Toks kontrolės lygis tampa vis svarbesnis, nes dirbtinė kalba tampa vis dažnesnė, o klausytojai tampa reiklesni tonui ir aiškumui.

„Microsoft“ tiesiogiai siekia MAI-Voice-1 kūrėjams ir įmonėms, kuriantiems produktus, kuriuose gausu balso: skambučių centrai, programėlių asistentai, kalbų mokymosi įrankiai, medijos platformos ar bet kokia paslauga, kuriai reikalingas keičiamo dydžio pasakojimas. Kainos prasideda nuo maždaug 22 USD už milijoną simbolių, modelis turėtų būti finansiškai perspektyvus tiek esant mažoms, tiek labai didelėms apimtims.

Infrastruktūros požiūriu, MAI-Voice-1 siūlomas per Azure API„Microsoft Foundry“ ir „MAI Playground“, leisdami komandoms greitai išbandyti balsus ir pereiti prie gamybinės aplinkos nekeičiant aplinkos. Idėja – supaprastinti visą kelią nuo eksperimentavimo iki diegimo „Microsoft“ sistemoje.

„Microsoft“ dirbtinio intelekto modeliai balso ir vaizdų transkripcijai

MAI-Image-2: vaizdų ir vaizdo įrašų generavimas, integruotas į „Microsoft“ steką

Trečiasis modelis, MAI-Image-2, sutelkia dėmesį į vaizdų (o kai kuriuose aprašymuose ir vaizdo įrašų) generavimas iš tekstinių raginimųNors bendrovė neatskleidė visų techninių detalių, ji pozicionuoja šį modelį kaip vizualinį savo teksto ir garso sistemų atitikmenį, skirtą automatizuoti rinkodaros išteklių, produktų vaizdų, siužetinių lentų ir kitos medijos kūrimą.

Įdomu tai, kad MAI-Image-2 pirmą kartą pasirodė tyliau MAI žaidimų aikštelė, „Microsoft“ eksperimentinė aplinka dideliems modeliams, dar kovo viduryje. Dabartinis pranešimas įformina jos vaidmenį kaip platesnės Liejykla ir Azure ekosistema, kur įmonės gali prie jos prisijungti kaip prie standartinio komponento, o ne kaip prie grynai tyrimų demonstracinės versijos.

Kainodara vėlgi yra struktūrizuota konkurencingai: bendrovė nurodo pradinį lygį maždaug 5 USD už milijoną teksto įvesties žetonų ir aplink 33 USD už milijoną išvesties žetonų už sugeneruotus vaizdusŠie skaičiai suformuluoti kaip lygiaverčiai arba mažesni už panašius konkuruojančių tiekėjų lygius, tuo pačiu naudojantis „Microsoft“ įmonės saugumo ir atitikties paketo privalumais.

Naudojimo atvejai svyruoja nuo automatizuotų kūrybinių darbo eigų ir suasmenintus rinkodaros vaizdus, ​​skirtus greitam produktų dizaino prototipų kūrimui. Daugeliui klientų, jau standartizavusių „Azure“, pagrindinis pardavimo argumentas yra tai, kad jie gali eksperimentuoti su vaizdų generavimu neįsitraukdami papildomo išorinio tiekėjo.

Integracija tarp „Azure“, „Foundry“, „MAI Playground“ ir „Microsoft 365“

Svarbus šio pristatymo aspektas yra tai, kaip glaudžiai nauji modeliai yra įpinti į Esamos „Microsoft“ debesijos ir produktyvumo platformosVisos trys sistemos – „MAI-Transcribe-1“, „MAI-Voice-1“ ir „MAI-Image-2“ – diegiamos per „Microsoft Foundry“, įmonės aplinka, skirta pasiekti ir keisti pamatinius modelius.

Kūrėjai gali pradėti nuo MAI žaidimų aikštelė, kur tie patys modeliai pateikiami eksperimentiškesnėje sąsajoje. Ši sąranka skirta sumažinti barjerą komandoms, norinčioms išbandyti tokias funkcijas kaip transkripcija, sintetiniai balsai ar vaizdo generavimas, iš karto neįsipareigojant visiškai integracijai.

Kalbant apie produktą, „Microsoft“ jau atkreipia dėmesį į "Microsoft" komandos kaip ankstyvas naudos gavėjas. „MAI-Transcribe-1“ numatyta naudoti posėdžių transkripcijas ir subtitrus, o „MAI-Voice-1“ ir „MAI-Image-2“ turėtų būti pristatyti laikui bėgant įvairiuose „Copilot“ ir „Microsoft 365“ funkcijos, net jei galutiniai vartotojai gali nematyti aiškaus modelio prekės ženklo ženklinimo.

Įmonėms pažadas yra vienas, darnus krūvis kur transkripcija, balsas ir vaizdai egzistuoja šalia kalbos modelių, duomenų paslaugų ir analizės „Azure“ platformoje. Tai galėtų supaprastinti atitiktį, saugumo peržiūras ir tiekėjų valdymą, palyginti su kelių išorinių dirbtinio intelekto tiekėjų sujungimu.

Kainodaros strategija ir konkurencija su „OpenAI“ ir „Google“

Be techninių specifikacijų, „Microsoft“ daug dėmesio skiria kainų konkurencingumasBendrovė atvirai šiuos modelius pateikia kaip alternatyvas, kurios gali prilygti arba pranokti panašius pasiūlymus iš [produktų]. „OpenAI“ ir „Google“, ypač ilgalaikiam, didelio kiekio naudojimui.

Paskelbtos kainos – 0.36 USD už garso valandą MAI-Transcribe-1 atveju, 22 USD už milijoną simbolių MAI-Voice-1 ir 5 USD / 33 USD už milijoną žetono MAI-Image-2 struktūra – tai ne tik techninės detalės. Jos yra platesnės žinutės, kuria „Microsoft“ nori būti laikoma, dalis. ekonomiškai efektyvus, visapusiškas generatyvinio dirbtinio intelekto tiekėjas o ne tik partnerių modelių perpardavėjas.

Rinkoje, kurioje vis daugiau organizacijų integruoja dirbtinį intelektą į kasdienę veiklą, kaina už užklausą gali greitai tapti strateginiu kintamuojuTurėdama savo modelius, „Microsoft“ gali tiksliai suderinti skaičiavimo išlaidas, modelio sudėtingumą ir kainodarą vartotojams, užuot mokėjusi didelius antkainius išoriniams tiekėjams.

Taip pat yra ir signalinis efektas: pabrėždama savo pačios lyginamuosius rodiklius ir kainoraščius, „Microsoft“ iš esmės nurodo klientams, kad jiems nebereikia pagal numatytuosius nustatymus naudoti trečiųjų šalių modelių pagrindinėms darbo krūviams, pvz., transkripcijai, kalbai ir vaizdams, jei jie jau yra įsipareigoję naudoti „Azure“.

Mustafa Suleyman ir „į žmogų orientuota“ AI vizija

Trys nauji modeliai sukurti komandų, suskirstytų į „Microsoft AI / MAI Superintelligence“., vadovavo Mustafa Suleymanas, kuris dabar vadovauja „Microsoft AI“. Suleymanas, žinomas dėl ankstesnių vaidmenų dirbtinio intelekto pramonėje, viešai išdėstė viziją, kurią apibūdina kaip „Humanistinis dirbtinis intelektas“ arba į žmogų orientuotas dirbtinis intelektas.

„Microsoft“ komunikacijoje, susijusioje su pristatymu, Suleymanas pabrėžia, kad šie modeliai yra sukurti taip, kad atspindi, kaip žmonės iš tikrųjų bendrauja, teikiant pirmenybę praktinis naudingumas ir saugumasJo žodžiais tariant, tikslas yra sukurti sistemas, kurios būtų mažiau abstraktūs tyrimų projektai ir daugiau įrankių, kurie tiktų kasdieniams darbo ir namų darbo procesams.

Jis taip pat užsiminė, kad dabartinis modelių trejetas yra tik platesnio portfelio pradžia„Microsoft“ planuoja diegti papildomus pagrindinius modelius per „Foundry“ ir tiesiogiai produktuose, palaipsniui plėsdama savo vidines galimybes ne tik kalbos ir vaizdų srityje, bet ir apimdama daugiau modalumų bei labiau specializuotas užduotis.

Šis veiksmų planas pabrėžia „Microsoft“ ketinimą būti vertinama ne tik kaip kitų žmonių dirbtinio intelekto platforma, bet ir kaip savo pažangių modelių, kurie gali būti derinami su ilgalaikių partnerių, tokių kaip „OpenAI“, pasiūlymais, kūrėja.

Pertvarkytas ryšys su „OpenAI“ ir 2027 m. tikslas – sukurti pažangiausią modelį

Vienas jautriausių šios strategijos aspektų yra tai, kaip ji susijusi su „Microsoft“ garsi partnerystė su „OpenAI“Įmonės išlieka glaudžiai susijusios: „Microsoft“ investavo daugiau nei $ 13 mlrd „OpenAI“ platformoje savo modelius talpina „Azure“ platformoje ir integruoja tokias sistemas kaip GPT į tokius produktus kaip „Copilot“.

Tačiau naujausi pranešimai rodo, kad santykių persvarstymas tai suteikia „Microsoft“ daugiau galimybių lygiagrečiai vykdyti savo dirbtinio intelekto tyrimus ir produktų linijas. Suleymanas šį pokytį įvardijo kaip natūralią evoliuciją, o ne lūžį – labiau panašų į tai, kad įmonė kuria kai kuriuos savo lustus, tuo pačiu metu pirkdama iš išorinių tiekėjų.

„Bloomberg“ ir kitų šaltinių teigimu, „Microsoft“ siekia... savo didelio masto, pažangiausius modelius, kurie bus pradėti naudoti maždaug iki 2027 m.Naujai paskelbtos sistemos yra šiek tiek prieš šį siekį: jos dar nėra pozicionuojamos kaip bendrosios paskirties, pažangiausi kalbos modeliai, o veikiau kaip specializuoti komponentai, kurie sumažina priklausomybę nuo partnerių API kasdieniams darbo krūviams.

Praktiškai tai reiškia, kad „Microsoft“ gali ir toliau naudoti „OpenAI“ modelius, tokius kaip GPT-5.4, kur jie yra prasmingi, tuo pačiu palaipsniui keičia savo modelius visur, kur kainos ir kokybės santykis arba strateginiai sumetimai yra palankūs vidinėms technologijoms. Vartotojai gali tiesiog pastebėti, kad funkcijos tampa greitesnės arba pigesnės, nes šie perėjimai vyksta fone.

Platesnei dirbtinio intelekto rinkai ši dvejopa tendencija pabrėžia aiškią tendenciją: didelės technologijų įmonės siekia pusiausvyra tarp bendradarbiavimo ir savarankiškumo, naudodamiesi aljansais, kad galėtų greitai judėti į priekį, tačiau kurdami savo pajėgumus, kad ilgainiui nebūtų pririšti prie vieno tiekėjo.

Su šiais trimis modeliais „Microsoft“ iš esmės stato vėliavą: ji nori konkuruoti keliuose dirbtinio intelekto (DI) lygmenyse – nuo ​​infrastruktūros ir įrankių iki pačių pamatinių modelių, – kartu palikdama erdvės tokiems partneriams kaip „OpenAI“, kur jie turi unikalių privalumų. Klientams tai galėtų reikšti daugiau pasirinkimo galimybių, griežtesnes kainas ir laipsnišką perėjimą prie „Microsoft“ prekės ženklo DI, kuris būtų pažįstamų produktų ir paslaugų pagrindas.

trampa de dependencias de modelos de lenguaje
Susijęs straipsnis:
La trampa de Dependencia de los LLM: límites, sesgos ir riesgos
Susijusios naujienos: