બેંગ્લુરુ સ્થિત NYUના સ્નાતકોએ ઓપન-સોર્સ વૉઇસ AI મોડેલ લોન્ચ કર્યું

બે ૨૩ વર્ષીય ભારતીય સ્થાપકોએ માયા૧ લોન્ચ કર્યું, જે ગતિશીલ રીતે નવા અવાજો બનાવે છે અને વાસ્તવિક સમયમાં જવાબ આપે છે.

ધીમંત રેડ્ડી અને ભરત કુમાર / LinkedIn

ધીમંત રેડ્ડી અને ભરત કુમાર, બંને ૨૩ વર્ષના અને ન્યૂયોર્ક યુનિવર્સિટીના સ્નાતકો,એ તેમની બેંગલુરુ સ્થિત સ્ટાર્ટઅપ માયા રિસર્ચ દ્વારા ૪ નવેમ્બર ૨૦૨૫ના રોજ માયા૧ નામનું ઓપન-સોર્સ ટેક્સ્ટ-ટુ-સ્પીચ (TTS) મોડેલ લોન્ચ કર્યું છે, જે ઝડપથી વિશ્વની ટોચની વૉઇસ એઆઈ સિસ્ટમ્સમાંની એક બની ગયું છે.

આર્ટિફિશિયલ એનાલિસિસ સ્પીચ એરેના લીડરબોર્ડ અનુસાર, માયા૧ ઓપન-વેઇટ કેટેગરીમાં બીજા ક્રમે અને વૈશ્વિક સ્તરે વૉઇસ એઆઈ મોડેલ્સમાં ૨૦મા સ્થાને છે, જે ગૂગલ સહિત મોટી કંપનીઓની સિસ્ટમ્સ કરતાં આગળ છે. તે ૨૦થી વધુ ભાવનાઓને સપોર્ટ કરે છે, ઝીરો-શૉટ વૉઇસ ક્લોનિંગ સક્ષમ બનાવે છે અને એક જ જીપીયુ પર ૧૦૦ મિલિસેકન્ડથી ઓછી વિલંબતા સાથે કાર્ય કરે છે.

આ મોડેલ ફ્રી ક્લાઉડ કમ્પ્યુટિંગ ક્રેડિટ્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવ્યું છે અને અપાચે ૨.૦ લાઇસન્સ હેઠળ રિલીઝ કરવામાં આવ્યું છે. તે ત્રણ અબજ પેરામીટર્સ સાથે બનાવવામાં આવ્યું છે. તે લેખિત પ્રોમ્પ્ટ્સમાંથી કુદરતી, ભાવનાત્મક અભિવ્યક્ત વૉઇસ ઉત્પન્ન કરી શકે છે, જે ઇલેવનલેબ્સ અને ઓપનએઆઈ જેવી માલિકીવાળી સિસ્ટમ્સ સાથે સ્પર્ધા કરતી રીઅલ-ટાઇમ સ્પીચ જનરેશન ક્ષમતા ધરાવે છે.

માયા૧ની ડિઝાઇન વપરાશકર્તાઓને તેમની ઇચ્છિત વૉઇસનું વર્ણન કરવાની મંજૂરી આપે છે – જેમ કે “૪૦ વર્ષીય મહિલા, ગરમ સ્વર, ધીમી ગતિ” – અને સિસ્ટમ તેને તુરંત ઉત્પન્ન કરે છે. મોડેલની કાર્યક્ષમતા ન્યુરલ ઑડિયો કોડેક SNACના ઉપયોગથી આવે છે, જે ધ્વનિને નાના ડેટા ટોકન્સમાં સંકુચિત કરે છે જે ૨૪ કિલોહર્ટ્ઝ ઑડિયોમાં પુનઃનિર્માણ કરવામાં આવે છે.

મોટા ભાગની વ્યાપારી ટેક્સ્ટ-ટુ-સ્પીચ મોડેલ્સ પૂર્વ-રેકોર્ડેડ વૉઇસ પર આધારિત હોય છે, તેનાથી વિપરીત માયા૧ ગતિશીલ રીતે નવી વૉઇસ બનાવે છે અને રીઅલ ટાઇમમાં પ્રતિસાદ આપે છે. તે ટેક્સ્ટમાં સીધા જ ભાવના ટૅગ્સ જેમ કે <happy>, <sad> અથવા <excited>ને અર્થઘટન કરીને અનુરૂપ વૉકલ અભિવ્યક્તિઓ ઉત્પન્ન કરે છે, પ્રતીકાત્મક સંકેતોને બદલે.

અંગ્રેજી સ્પીચ કોર્પસ પર તાલીમ આપવામાં આવી છે જેમાં મોટા પાયે ઑનલાઇન ડેટા અને સ્ટુડિયો-ગુણવત્તાવાળા રેકોર્ડિંગ્સનો સમાવેશ થાય છે. માયા૧ની ફાઇન-ટ્યુનિંગમાં માનવ-લેબલવાળી ભાવનાત્મક અને સ્વરીય વેરિએશન્સનો સમાવેશ થયો છે. તેના વિકાસકર્તાઓ જણાવે છે કે મોડેલ vLLM ફ્રેમવર્ક સાથેના એકીકરણ દ્વારા રીઅલ-ટાઇમ આઉટપુટ હાંસલ કરે છે, જે કાર્યક્ષમ અનુમાન માટેનું ફ્રેમવર્ક છે, જે ડિજિટલ આસિસ્ટન્ટ્સ અને વાર્તા કહેવાના સાધનો જેવા એપ્લિકેશન્સ માટે નજીકના તાત્કાલિક પ્રતિસાદો સક્ષમ કરે છે.

આ મોડેલ હગિંગ ફેસ પર “maya-research/maya1” હેઠળ જાહેરમાં ઉપલબ્ધ છે અને માયા રિસર્ચની સત્તાવાર વેબસાઇટ mayaresearch.ai દ્વારા સીધું જ પરીક્ષણ કરી શકાય છે.

Comments

This is a Premium Article, available exclusively to our subscribers.

Read 500+ such News or articles every month by subscribing today!
Monthly

Free

Limited Access

Limited View

Free weekly E-Paper

Subscribe Now
Monthly

$10

Full Access

Unlimited View

Free weekly E-Paper

Free daily newsletter

Subscribe Now
Annual

$50

Full Access

Unlimited View

Free weekly E-Paper

Free daily newsletter

Subscribe Now
Start the conversation

Become a member of New India Abroad to start commenting.

Sign Up Now

Already have an account? Login