નેનો બનાના, ગૂગલનું નવું મોડેલ જે AI સાથે છબીઓને સંપાદિત કરે છે અને જનરેટ કરે છે, જે પ્રભાવિત કરે છે

  • નેનો બનાના એ ગુગલના નવા વિઝ્યુઅલ મોડેલ, જેમિની 2.5 ફ્લેશ ઈમેજનું કોડનેમ છે.
  • વાતચીત સંપાદન, પાત્ર સુસંગતતા અને ચહેરા અને હાથ પર ઉન્નત ફોટોરિયલિઝમની મંજૂરી આપે છે.
  • iOS, Android અને વેબ માટે Gemini પર ઉપલબ્ધ; ઉપયોગ મર્યાદા અને વિકાસકર્તા API ઍક્સેસ સાથે મફત.
  • વાસ્તવિક અથવા પ્રખ્યાત લોકોના સંવેદનશીલ સામગ્રી અને સંપાદનને અવરોધિત કરતા SynthID અને ફિલ્ટર્સ સાથે સુરક્ષા મજબૂત બનાવો.

AI નેનો બનાના સાથે છબી સંપાદન

તાજેતરના દિવસોમાં, આ શબ્દ "નેનો બનાના" તેમણે AI મોડેલ્સની વાતચીત અને તુલનાત્મક પરીક્ષણોમાં ઝંપલાવ્યું છે, જેના કારણે અડધા ટેક ક્ષેત્રના લોકો આશ્ચર્યચકિત થઈ ગયા છે. આ ઉપનામ પાછળ, જે અફવા હતી તે આખરે પુષ્ટિ મળી છે: તેઓ જેમિની 2.5 ફ્લેશ ઈમેજનો જાહેર ચહેરો છે, જે ટેક્સ્ટનો ઉપયોગ કરીને છબીઓને સંપાદિત કરવા અને જનરેટ કરવા માટે ગૂગલનો પ્રસ્તાવ છે.

આ દરખાસ્ત શરૂઆતથી છબીઓ બનાવવાથી આગળ વધે છે: તેનું ધ્યાન ચોકસાઈ સાથે સંપાદન કરો બહુવિધ ફેરફારો દરમિયાન શૈલી, પાત્રો અને વસ્તુઓમાં સુસંગતતા જાળવી રાખવી. આ બધું કુદરતી ભાષાની સૂચનાઓ દ્વારા માર્ગદર્શન આપવામાં આવે છે, જટિલ પોસ્ટ-પ્રોડક્શન ટૂલ્સમાં નિપુણતા મેળવવાની જરૂર વગર.

નેનો બનાના શું છે અને તે હવે કેમ દેખાયું છે?

તેના શરૂઆતના તબક્કા દરમિયાન, મોડેલ રેન્કિંગમાં જોવા મળ્યું હતું જેમ કે એલએમ એરેના "નેનો-બનાના" ઉપનામ હેઠળ, તેના પરિણામોની ગુણવત્તાને કારણે સ્થાનો પર ચઢી રહ્યું છે. ગૂગલે તેને એક નામ અને અટક આપી છે: અમે વાત કરી રહ્યા છીએ જેમિની 2.5 ફ્લેશ છબી, જેમિની ઇકોસિસ્ટમનો એક મુખ્ય ઘટક જે દ્રશ્ય ભાગને કેન્દ્રિત કરે છે.

રસ ફક્ત કુલ પ્રદર્શનથી જ નહીં, પણ કેવી રીતે સંદર્ભનું અર્થઘટન કરો છબીનું: તે દ્રશ્યમાં શું છે તે સમજે છે અને વિવિધ આવૃત્તિઓ વચ્ચે સતત ફેરફારો લાગુ કરે છે, જે અન્ય સિસ્ટમોને ઐતિહાસિક રીતે સંઘર્ષ કરવો પડ્યો છે જ્યારે સતત અનેક ફેરફારોની વિનંતી કરવામાં આવી હતી.

વાતચીત સંપાદન: પ્રોમ્પ્ટથી છબી સંવાદ સુધી

મોટા સમાચાર એ છે કે સંપાદન એક અજમાયશ અને ભૂલ પ્રક્રિયા બનવાનું બંધ કરે છે અને એક બની જાય છે પુનરાવર્તિત વાતચીતદરેક વિચાર સાથે ફરી શરૂ કરવાને બદલે, વપરાશકર્તા "આકાશને વધુ નાટકીય બનાવો," "તે બેન્ચ પર એક કૂતરો ઉમેરો," અથવા "કારનો રંગ લાલ કરો," એમ કહી શકે છે અને દોરો ગુમાવ્યા વિના ટ્વીક કરતા રહી શકે છે.

વધુમાં, નેનો બનાના પરવાનગી આપે છે ચોક્કસ વિસ્તારો પસંદ કરો ફોટામાંથી સ્થાનિક ફેરફારો લાગુ કરવા માટે: કોઈ વસ્તુ દૂર કરો, પૃષ્ઠભૂમિ બદલો અથવા પ્રકાશ, પડછાયા અને દ્રષ્ટિકોણનો આદર કરીને નવા તત્વોનો સમાવેશ કરો, પાછલી પેઢીઓ કરતાં વધુ કુદરતી દ્રશ્ય એકીકરણ સાથે.

સુધારેલ દ્રશ્ય સુસંગતતા અને ફોટોરિયલિઝમ

જનરેટરોની એક સામાન્ય ફરિયાદ એ હતી કે સમાન પાત્ર ક્રમિક આવૃત્તિઓમાં સમાન પાત્ર, ઉત્પાદન અથવા શૈલી જાળવી રાખીને. અહીં, મોડેલ મુખ્ય પ્રમાણ, સુવિધાઓ અને વિગતોનું ધ્યાન રાખે છે જેથી દરેક પરિણામમાં નાયક ઓળખી શકાય તેવો રહે.

ગૂગલે ખાસ ધ્યાન આપ્યું હોવાનો દાવો કર્યો છે ચહેરા અને હાથ, પરંપરાગત રીતે સમસ્યારૂપ વિસ્તારો. વાસ્તવિક પોટ્રેટ અને દ્રશ્યોમાં લાઇટિંગ, ટેક્સચર અને શરીરરચનામાં છલાંગ નોંધપાત્ર છે, જેમાં ઓછા કલાકૃતિઓ અને વિકૃતિઓ છે.

સુધારાઓ સાથે, ક્ષમતા અદ્યતન રચના: દ્રશ્ય તોડ્યા વિના બહુવિધ ફોટામાંથી તત્વોને નવા, ડિજિટલી જનરેટ કરેલા વાતાવરણમાં જોડવા, અથવા એક છબીમાંથી બીજી છબીમાં શૈલીઓ અને પેટર્ન સ્થાનાંતરિત કરવા (દા.ત., પાંખના મોટિફને ડ્રેસમાં સ્થાનાંતરિત કરવા).

નેનો બનાનાનો ઉપયોગ ક્યાં કરવો અને કેવી રીતે શરૂઆત કરવી (મોબાઇલ, વેબ અને વધુ)

આ મોડેલ આની અંદર ઉપલબ્ધ છે જેમિની એપ્લિકેશન en iOS y , Android, વેબ વર્ઝન ઉપરાંત (જોકે તે મારા માટે કામ કરતું નથી). તમારે કંઈપણ અસામાન્ય સક્રિય કરવાની જરૂર નથી: ફક્ત એક છબી અપલોડ કરો અને ફેરફારોનું વર્ણન કરો. તે પોટ્રેટ, પાલતુ પ્રાણીઓ, લેન્ડસ્કેપ્સ અને વ્યવહારીક રીતે કોઈપણ રોજિંદા દ્રશ્ય માટે કામ કરે છે.

વ્યવહારમાં, સરળ સૂચનાઓ લખવા માટે તે પૂરતું છે: "આ મૂકો બિલાડી "બીચ પર રેતી પર," "બધા લોકોને પૃષ્ઠભૂમિમાંથી દૂર કરો," અથવા "માચુ પિચ્ચુમાં પૃષ્ઠભૂમિ બદલો." સિસ્ટમ જે રાખવાની જરૂર છે તે રાખે છે અને ફક્ત જે વિનંતી કરવામાં આવી હતી તેમાં ફેરફાર કરે છે, એક ગતિ સાથે જેને Google આંતરિક રીતે "વીજળી ઝડપી" તરીકે વર્ણવે છે.

iPhone વાપરનારાઓ માટે, અનુભવ સરળ છે: જેમિની ખોલો, પસંદ કરો છબી સંપાદિત કરો અને ફોટો અપલોડ કરો. આ જ તર્ક એન્ડ્રોઇડ અને વેબ પર પણ અપનાવવામાં આવે છે, અને પ્લેટફોર્મ પર સતત પરિણામો મળે છે.

મૂલ્ય ઉમેરતા સાધનો અને પ્રવાહો

કુદરતી ભાષા સૂચનાઓ દ્વારા કરવામાં આવેલા મૂળભૂત ગોઠવણો (રંગ, કાળો અને સફેદ, કોન્ટ્રાસ્ટ) ઉપરાંત, નેનો બનાના પરવાનગી આપે છે મલ્ટી-શિફ્ટ આવૃત્તિ સાંકળમાં: દિવાલોને રંગ કરો, ફર્નિચર ઉમેરો અને ફરીથી શરૂ કર્યા વિના પર્યાવરણના તત્વોમાં ફેરફાર કરવાનું ચાલુ રાખો.

અન્ય ઉપયોગી લક્ષણ છે ગુણોનું સંરક્ષણ દેખાવમાં ફેરફાર: ચહેરાની ઓળખ જાળવી રાખીને વાળના રંગ અથવા કપડાંમાં ફેરફાર કરવો અને બાકીનો ફોટોગ્રાફ સ્થિર રાખવો, લાક્ષણિક પૃષ્ઠભૂમિ અથવા પ્રકાશ અસંતુલનને ટાળવું.

જેમિની એપ્લિકેશન સાથે એકીકરણ એક વ્યવહારુ મુદ્દો ઉમેરે છે: તમે કરી શકો છો મિક્સ છબીઓ એક સામગ્રીમાંથી બીજામાં સામગ્રી દાખલ કરવા, શૈલીઓ સ્થાનાંતરિત કરવા અથવા વધુ સર્જનાત્મક નિયંત્રણ સાથે નવા દ્રશ્યો કંપોઝ કરવા.

સુરક્ષા, વોટરમાર્ક અને ઉપયોગ ફિલ્ટર્સ

અતિવાસ્તવિક સંપાદનના ઉદય માટે અવરોધોને મજબૂત બનાવવાની જરૂર છે. ગૂગલે શામેલ કર્યું છે સિન્થઆઈડી, એક અગોચર ડિજિટલ વોટરમાર્ક જે છબીઓમાં જડિત છે અને ફેરફારો પછી પણ તેમના મૂળને ચકાસવાની મંજૂરી આપે છે.

આ સાથે, સિસ્ટમ લાગુ પડે છે સુરક્ષા ફિલ્ટર્સ હિંસક અથવા લૈંગિક રીતે સ્પષ્ટ સામગ્રીને અવરોધિત કરવા, અને વાસ્તવિક લોકો અને સેલિબ્રિટીઓના સંપાદનને પ્રતિબંધિત કરવા. જ્યાં યોગ્ય હોય, ત્યાં Google દુરુપયોગને નિરુત્સાહિત કરવા અને ટ્રેસેબિલિટીને સરળ બનાવવા માટે વધારાની ચેતવણીઓ અથવા સંકેતો પ્રદાન કરે છે.

નેનો બનાનાની ઉપલબ્ધતા, ડેવલપરની ઍક્સેસ અને કિંમત

અંતિમ વપરાશકર્તાઓ માટે, જેમિનીમાં સંપાદન કાર્ય છે મફત ઉપલબ્ધ દૈનિક ઉપયોગ માટે વાજબી મર્યાદાઓ સાથે. મોડેલને મેન્યુઅલી પસંદ કરવાની કોઈ જરૂર નથી: તે સંપાદન પ્રવાહમાં આપમેળે કાર્ય કરે છે.

વ્યાવસાયિક વાતાવરણમાં, તેને આના દ્વારા સંકલિત કરી શકાય છે API જેમિની, ગૂગલ એઆઈ સ્ટુડિયો અને વર્ટેકસ એઆઈ તરફથી. ગૂગલે પ્રતિ મિલિયન ટોકન માટે ડેવલપરનો ખર્ચ $30 નો અહેવાલ આપ્યો છે, જે એક બેન્ચમાર્ક છે જે ઉપયોગના કેસના આધારે, પ્રતિ પ્રોસેસ્ડ ઈમેજ આશરે થોડા સેન્ટ જેટલો થઈ શકે છે.

સ્પર્ધા અને બજારની સ્થિતિ

આ લોન્ચ એવા સંદર્ભમાં આવે છે જ્યાં ઓપનએઆઈ, મિડજર્ની અને એડોબ તેઓ વિઝ્યુઅલ જનરેશન અને એડિટિંગમાં ગતિ નક્કી કરે છે. નેનો બનાનાનો ઉદ્દેશ્ય સુસંગતતા, ગતિ અને વાતચીત સંપાદનના સંયોજન સાથે આ અંતરને પૂર્ણ કરવાનો છે, અને એલએમ એરેનામાં તેના પ્રદર્શને તેને વહેલી દૃશ્યતા.

મુખ્ય વાત એ રહેશે કે તે મુશ્કેલ કાર્યોમાં કેવી રીતે વિકસિત થાય છે અને શું તે જાળવી રાખે છે મોટા પાયે સુસંગતતા જ્યારે વધુ વપરાશકર્તાઓ અને તૃતીય-પક્ષ એપ્લિકેશનો વાસ્તવિક જીવનના કેસ સાથે સિસ્ટમ પર દબાણ લાવે છે.

તેમાંથી સૌથી વધુ મેળવવા માટે ઝડપી ટિપ્સ

કુદરતી ભાષાનો ઉપયોગ અને ચોક્કસ હોવાથી મદદ મળે છે: "મૂળ ફોટામાં, પૃષ્ઠભૂમિને સૂર્યાસ્તમાં ફેરવે છે અને વિષય એ જ રાખો." શું સાચવવું જોઈએ તે દર્શાવવાથી આશ્ચર્ય ઓછું થાય છે અને સંપાદન શૃંખલાઓમાં સુસંગતતા સુધરે છે.

જટિલ ફેરફારો માટે, તેમને પગલાંઓમાં વિભાજીત કરવું શ્રેષ્ઠ છે: પહેલા પૃષ્ઠભૂમિ, પછી લાઇટિંગ, અને અંતે, સુંદર રંગ અથવા ટેક્સચર ગોઠવણો. આ પરિણામ પર વધુ સારું નિયંત્રણ પૂરું પાડે છે અને કલાકૃતિઓને ઓછામાં ઓછી કરે છે.

આજે, નેનો બનાના પેઢીને એક જ પ્રવાહમાં કેન્દ્રિત કરે છે, પુનરાવર્તિત સંપાદન અને સુસંગત પાત્ર અને શૈલી, સક્રિય સુરક્ષા નિયંત્રણો અને જેમિની એપ્લિકેશન અને વેબ પર વ્યાપક ઉપલબ્ધતા સાથે. વપરાશકર્તાઓ અને સર્જનાત્મક ટીમો માટે, ગતિ, સંદર્ભ સમજણ અને API ઍક્સેસનું સંયોજન મુશ્કેલી વિના રોજિંદા અને વ્યાવસાયિક ઉપયોગો માટે દરવાજા ખોલે છે.